可以把网页保存到本地,在本地另建一个文件夹, 使保存在本地的目标网页内的图片 /js 脚本 /falsh 等内容完全指向保存本地的文件夹内, 是否可以做到完全零流量,完全不需再指源站点去获取内容?
题外话是,IE 好像保存得不完整吧? 好像打开 IE 在本地保存的网页,还是要去源站获取一些什么的,这个我没细究,也只是顺便问问。。。。但目前 python 我想这么做。。。^_^

可以把网页保存到本地,在本地另建一个文件夹, 使保存在本地的目标网页内的图片 /js 脚本 /falsh 等内容完全指向保存本地的文件夹内, 是否可以做到完全零流量,完全不需再指源站点去获取内容?
题外话是,IE 好像保存得不完整吧? 好像打开 IE 在本地保存的网页,还是要去源站获取一些什么的,这个我没细究,也只是顺便问问。。。。但目前 python 我想这么做。。。^_^
1 neoblackcap Dec 31, 2018 看网站,有一些网站必须跟服务器交互,那么你显然不可能将服务器所有的信息抓取下来。 |
2 iAcn Dec 31, 2018 via Android Python MHT Library 应该可以吧, 保存成 mht 格式。 |
3 pppguest3962 OP |
4 pppguest3962 OP 目标网页如果相对比较静态,flash 用个什么 downloader 工具都可以下载下来的,没有什么 ajax 复杂交互的情况, 网页结构没有复杂到马云家,优酷那样,比如类似这样的一个网页: http://www.stats.gov.cn/tjsj/zxfb/201812/t20181231_1642475.html |
5 cctv6 Jan 1, 2019 via iPhone 想到 wget |
6 congeec Jan 1, 2019 调用浏览器吧,puppeteer、selenium 了解下 |
7 zhustec Jan 1, 2019 wget 了解一下 |
8 bwangel Jan 1, 2019 建议使用截图吧。 除了视频文件,整个页面的内容都可以通过截图保存下来。 关键字: headless chrome, selenium https://developers.google.com/web/updates/2017/04/headless-chrome https://selenium-python.readthedocs.io/api.html#selenium.webdriver.remote.webdriver.WebDriver.get_screenshot_as_png |
9 imn1 Jan 1, 2019 目的? 如果只是想下载,wget 有 followlink,甚至全站都可以拉下来 如果想做个 class 给其他程序调用,就需要另外研究,不过 parse 一次页面也不太难 |
10 imn1 Jan 1, 2019 顺带提醒一下,看看站点有没有反爬,咳咳,你会被告的 |