
http://www.nhc.gov.cn/xcs/yqtb/list_gzbd.shtml
这个网址看着是静态网站,但是还是抓不到数据
1 shuizhengqi 2020-03-04 11:09:10 +08:00 你信不信你会被喝茶 |
2 murmur 2020-03-04 11:11:06 +08:00 一天一条数据你还写个爬虫,是家里的饭不香了还是房子没单间大了 |
3 gongfuxiongmao OP @shuizhengqi 抓一个这网站,还好吧?又没违法 |
4 opengps 2020-03-04 11:15:27 +08:00 诚心建议:写爬虫不要碰这类网站 |
5 ESeanZ 2020-03-04 11:16:41 +08:00 “.gov.cn”这种域名的就别碰了 |
6 mianbao1 2020-03-04 11:16:49 +08:00 via iPhone 这是 zf 的网站吧 |
7 |
8 jeffrycheng 2020-03-04 12:57:36 +08:00 相信网警的力量,分分钟就警察到你家 |
9 hundan 2020-03-04 13:16:10 +08:00 via iPhone 又不造成影响 访问频率跟浏览差不多吧 除非你拿来做奇怪的用途 楼上一群未免矫枉过正? icp 备案查询不也是 gov 域名 用 icp 备案查询网站做爬虫反代的你们是没见过吗? 别说请你喝茶不讲理由 爬这个站点是触动了什么利益吗 看心情请你喝茶? |
10 fengbjhqs 2020-03-04 13:46:21 +08:00 没有楼上说的那么可怕, 不要爬取用户信息,还有遵循 robots 协议,比如掘金的 https://juejin.im/robots.txt 和知乎的 https://www.zhihu.com/robots.txt ,坑爹的是这个网站没有 静态文件可以用正则,如果是 js 可以用 cheerio 或者 jsdom, 再有如果是疫情网上有其他 api,没有必要爬这个哇 |
11 aureole999 2020-03-04 15:37:51 +08:00 curl 都可以拿到内容啊,有啥不行的? |
12 coderluan 2020-03-04 15:44:48 +08:00 告诉楼主个思路,别用爬虫,用油猴,数据肯定能拿到,这样实际上抓取的操作都是在你自己的电脑完成的,对于网站来说你只是打开页面速度很频繁而已,完全是安全的,这种方式”爬“数据的唯一缺点就是性能。 |
13 Altar 2020-03-04 15:54:46 +08:00 headless chrome |
14 fish267 2020-03-04 16:06:01 +08:00 这么低频的,写个自动化脚本不就搞定了么 |
15 barrelsoil 2020-03-04 16:07:46 +08:00 via Android @fengbjhqs 知乎把字节跳动屏蔽了? |
16 13k 2020-03-04 16:07:59 +08:00 疫情数据新浪和网易都有 api,自行搜索 v 站 |
17 crella 2020-03-04 19:49:20 +08:00 via Android 这种静态网页,说不定连访问 ip 记录都没有…… 广东省教育厅网页也几乎全是静态网页,加载速度很快 |
18 Macguffin 2020-03-04 20:01:38 +08:00 via Android feed43,注册一个免费账号就行 |
19 Mavious 2020-03-04 21:07:31 +08:00 via iPhone feed43 不是通用型爬虫,遇到 js 就挂比。不过楼主这种简单低频的需求我强烈推荐 feed43。 目前发现 feed 的 5 种失败情况: 1,post 协议给数据( feed43 只支持 get,除非自建,否则完全无法解决,绝望) 2,该网站不允许国外访问(年久失修 g0v 居多,除非自建,否则完全无法解决,绝望) 3,js 返回数据的(看近几年有好转,feed43 正在改善这个问题,现在很少见了) 4,成功抓取了但无法记忆上一次已阅点的。一条页面 20 个条目,今日已读完,明天网站没有更新条目,但这 20 条又推过来了,简直重复条目轰炸。 5,网站临时性无法访问,feed 推个 bad request,长期性无法访问,就第一次推过 bad,然后就悄无声息了~?需要人肉排查找出无法更新的源,有时候很久才发现爬虫挂了,然后错过重要信息。累。 |
20 gongfuxiongmao OP 这个网站我用 postman,发现返回的数据,没有正文 |
22 gongfuxiongmao OP @aureole999 curl 我这里怎么拿不到,里面的正文内容是空的,只有一堆 js |
24 l0wkey 2020-03-04 21:38:39 +08:00 via iPhone @barrelsoil $BIDU$投资了 |
25 npm 2020-03-04 22:01:50 +08:00 小心喝茶噢 |
27 aureole999 2020-03-09 12:42:30 +08:00 chrome 打开 f12,找到页面请求,右键 copy as curl 就可以 |