有大佬能抓取这个网址吗 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
gongfuxiongmao
V2EX    问与答

有大佬能抓取这个网址吗

  •  
  •   gongfuxiongmao 2020-03-04 11:06:49 +08:00 4918 次点击
    这是一个创建于 2115 天前的主题,其中的信息可能已经有所发展或是发生改变。

    http://www.nhc.gov.cn/xcs/yqtb/list_gzbd.shtml

    这个网址看着是静态网站,但是还是抓不到数据

    27 条回复    2020-03-09 12:42:30 +08:00
    shuizhengqi
        1
    shuizhengqi  
       2020-03-04 11:09:10 +08:00
    你信不信你会被喝茶
    murmur
        2
    murmur  
       2020-03-04 11:11:06 +08:00   4
    一天一条数据你还写个爬虫,是家里的饭不香了还是房子没单间大了
    gongfuxiongmao
        3
    gongfuxiongmao  
    OP
       2020-03-04 11:13:08 +08:00
    @shuizhengqi 抓一个这网站,还好吧?又没违法
    opengps
        4
    opengps  
       2020-03-04 11:15:27 +08:00
    诚心建议:写爬虫不要碰这类网站
    ESeanZ
        5
    ESeanZ  
       2020-03-04 11:16:41 +08:00
    “.gov.cn”这种域名的就别碰了
    mianbao1
        6
    mianbao1  
       2020-03-04 11:16:49 +08:00 via iPhone
    这是 zf 的网站吧
    gongfuxiongmao
        7
    gongfuxiongmao  
    OP
       2020-03-04 11:18:19 +08:00
    好吧,那还是听大家的吧,本来只是想学习一下,有疫情更新,就给自己发个邮件。
    jeffrycheng
        8
    jeffrycheng  
       2020-03-04 12:57:36 +08:00
    相信网警的力量,分分钟就警察到你家
    hundan
        9
    hundan  
       2020-03-04 13:16:10 +08:00 via iPhone   3
    又不造成影响 访问频率跟浏览差不多吧 除非你拿来做奇怪的用途 楼上一群未免矫枉过正? icp 备案查询不也是 gov 域名 用 icp 备案查询网站做爬虫反代的你们是没见过吗? 别说请你喝茶不讲理由 爬这个站点是触动了什么利益吗 看心情请你喝茶?
    fengbjhqs
        10
    fengbjhqs  
       2020-03-04 13:46:21 +08:00
    没有楼上说的那么可怕, 不要爬取用户信息,还有遵循 robots 协议,比如掘金的 https://juejin.im/robots.txt 和知乎的 https://www.zhihu.com/robots.txt ,坑爹的是这个网站没有

    静态文件可以用正则,如果是 js 可以用 cheerio 或者 jsdom,

    再有如果是疫情网上有其他 api,没有必要爬这个哇
    aureole999
        11
    aureole999  
       2020-03-04 15:37:51 +08:00
    curl 都可以拿到内容啊,有啥不行的?
    coderluan
        12
    coderluan  
       2020-03-04 15:44:48 +08:00
    告诉楼主个思路,别用爬虫,用油猴,数据肯定能拿到,这样实际上抓取的操作都是在你自己的电脑完成的,对于网站来说你只是打开页面速度很频繁而已,完全是安全的,这种方式”爬“数据的唯一缺点就是性能。
    Altar
        13
    Altar  
       2020-03-04 15:54:46 +08:00
    headless chrome
    fish267
        14
    fish267  
       2020-03-04 16:06:01 +08:00
    这么低频的,写个自动化脚本不就搞定了么
    barrelsoil
        15
    barrelsoil  
       2020-03-04 16:07:46 +08:00 via Android
    @fengbjhqs 知乎把字节跳动屏蔽了?
    13k
        16
    13k  
       2020-03-04 16:07:59 +08:00
    疫情数据新浪和网易都有 api,自行搜索 v 站
    crella
        17
    crella  
       2020-03-04 19:49:20 +08:00 via Android
    这种静态网页,说不定连访问 ip 记录都没有……

    广东省教育厅网页也几乎全是静态网页,加载速度很快
    Macguffin
        18
    Macguffin  
       2020-03-04 20:01:38 +08:00 via Android
    feed43,注册一个免费账号就行
    Mavious
        19
    Mavious  
       2020-03-04 21:07:31 +08:00 via iPhone
    feed43 不是通用型爬虫,遇到 js 就挂比。不过楼主这种简单低频的需求我强烈推荐 feed43。

    目前发现 feed 的 5 种失败情况:
    1,post 协议给数据( feed43 只支持 get,除非自建,否则完全无法解决,绝望)
    2,该网站不允许国外访问(年久失修 g0v 居多,除非自建,否则完全无法解决,绝望)
    3,js 返回数据的(看近几年有好转,feed43 正在改善这个问题,现在很少见了)
    4,成功抓取了但无法记忆上一次已阅点的。一条页面 20 个条目,今日已读完,明天网站没有更新条目,但这 20 条又推过来了,简直重复条目轰炸。
    5,网站临时性无法访问,feed 推个 bad request,长期性无法访问,就第一次推过 bad,然后就悄无声息了~?需要人肉排查找出无法更新的源,有时候很久才发现爬虫挂了,然后错过重要信息。累。
    gongfuxiongmao
        20
    gongfuxiongmao  
    OP
       2020-03-04 21:14:08 +08:00
    这个网站我用 postman,发现返回的数据,没有正文
    aloyuu
        21
    aloyuu  
       2020-03-04 21:16:33 +08:00 via Android
    @hundan 你肯定没被请喝茶过
    gongfuxiongmao
        22
    gongfuxiongmao  
    OP
       2020-03-04 21:18:56 +08:00
    @aureole999 curl 我这里怎么拿不到,里面的正文内容是空的,只有一堆 js
    dallaslu
        23
    dallaslu  
       2020-03-04 21:19:11 +08:00
    带着 Cookie 应该还好吧。另外 gov.cn 肯定能爬,不然天眼查的数据都哪里来的
    l0wkey
        24
    l0wkey  
       2020-03-04 21:38:39 +08:00 via iPhone
    @barrelsoil $BIDU$投资了
    npm
        25
    npm  
       2020-03-04 22:01:50 +08:00
    小心喝茶噢
    hundan
        26
    hundan  
       2020-03-04 22:35:25 +08:00 via iPhone
    @aloyuu 你轻车熟路?
    aureole999
        27
    aureole999  
       2020-03-09 12:42:30 +08:00
    chrome 打开 f12,找到页面请求,右键 copy as curl 就可以
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4193 人在线   最高记录 6679       Select Lnguage
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 01:03 PVG 09:03 LAX 17:03 JFK 20:03
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86