有什么办法吧一个网站上的文章都爬取下来吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
hackingwu
V2EX    程序员

有什么办法吧一个网站上的文章都爬取下来吗?

  •  
  •   hackingwu
    hackingwu 2021 年 7 月 13 日 3142 次点击
    这是一个创建于 1671 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我想把一个网站上的文章爬取下来,有没有办法可以自动触发 chrome 插件(简悦),他可以重新排版,保存的日记中。但是怎么批量的去做这件事情呢?大家有什么 idea ?

    6J73U552K5UVij4R
        1
    6J73U552K5UVij4R  
       2021 年 7 月 13 日
    用 selenium ?然后加载的时候把 chrome 插件 load 进去,再用 xpath 操作?
    hackingwu
        2
    hackingwu  
    OP
       2021 年 7 月 13 日
    @2G 我们可以去触发插件的按钮吗
    itechify
        3
    itechify  
    PRO
       2021 年 7 月 13 日
    爬虫爬得好
    ingdawn
        4
    ingdawn  
       2021 年 7 月 13 日
    坐牢坐到老
    seamonster
        5
    seamonster  
       2021 年 7 月 13 日
    真刑啊,日子越来越有判头了
    zelentre
        6
    zelentre  
       2021 年 7 月 13 日
    很刑.
    ztcaoll222
        8
    ztcaoll222  
       2021 年 7 月 13 日
    先这样
    HashV2
        9
    HashV2  
       2021 年 7 月 13 日
    再这样
    tojike
        10
    tojike  
       2021 年 7 月 13 日
    进去进得早
    yunyuyuan
        11
    yunyuyuan  
       2021 年 7 月 13 日
    然后再这样
    nepiedg
        12
    nepiedg  
       2021 年 7 月 13 日
    最后在这样
    jingcoco
        13
    jingcoco  
       2021 年 7 月 13 日
    有个 网联网记忆的 工具,初衷是解决有些网站过了几年下线了 没法看的问题。
    kasusa
        14
    kasusa  
       2021 年 7 月 13 日
    python 写,selenium 库,模拟点击按钮,用 xpath 定位下一篇按钮,刷新再来。
    就这么个流程吧。
    不过我感觉网上还是垃圾信息多。都爬下来有什么用呢?
    caicaiwoshishui
        15
    caicaiwoshishui  
       2021 年 7 月 13 日 via iPhone
    楼上队形笑死我
    6J73U552K5UVij4R
        16
    6J73U552K5UVij4R  
       2021 年 7 月 14 日
    @hackingwu 可以的,用 js dom 就可以,xpath 估计也可以。
    solopython
        17
    solopython  
       2021 年 7 月 14 日
    试试 Newspaper3k
    muzuiget
        18
    muzuiget  
       2021 年 7 月 14 日
    写个浏览器扩展就可以了,专事专办。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     4818 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 34ms UTC 03:32 PVG 11:32 LAX 19:32 JFK 22:32
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86