分享下爬山虎采集器的自动识别算法动态图 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
爱意满满的作品展示区。
oness

分享下爬山虎采集器的自动识别算法动态图

  •  
  •   oness Dec 29, 2017 5785 views
    This topic created in 3044 days ago, the information mentioned may be changed or developed.
    之前的主题都是文字性描述,可能不够直观。之前:https:/www.v2ex.com/t/411413
    估计很多人没看明白,或者看不下去(体验不好。。。

    刚做了几个动态图,用来演示爬山虎采集器的自动识别算法。

    1.东方财富网的采集效果


    2.新浪新闻的采集效果


    3.v2 的效果


    测试的都是列表页,爬山虎也能够深入到内容页去抓取(通过抓取链接的深入),也是非常简单。

    目前来说,列表数据和分页的识别率都还可以。
    相对于其他采集软件来说,优势就是稍微简单、方便点。

    爬山虎采集器网站: http://www.51pashanhu.com/
    (网站目前来说,做的很烂,准备优化一下 )
    26 replies    2018-01-07 19:48:06 +08:00
    slgz
        1
    slgz  
       Dec 30, 2017
    马克
    fange01
        2
    fange01  
       Dec 30, 2017
    体验了淘宝和京东,不错。
    faketemp
        3
    faketemp  
       Jan 2, 2018 via iPhone
    局域网中无法使用吗 打开软件一直提示请确认系统日期正确,软件即将关闭 然后就自动退出?@oness
    NirvanaCN
        4
    NirvanaCN  
       Jan 3, 2018
    简单使用了下,确实比较简单好上手,但是发现两个问题:1.官网显示免费版可导出 CSV,实际只能 1000 条 /天 TXT ; 2.脚本命令必须付费才能使用,这点比较蛋疼
    oness
        5
    oness  
    OP
       Jan 3, 2018
    @faketemp 目前只能在联网状态下用
    jyf
        6
    jyf  
       Jan 3, 2018   1
    @oness 你这样搞还是以前共享软件的思路 建议你改变思路 让每个运行者通过自己的独特 ip 来对他人提供收费服务 赚取到的费用来用支撑他使用你这个软件的权限 把平台做起来多好
    faketemp
        7
    faketemp  
       Jan 3, 2018 via iPhone
    @oness 既然已经限制了免费版的核心功能 就没必要必须联网使用了吧?比如想在局域网中统计内网网站少量数据啥的 很不方便建议考虑。还有字段设置正则表达式替换时“.”好像不支持匹配换行?建议增加多行模式
    oness
        8
    oness  
    OP
       Jan 3, 2018
    @jyf 嗯,这个思路很好。但是因为技术局限。很难把这种 P2P 模式做好,做文档。
    oness
        9
    oness  
    OP
       Jan 3, 2018
    @faketemp 的确有在内网采集的需求,我在考虑下。 正则表达式后面会加几个配置选择。感谢建议
    oness
        10
    oness  
    OP
       Jan 3, 2018
    @NirvanaCN 这个网站还没更新,稍后就改
    faketemp
        11
    faketemp  
       Jan 3, 2018
    @oness 还有测试使用爬山虎时类似下面内容列表如何准确识别呢? Xpath 需要手工修改吗?请教……
    比如 http://www.shui5.cn/article/NaShuiTiaoZhen/
    Myflos
        12
    Myflos  
       Jan 3, 2018
    @oness 可以爬 58 的手机号吗
    oness
        13
    oness  
    OP
       Jan 3, 2018
    @Myflos 应该可以
    oness
        14
    oness  
    OP
       Jan 3, 2018
    @faketemp 修改列表 xpath ://div[@class='arcList']/ul/li
    faketemp
        15
    faketemp  
       Jan 4, 2018
    @oness 这样设置无法正确解析列表元素,具体如图
    ![xJv3e.jpg]( https://t1.picb.cc/uploads/2018/01/04/xJv3e.jpg)

    想要的结果图类似下图(问题是图中仅采集了各段首条信息,段中其他条目数据如何设置才能同时采集到?)
    ![xJWpc.jpg]( https://t1.picb.cc/uploads/2018/01/04/xJWpc.jpg)
    yanza
        16
    yanza  
       Jan 4, 2018
    挺不错的,不过代理只能添加一个,如果可以设置成批量添加代理就更好了,使用一个代理很容易被封
    oness
        17
    oness  
    OP
       Jan 4, 2018
    @faketemp 用 //div[@class='arcList']/ul/li xpath,然后点击字段列的下拉菜单,“选择元素”,然后点击要列表其中一项就可以。
    oness
        18
    oness  
    OP
       Jan 4, 2018
    @yanza 代理的话,正准备强化下,提供 adsl 拨号和路由器拨号 2 种
    chroming
        19
    chroming  
       Jan 4, 2018
    只有 Win 端啊
    oness
        20
    oness  
    OP
       Jan 4, 2018
    @chroming 嗯,只会 win。。。
    muyan
        21
    muyan  
       Jan 5, 2018
    老铁,软件免费不
    oness
        22
    oness  
    OP
       Jan 5, 2018
    @muyan 有免费版本
    buyaoshuohua
        23
    buyaoshuohua  
       Jan 5, 2018
    有类似的软件了 八爪鱼 火车头都可以吧
    oness
        24
    oness  
    OP
       Jan 5, 2018
    @buyaoshuohua 嗯,相比其他采集器软件,爬山虎更加简单、易用些。上手感受下就知道差异了
    fange01
        25
    fange01  
       Jan 5, 2018
    能发布到哪些网站?
    oness
        26
    oness  
    OP
       Jan 7, 2018
    @fange01 主流 cms, dz,wordpress,dede 等待
    About     Help     Advertise     Blog     API     FAQ     Solana     2275 Online   Highest 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 53ms UTC 00:59 PVG 08:59 LAX 17:59 JFK 20:59
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86