有没有一种爬虫服务,只需要我指定网站和规则,就可以定时爬数据,并且可以提供我指定格式的 json api 的 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
Brucepac
V2EX    程序员

有没有一种爬虫服务,只需要我指定网站和规则,就可以定时爬数据,并且可以提供我指定格式的 json api 的

  •  
  •   Brucepac 2018-03-03 13:47:55 +08:00 10189 次点击
    这是一个创建于 2846 天前的主题,其中的信息可能已经有所发展或是发生改变。

    如题,希望各路大佬知道,告知一下。

    PS:本人比较喜欢看自然科学相关的文章,经常看环球科学的网站,加上我是做 iOS 开发的,所以我想用 swift 做一个 app 方便看文章。

    本来是想自己做全栈的,包括设计和前后端(前后端全用 swift),但是由于我对爬虫方面的知识不太了解,我想先完成 app,后期再用 Perfect 自己学习写爬虫程序。所以要是有现成的爬虫并且是开源的就最好了。

    46 条回复    2018-12-15 15:04:50 +08:00
    loading
        1
    loading  
       2018-03-03 13:48:47 +08:00 via iPhone   1
    幽灵蛛
    malagebidi
        2
    malagebidi  
       2018-03-03 13:49:48 +08:00
    用 huginn+feedly,完全满足需求。
    devjoe
        3
    devjoe  
       2018-03-03 14:29:25 +08:00 via iPhone
    直接加载整个网页,然后利用 XPath 解析就行
    bogun
        4
    bogun  
       2018-03-03 14:35:55 +08:00 via Android
    可以试一下 portia,可视化爬虫
    likuku
        5
    likuku  
       2018-03-03 14:39:27 +08:00
    IFTTT ?
    chroming
        6
    chroming  
       2018-03-03 14:40:43 +08:00 via Android   1
    可以看下 pyspider
    4BVL25L90W260T9U
        7
    4BVL25L90W260T9U  
       2018-03-03 15:29:42 +08:00 via Android   4
    那你就先 mock 一个数据开发呗,做完再说。说不定中途就放弃了
    lScarlet
        8
    lScarlet  
       2018-03-03 15:46:59 +08:00 via Android
    马克
    brotherlegend
        9
    brotherlegend  
       2018-03-03 15:51:59 +08:00 via Android
    看大佬们回答
    yuanfnadi
        10
    yuanfnadi  
       2018-03-03 17:05:31 +08:00 via iPhone   1
    toapi
    可以把网站变成 api
    silencefent
        11
    silencefent  
       2018-03-03 17:20:57 +08:00
    神箭手
    giuem
        12
    giuem  
       2018-03-03 17:22:43 +08:00 via iPhone
    safedogcc
        13
    safedogcc  
       2018-03-03 17:47:05 +08:00   1
    这不就是我的 APP [下一栈]( https://nextstack.xyz)
    该做的事吗!

    原理也是一样,把网站的 html 或者 rss 或者 json api 转换成固定的 json 数据格式,只不过不用爬虫,直接在客户端进行爬取解析,欢迎体验!
    sparkssssssss
        14
    sparkssssssss  
       2018-03-03 17:51:20 +08:00 via iPhone
    马克
    zhtttyecho
        15
    zhtttyecho  
       2018-03-03 18:41:24 +08:00
    马克
    zhesheng
        16
    zhesheng  
       2018-03-03 18:46:31 +08:00 via Android
    马克
    anonnymous
        17
    anonnymous  
       2018-03-03 18:49:49 +08:00
    克马
    Esora
        18
    Esora  
       2018-03-03 19:02:04 +08:00
    mark
    leriou
        19
    leriou  
       2018-03-03 19:35:06 +08:00
    八爪鱼试试
    sohoer
        20
    sohoer  
       2018-03-03 20:29:05 +08:00
    可以先试用下 hicrawler.com ,目前支持 json api 或发布到 wordpress
    just1
        21
    just1  
       2018-03-03 21:33:26 +08:00 via Android
    @safedogcc 在安卓版好像只看到了 rss 和知乎专栏
    golmic
        22
    golmic  
       2018-03-03 21:35:42 +08:00 via Android
    我可以免费提供数据方面的技术支持。微信 lujqme,可以联系我
    limbo0
        23
    limbo0  
       2018-03-03 22:37:58 +08:00 via iPhone
    不趁现在学习一波 python 吗
    rootit
        24
    rootit  
       2018-03-03 22:46:10 +08:00
    你想的太简单了。。。
    safedogcc
        25
    safedogcc  
       2018-03-04 00:20:44 +08:00   1
    @just1 #21
    这类是固定的解析模版,比如 v1.4 的简书专题(近日发布),v1.5 的 hexo 博客支持(待发布)以及后续的 wordpress 博客站点等等一些较常用的 cms 系统(因为基本 dom 元素一致,所以解析代码通用)。

    当然,你有兴趣可以看看开发文档,你会发现绝大部分的网站都可以进行创作哒!
    xuanyuanaosheng
        26
    xuanyuanaosheng  
       2018-03-04 00:29:02 +08:00 via Android
    mark
    mlyy
        27
    mlyy  
       2018-03-04 00:29:52 +08:00
    这里有两层难度

    - "指定网站和规则"
    - "我指定网站和规则"
    agdhole
        28
    agdhole  
       2018-03-04 00:55:30 +08:00
    造数了解一下
    demonchang
        29
    demonchang  
       2018-03-04 01:06:48 +08:00 via iPhone
    发源地云采集引擎,可以看一下。自带周期更新
    dobelee
        30
    dobelee  
       2018-03-04 01:43:38 +08:00 via Android
    mark
    gouchaoer
        31
    gouchaoer  
       2018-03-04 02:05:34 +08:00 via Android
    正在做相关的东西,我爬虫攻城狮干了几年了
    wwb721
        32
    wwb721  
       2018-03-04 08:12:48 +08:00
    马克
    idcspy
        33
    idcspy  
       2018-03-04 10:47:07 +08:00
    造数好像可以。
    Shura
        34
    Shura  
       2018-03-04 11:23:26 +08:00
    feed43
    Brucepac
        35
    Brucepac  
    OP
       2018-03-04 11:41:28 +08:00
    @agdhole 看网站好像不错,正在申请使用,不知道收不收费
    Brucepac
        36
    Brucepac  
    OP
       2018-03-04 11:46:00 +08:00
    @limbo0 想后期用 swift 写
    qiqico
        37
    qiqico  
       2018-03-04 12:25:36 +08:00
    https://www.showapi.com/ent 这个也不错,支持一些自定义规则
    beginor
        38
    beginor  
       2018-03-04 20:56:15 +08:00 via Android
    lisztli
        39
    lisztli  
       2018-03-04 23:27:25 +08:00
    lisztli
        40
    lisztli  
       2018-03-04 23:28:59 +08:00
    scrapinghub 和 scrapy 框架直接绑定,有免费配额,可以直接使用。
    zlstll
        41
    zlstll  
       2018-03-05 08:48:13 +08:00
    mark 一下
    dingdong
        42
    dingdong  
       2018-03-05 10:10:12 +08:00
    提供这种服务的网站,如果存储了爬虫数据,在国内会面临法律风险吧
    Jaeger
        43
    Jaeger  
       2018-03-05 10:28:27 +08:00
    midysky
        44
    midysky  
       2018-03-06 14:48:15 +08:00
    发源地云采集引擎,专门干这个事的。刚刚已开源。https://github.com/finndy/finndycloud
    midysky
        45
    midysky  
       2018-03-06 14:55:16 +08:00
    [发源地] 数据源市场有 10 几万个网站的规则。很多开发者发布的免费规则可以使用。
    8bits
        46
    8bits  
       2018-12-15 15:04:50 +08:00
    欢迎参观: t/517750
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     971 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 128ms UTC 19:10 PVG 03:10 LAX 11:10 JFK 14:10
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86