是否已经存在爬虫库交易网站, 类似极客网站 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
22 条回复    2014-11-24 10:14:18 +08:00
llhh
    1
llhh  
   2014-10-30 15:03:07 +08:00
希望早日出来这样的东东,见过卖数据的倒是。
oott123
    2
oott123  
   2014-10-30 15:15:13 +08:00 via Android
这…合法么…
luw2007
    3
luw2007  
OP
   2014-10-30 15:28:40 +08:00
看到 https://groups.google.com/d/topic/python-cn/O0oKyY7BqoE 里面提到了import.io. 才仔细考虑这个实现的可能性.
对于合法性. 数据生成环节打包给用户, 可以规避掉法律问题.
Saaee
    4
Saaee  
   2014-10-30 15:29:43 +08:00   1
我记得火车头提供出售采集规则的服务。
puyo
    5
puyo  
   2014-10-30 15:30:10 +08:00
我给学校一个部门做一个爬取新闻数据的爬虫(用于在另一个小型 web 系统上,我打算假期用 node.js 重写,顺便学习一下 node.js )。有个老师想让我做一个非编程人员使用的平台,通过相对简单的操作就可以爬取数据。有个叫做“火车头”的软件,不知道好不好用。
linzy
    6
linzy  
   2014-10-30 15:31:04 +08:00
规则编写很难统一吧
luw2007
    7
luw2007  
OP
   2014-10-30 15:36:46 +08:00
@linzy 规则编写是比较难统一, 目前没有想好如何实现, 但是一定不会太复杂.

初步构想:
包装下python, js , golang 下常用的爬虫库, 然后约定成相同的规则实现对应的框架. 开发提供的并非简单的文本描述, 而是根据框架提供的api完成爬取和整合数据的操作.
TimLang
    8
TimLang  
   2014-10-30 15:49:33 +08:00
@linzy 用下火车头就知道怎么回事了。。
luw2007
    9
luw2007  
OP
   2014-10-30 16:33:35 +08:00
@mrytsr kmonolabs.com应该和import.io 差不多.
我只是想提供平台. 不想直接实现.
毕竟需要实现的网站太多了.
Doubear
    10
Doubear  
   2014-10-30 17:23:52 +08:00
昨天用PHP写了个爬虫抓一个网站的数据,几千条几下搞完,还保存图片的 但是还是感觉慢 主要是写得慢~~~
luw2007
    11
luw2007  
OP
   2014-10-30 17:35:00 +08:00
@Doubear 平台提供的是交易和执行环境. 你爬了这个站. 其他人也想要, 怎么办. 通过平台, 你可以把你的爬虫买给他们. 他们自己去定制跑任务. 而不用自己去写爬虫爬取.

其实主要是集中爬虫. 避免大家都在重复写同样的内容.
linzy
    12
linzy  
   2014-10-30 18:15:30 +08:00
火车头对一般数据采集应该可以,不过需要一些学习成本。比较不可接受的是对页面js解析,我记得好像不可能,至少需要配合类似fiddler的。
ryan10107
    13
ryan10107  
   2014-10-30 19:34:03 +08:00
我也和楼主有过同样的想法,做的是平台,然后平台促成一个供求关系。例如求某个网站的数据,如淘宝某店铺所有商品数据到excel表,这份excel表就是客户需要的商品,然后有爬虫开发者根据平台提供的API写好抓取规则,例如某宝贝标题之类的,然后由平台根据开发者写好的抓取规则,去完成抓取的过程,再生成客户需要的excel表。
songxajh
    14
songxajh  
   2014-10-31 09:26:20 +08:00
cool,but who care?
ziyunhx
    15
ziyunhx  
   2014-10-31 09:44:55 +08:00   1
我们开源了一个基于规则的爬虫模块,使用C#实现,有兴趣的可以看下
https://github.com/TaikorInc/FalcoA
目前还在完善中,后期会有相关文档
ziyunhx
    16
ziyunhx  
   2014-10-31 10:06:43 +08:00
输入的是一个xml的规则,输出json数组;目前支持的规则包含了
Get/Post/Login/Logout/click/dowmload/focus/input/mouseove/parse/parsefile
等绝大多数网络和浏览器操作的模拟。
ziyunhx
    17
ziyunhx  
   2014-10-31 10:27:48 +08:00
@luw2007 另外规则的共享其实还是会重复消耗资源,最好就直接找数据服务商。
R4rvZ6agNVWr56V0
    18
R4rvZ6agNVWr56V0  
   2014-11-01 00:52:08 +08:00   1
只知道有搞数据的,好像国内还真没有爬虫服务和交易的
http://publish.datatang.com/
http://www.cnpameng.com/
wangleineo
    19
wangleineo  
   2014-11-01 01:47:00 +08:00
@luw2007 我觉得更有价值的是爬虫规则的人工维护。
写过爬虫的都知道,面对网页的结构调整和特征变化(比如元素id,className变了),爬虫很容易失效,解决这个问题有两个办法:1. 写出非常智能、健壮的爬虫;2. 人肉更新爬虫规则。现在看起来1似乎不太乐观,2可以用软件反复测试来发现失效,但是更新规则还是需要人的参与。所以如果有这样一个平台,提供爬虫源码(或者语言无关的抓取规则),同时鼓励所有用户自主更新已经失效的规则,用wikipedia众包的模式尽最大可能维持爬虫的有效性,还是蛮有价值的。
但是悖论在于,如果被爬的网站不希望被爬,那这个平台让爬虫变透明了,网站会故意打破抓取规则,最后变成‘看谁改的快’的游戏;如果网站希望自己被扒,那就开放API好了,爬取多麻烦。
luw2007
    20
luw2007  
OP
   2014-11-03 11:30:30 +08:00
@wangleineo @ziyunhx 很多网站不会提供api,同时也不阻止爬虫爬取。比如一些地方政府网站, 或者一些公益网站。 这些网站可能开发完毕之后就很少改动界面结构, 但是数据内容却一直在不断更新。 它们不会提供api给开发者,或者提供开发者友好的数据源。因此需要爬虫来整理数据。这些爬虫规则的维护成本不高, 并且将开发成本转嫁给消费者, 消费者提供一定的报酬的规则维护者。
说到底, 只是提供交流的平台。 具体维护还是需要各个开发自行去维护。
ziyunhx
    21
ziyunhx  
   2014-11-03 15:26:56 +08:00
@wangleineo @luw2007 页面智能抽取目前我们这边也有一套比较完整的算法,正确率在80%以上;今后可能也会开源。可以持续关注下。
luw2007
    22
luw2007  
OP
   2014-11-24 10:14:18 +08:00
大家可以专注下 binux做的 https://github.com/binux/pyspider
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     792 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 24ms UTC 22:04 PVG 06:04 LAX 14:04 JFK 17:04
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86