鸟巢网页数据采集系统 V2.2 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
sohoer

鸟巢网页数据采集系统 V2.2

  sohoer Apr 11, 2016 15325 views
This topic created in 3677 days ago, the information mentioned may be changed or developed.

做个简单易用通用型采集器不容易,这个项目已经花了 6 年时间,还没完还将继续。

3 年前第一次发布

http://v2ex.com/t/65371#reply149 

第一次发布后有人说太复杂,有人说应该提供独立的 WEB 管理界面等等,花了 3 年时间在这个版本都有实现,并且做了很多的重构与功能完善。

三年前注册的用户,可以直接安装使用(鸟巢采集器个人用户终身免费使用),

项目地址

https://github.com/speed/newcrawler 

目前还不打算开放注册,准备再测试一个月(请不要申请邀请码)

鸟巢采集器

http://www.newcrawler.com 

测试帐号(请使用海外节点,因为 GAE,OpenShift 都已被墙)

username:test password:test 

演示视频

http://video.newcrawler.com/newcrawler_v2.2.mp4

http://ww3.sinaimg.cn/large/5e24c9a7gw1f2sj1vgfx8j20zk0rhtg2.jpg

Supplement 1    Apr 11, 2016
最快的部署自己的爬虫是
Fork coding 上的代码再开启演示功能,像这样
https://coding.net/u/speed/p/newcrawler/paas
Supplement 2    Apr 11, 2016
很期待大家多多提意见,我的目标是做一款强大好用又免费的工具(仅限个人)

上一次大家提的意见我花了 3 年时间完善,这一次说不定会花 4 年,刚好 10 年磨一剑。

再次感谢各位的赞!谢谢!
103 replies    2024-04-13 05:27:08 +08:00
1  2  
rubyvector
    1
rubyvector  
   Apr 11, 2016   1
楼主强人哦.界面细腻,功能强大到难以想像.不知道处理有 IP 限制的页面是否有解决方案
bigdogbigpig
    2
bigdogbigpig  
PRO
   Apr 11, 2016   1
cool
shiny
    3
shiny  
PRO
   Apr 11, 2016   1
以前也考虑过写类似东西,但思路不及楼主。看得出花费了大量心血。
stiekel
    4
stiekel  
   Apr 11, 2016   1
有毅力,一个项目能够坚持这么多年,赞!
yanyuan2046
    5
yanyuan2046  
   Apr 11, 2016   1
牛逼,能用 6 年做一件事的都是牛人
server
    6
server  
   Apr 11, 2016
牛人,毅力!!
whahugao
    7
whahugao  
   Apr 11, 2016
好棒!楼主好毅力
pypy
    8
pypy  
   Apr 11, 2016
好厉害!学习楼主这种精神!
sohoer
    9
sohoer  
OP
   Apr 11, 2016
@rubyvector 可以实现基于代理池的网页抓取插件,也可以是独立于采集器的多线 ADSL+ROS 解决方案
其实我的终极目标是基于鸟巢采集器做爬虫共享

多谢各位的友情支持
mew7wo
    10
mew7wo  
   Apr 11, 2016
楼主牛人 已安装试用
kukat
    11
kukat  
   Apr 11, 2016
有 docker image 吗?
sewyu
    12
sewyu  
   Apr 11, 2016
吓到了,好强大。。。。 绝对大神
sohoer
    13
sohoer  
OP
   Apr 11, 2016
@kukat 还没有,之前准备用 BWG 做 DOCKER 弄了好久发现不支持,后续会加上

不有安装脚本也还方便吧


@mew7wo 有任何意见,建议请给我留言,重构太多目前应该还有不少 BUG
feather12315
    14
feather12315  
   Apr 11, 2016 via Android
@sohoer 爬虫共享赞一个。
sylviayoung
    15
sylviayoung  
   Apr 11, 2016 via iPad
佩服楼主持之以恒的精神!
leehon
    16
leehon  
   Apr 11, 2016
6 年有点太长,一直是楼主一个人开发吗
alongdj
    17
alongdj  
   Apr 11, 2016 via Android
楼主好毅力…
inoricho
    18
inoricho  
   Apr 11, 2016
楼主大触!
wuyadong
    19
wuyadong  
   Apr 11, 2016
楼主,吊~!
zeac
    20
zeac  
   Apr 11, 2016
佩服~
keepcleargas
    21
keepcleargas  
   Apr 11, 2016
大牛 膜拜.
Kilerd
    22
Kilerd  
   Apr 11, 2016
太厉害了,坚持了那么久,我很久之前也写过一个,不过完全不通用啊。
mahone3297
    23
mahone3297  
   Apr 11, 2016
什么毅力居然让你坚持了 6 年。。。赞。。。
kutata
    24
kutata  
   Apr 11, 2016
这项目的构建方式刷新了三观,好腻害.....
qa52666
    25
qa52666  
   Apr 11, 2016
牛逼
soulteary
    26
soulteary  
   Apr 11, 2016
成功炸出来潜水党...点赞。
dong3580
    27
dong3580  
   Apr 11, 2016
已经 star,真是膜拜大牛啊,
ixinshang
    28
ixinshang  
   Apr 11, 2016
在树莓派贴吧 看过一个类似的 info
sunbeams001
    29
sunbeams001  
   Apr 11, 2016
定制度和完成度都好高……膜拜下
Xrong
    30
Xrong  
   Apr 11, 2016
我了个去啊,牛逼到家啊。。。给楼上点个赞啊
heige853
    31
heige853  
   Apr 11, 2016
看了下 好牛逼 颠覆了对以往采集工具的理解~
Asimov
    32
Asimov  
   Apr 11, 2016 via Android
回家试试
missqso
    33
missqso  
   Apr 11, 2016
好厉害啊,很多 ux 动画也是非常的精致。
FanError
    34
FanError  
   Apr 11, 2016
一登录进去 NPE 了哦

java.lang.NullPointerException
at lllllllllllllll.IIlIIllllIIlllllI.lIlIllIllIIIllI(Unknown Source)
at lllllllllllllll.IIlIIllllIIlllllI.IIIIIllIlIIIIII(Unknown Source)
at lllllllllllllll.IIlIIllllIIlllllI.IIIIIIlllIlllIl(Unknown Source)
at lllllllllllllll.IIlIIllllIIlllllI.IIlIIIlIlIIlIIl(Unknown Source)
at lllllllllllllll.IIlIlllIlllIlIIII.lIIllIllllIIIIl(Unknown Source)
at lllllllllllllll.IIlIlllIlllIlIIII.check(Unknown Source)
at sun.reflect.GeneratedMethodAccessor60.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source)
at java.lang.reflect.Method.invoke(Unknown Source)
at lllllllllllllll.IIlIlIllIIIlIlIll.IIIIlIlllIIlIll(Unknown Source)
at lllllllllllllll.IIlIlllIlIllllIIl.call(Unknown Source)
at lllllllllllllll.IIlIIlIIIlIIlIIII.IIlIIlIlIlIlIIl(Unknown Source)
at lllllllllllllll.IIlIIlIIIlIIlIIII.service(Unknown Source)
Caratpine
    35
Caratpine  
   Apr 11, 2016
好厉害,赞赞赞
loadingimg
    36
loadingimg  
   Apr 11, 2016
膜拜一下
ketle
    37
ketle  
   Apr 11, 2016
可视化的怎么弄
Sunya
    38
Sunya  
   Apr 11, 2016 via iPhone
wecl come back 。赞
csx163
    39
csx163  
   Apr 11, 2016
三年前看过,记得当时根本无从下手,现在真的好用多了。 [赞]
sohoer
    40
sohoer  
OP
   Apr 11, 2016
@FanError 请切换到海外节点,在 LOGO 边上
sohoer
    41
sohoer  
OP
   Apr 11, 2016
上一次发布有人说访问太慢,
所以我自己实现了分布式同步,目前有三个节点, aliyun 、 gae 、 linode
被墙的资源如 GAE 请使用 linode(海外节点)访问
frankmdong
    42
frankmdong  
   Apr 11, 2016
好毅力 已 star
xiaogouxo
    43
xiaogouxo  
   Apr 11, 2016
楼主太刁了。已 star
walkershow
    44
walkershow  
   Apr 11, 2016
楼主牛逼啊!
sohoer
    45
sohoer  
OP
   Apr 11, 2016
@leehon 一直都是一个人开发

有时候想想都觉得自己很强大,坚持这么久做一件事情
无数次编译,数不清的重构,每一次重构都很痛苦
刚开始程序员生涯的时候做过很多垃圾站,也用过不少采集器
后面知道 GAE 免费,于是想用很多的 GAE APP 来搭一个免费的爬虫网络(违反 TOS )
基于 GAE 开发后发现 PAAS 平台限制太多,后来加上了标准的 JAVA 环境支持
目前同时支持 GAE 与标准 JAVA 环境,开发上也增加不少难度,
谁让我想吃免费的蛋糕呢!

最后大家都能有免费蛋糕吃
xingshu
    46
xingshu  
   Apr 11, 2016
能留个邮箱么,有点其他需求,希望能通过邮箱沟通。
sohoer
    47
sohoer  
OP
   Apr 11, 2016
xingshu
    48
xingshu  
   Apr 11, 2016
@sohoer 已发,谢谢。
fengxiang
    49
fengxiang  
   Apr 11, 2016 via Android
手动点赞,楼主能坚持真的很厉害。不像某些项目,一堆 bug 还到处宣扬。
gimp
    50
gimp  
   Apr 11, 2016
佩服楼主的毅力和能力,点赞!
mcwanderer
    51
mcwanderer  
   Apr 11, 2016
膜拜
tr>
badcode
    52
badcode  
   Apr 11, 2016   1
看哭了,我确定是回这贴的
sohoer
    53
sohoer  
OP
   Apr 11, 2016
@badcode 你确定吗?
DesignerSkyline
    54
DesignerSkyline  
   Apr 11, 2016
给你点赞啦!希望以后也继续更新
Flygoat
    55
Flygoat  
   Apr 11, 2016 via iPad
垃圾站助手?
sohoer
    56
sohoer  
OP
   Apr 11, 2016
@Flygoat 现在不做垃圾站了,像这样的 http://www.shishibi.com(半成品)
binux
    57
binux  
   Apr 11, 2016
选项太多了,来试试 import.io
sohoer
    58
sohoer  
OP
   Apr 11, 2016
@binux 大神来了啊!

试用过 import.io 好卡,他也有不少可配置项,并且这种可视化配置并不能做到通用
其实我那两个导出图标都还是从他们家搬来的
ven
    59
ven  
   Apr 11, 2016
太强大了!赞!
sohoer
    60
sohoer  
OP
   Apr 11, 2016
@binux

哦你说的应该是那个无需配置的功能,那个复杂点的页面就解析不出来,不确定性太多
binux
    61
binux  
   Apr 11, 2016
@sohoer 最近更新了,现在是纯 web 的了,不知道你试过没有
import.io 给通用的解决方案是后处理
我给通用的解决方案是直接写脚本

与其在一大片菜单中学习一堆新的概念,还不如学几段脚本容易
ddter
    62
ddter  
   Apr 11, 2016
不是泼冷水啊,这个跟八爪鱼比起来有啥明显的优势吗。。。
jiezhi
    63
jiezhi  
   Apr 11, 2016
牛人,学习坚持精神!
sohoer
    64
sohoer  
OP
   Apr 11, 2016 via iPhone
@ddter 八爪鱼带个浏览器跑耗资源,好处是真的通用,八爪鱼能在 gae,openshift 上跑吗?
sohoer
    65
sohoer  
OP
   Apr 11, 2016
@binux

现在的可视化配置功能是没几个选项的, 保留原来的功能配置是对这个通用型采集器的强化,
我不想要这个能用那个用不了的采集器。

拿知乎的模拟登录来说, import.io 是绝对实现不了的
知乎的登录做了几次跳转,有一次是读取 cookie 的值做的跳转
HanSonJ
    66
HanSonJ  
   Apr 11, 2016
我吓尿了,好厉害!
sohoer
    67
sohoer  
OP
   Apr 11, 2016
@binux 刚刚看到,应该是最近几天更新的,好好玩一下
leafof
    68
leafof  
   Apr 11, 2016
很牛!可惜暂时用不到
ftp11yyy
    69
ftp11yyy  
   Apr 11, 2016
点赞,好厉害!
lemayi
    70
lemayi  
   Apr 11, 2016
太 nb 了!
alocne
    71
alocne  
   Apr 11, 2016
好厉害
isb
    72
isb  
   Apr 11, 2016
惊呆。~ 好厉害!!
yylzcom
    73
yylzcom  
   Apr 11, 2016 via Android
我见过的收藏人数最多的一个帖子
imWBB
    74
imWBB  
   Apr 11, 2016
点赞
xiaocsl
    75
xiaocsl  
   Apr 11, 2016
在以前的公司,有过类似的.
我负责前端,开发一个 Chrome 插件,来让人选择爬取的内容.

楼主这个,看功能要完善好多.犀利啊~
huijian222
    76
huijian222  
   Apr 11, 2016
cool
jaylong
    77
jaylong  
   Apr 11, 2016
好棒!
hpeng
    78
hpeng  
   Apr 11, 2016
好牛逼。读书的时候就有这个想法,但是并没有做下去。实在佩服,佩服。
h4lt
    79
h4lt  
   Apr 11, 2016
叼炸了。正好有相关的需要,学习学习。
strwei
    80
strwei  
   Apr 12, 2016
功能强大到爆,可惜不适合小白用
branchzero
    81
branchzero  
   Apr 12, 2016
好强大啊,已 star ,佩服 LZ 的毅力!
konakona
    82
konakona  
   Apr 12, 2016
看了介绍视频,很强大!
非常感谢楼主分享!
jacker
    83
jacker  
   Apr 12, 2016
和国外的 kimono 太像啦
sohoer
    84
sohoer  
OP
   Apr 12, 2016
@jacker 虽然 kimono 已死,但不否认有参考他的设计
cxshun
    85
cxshun  
   Apr 12, 2016
好强大,佩服楼主!
codeyung
    86
codeyung  
   Apr 12, 2016
支持楼主!
wq2016
    87
wq2016  
   Apr 12, 2016
支持一个!
myforgame
    88
myforgame  
   Apr 12, 2016
爆了
gutianyun
    89
gutianyun  
   Apr 12, 2016
@sohoer 不是都说 python 开发爬虫不错嘛,为什么你选择 java ,谢谢回答
jacker
    90
jacker  
   Apr 12, 2016
以前做过 SEO ,采集方面主要是采集后伪原创处理然后发布,现在主要做一些运营方面,会遇到需要采集一些数据做分析,根据这两方面我个人感觉可以加上的几个功能是
1.根据部分开源的程序有通用的规则,方便小白来采集(如 WordPress ,或者 magento );
2.对接一些 API ,如 copypass 等
如果能根据数据生图就更好啦
kimono 可以生成自己的 API ,这个功能也是非常不错的
viosey
    91
viosey  
   Apr 13, 2016
太强大了, 虽然说个人免费使用, 但是即使收费了也是毫不犹豫的买买买
sohoer
    92
sohoer  
OP
   Apr 13, 2016
@gutianyun 简单的开发一个爬虫, python 是好原生 API 就很强大,复杂的熟悉哪个用哪个,用 JAVA 只因我能撑控他,为了优化性能,还需要对内存堆栈做分析


@jacker 数据导出 API 支持 JSON 、 RSS 格式,你看演示视频里不是可以将数据发布到 plot.ly (图表生成)
vvaaiinn
    93
vvaaiinn  
   Apr 13, 2016
NB 啊。求个邀请码注册玩玩
wingyiu
    94
wingyiu  
   Apr 15, 2016
NB
wingyiu
    95
wingyiu  
   Apr 15, 2016
test 账号进去各种 error ,引导做得不好,居然不是开源,不过好像反编译就行了
quericy
    96
quericy  
   Apr 20, 2016
看完 LZ 的项目,感觉自己写的爬虫的通用性就是个笑话
6 年....佩服 LZ 的毅力
mew7wo
    97
mew7wo  
   May 25, 2016
个人安装之后,用什么帐号可以登录使用个人采集器
wujunze
    98
wujunze  
   Aug 19, 2016
佩服楼主的毅力
sparkssssssss
    99
sparkssssssss  
   Aug 20, 2016 via Android
膜拜!!!!
fanghui
    100
fanghui  
   Feb 21, 2017
@sohoer 主要问题是没有 xpath 表达式显示在页面的左上角,你可以看下截图,截图地址: https://pan.baidu.com/s/1ctf1Yu
1  2  
About     Help     Advertise     Blog     API     FAQ     Solana     1584 Online   Highest 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 309ms UTC 16:30 PVG 00:30 LAX 09:30 JFK 12:30
Do have faith in what you're doing.
ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86