
做个简单易用通用型采集器不容易,这个项目已经花了 6 年时间,还没完还将继续。
3 年前第一次发布
http://v2ex.com/t/65371#reply149 第一次发布后有人说太复杂,有人说应该提供独立的 WEB 管理界面等等,花了 3 年时间在这个版本都有实现,并且做了很多的重构与功能完善。
三年前注册的用户,可以直接安装使用(鸟巢采集器个人用户终身免费使用),
项目地址
https://github.com/speed/newcrawler 目前还不打算开放注册,准备再测试一个月(请不要申请邀请码)
鸟巢采集器
http://www.newcrawler.com 测试帐号(请使用海外节点,因为 GAE,OpenShift 都已被墙)
username:test password:test 演示视频
http://video.newcrawler.com/newcrawler_v2.2.mp4
http://ww3.sinaimg.cn/large/5e24c9a7gw1f2sj1vgfx8j20zk0rhtg2.jpg
1 rubyvector Apr 11, 2016 楼主强人哦.界面细腻,功能强大到难以想像.不知道处理有 IP 限制的页面是否有解决方案 |
2 bigdogbigpig PRO cool |
3 shiny PRO 以前也考虑过写类似东西,但思路不及楼主。看得出花费了大量心血。 |
4 stiekel Apr 11, 2016 有毅力,一个项目能够坚持这么多年,赞! |
5 yanyuan2046 Apr 11, 2016 牛逼,能用 6 年做一件事的都是牛人 |
6 server Apr 11, 2016 牛人,毅力!! |
7 whahugao Apr 11, 2016 好棒!楼主好毅力 |
8 pypy Apr 11, 2016 好厉害!学习楼主这种精神! |
9 sohoer OP |
10 mew7wo Apr 11, 2016 楼主牛人 已安装试用 |
11 kukat Apr 11, 2016 有 docker image 吗? |
12 sewyu Apr 11, 2016 吓到了,好强大。。。。 绝对大神 |
13 sohoer OP |
14 feather12315 Apr 11, 2016 via Android @sohoer 爬虫共享赞一个。 |
15 sylviayoung Apr 11, 2016 via iPad 佩服楼主持之以恒的精神! |
16 leehon Apr 11, 2016 6 年有点太长,一直是楼主一个人开发吗 |
17 alongdj Apr 11, 2016 via Android 楼主好毅力… |
18 inoricho Apr 11, 2016 楼主大触! |
19 wuyadong Apr 11, 2016 楼主,吊~! |
20 zeac Apr 11, 2016 佩服~ |
21 keepcleargas Apr 11, 2016 大牛 膜拜. |
22 Kilerd Apr 11, 2016 太厉害了,坚持了那么久,我很久之前也写过一个,不过完全不通用啊。 |
23 mahone3297 Apr 11, 2016 什么毅力居然让你坚持了 6 年。。。赞。。。 |
24 kutata Apr 11, 2016 这项目的构建方式刷新了三观,好腻害..... |
25 qa52666 Apr 11, 2016 牛逼 |
26 soulteary Apr 11, 2016 成功炸出来潜水党...点赞。 |
27 dong3580 Apr 11, 2016 已经 star,真是膜拜大牛啊, |
28 ixinshang Apr 11, 2016 在树莓派贴吧 看过一个类似的 info |
29 sunbeams001 Apr 11, 2016 定制度和完成度都好高……膜拜下 |
30 Xrong Apr 11, 2016 我了个去啊,牛逼到家啊。。。给楼上点个赞啊 |
31 heige853 Apr 11, 2016 看了下 好牛逼 颠覆了对以往采集工具的理解~ |
32 Asimov Apr 11, 2016 via Android 回家试试 |
33 missqso Apr 11, 2016 好厉害啊,很多 ux 动画也是非常的精致。 |
34 FanError Apr 11, 2016 一登录进去 NPE 了哦 java.lang.NullPointerException at lllllllllllllll.IIlIIllllIIlllllI.lIlIllIllIIIllI(Unknown Source) at lllllllllllllll.IIlIIllllIIlllllI.IIIIIllIlIIIIII(Unknown Source) at lllllllllllllll.IIlIIllllIIlllllI.IIIIIIlllIlllIl(Unknown Source) at lllllllllllllll.IIlIIllllIIlllllI.IIlIIIlIlIIlIIl(Unknown Source) at lllllllllllllll.IIlIlllIlllIlIIII.lIIllIllllIIIIl(Unknown Source) at lllllllllllllll.IIlIlllIlllIlIIII.check(Unknown Source) at sun.reflect.GeneratedMethodAccessor60.invoke(Unknown Source) at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source) at java.lang.reflect.Method.invoke(Unknown Source) at lllllllllllllll.IIlIlIllIIIlIlIll.IIIIlIlllIIlIll(Unknown Source) at lllllllllllllll.IIlIlllIlIllllIIl.call(Unknown Source) at lllllllllllllll.IIlIIlIIIlIIlIIII.IIlIIlIlIlIlIIl(Unknown Source) at lllllllllllllll.IIlIIlIIIlIIlIIII.service(Unknown Source) |
35 Caratpine Apr 11, 2016 好厉害,赞赞赞 |
36 loadingimg Apr 11, 2016 膜拜一下 |
37 ketle Apr 11, 2016 可视化的怎么弄 |
38 Sunya Apr 11, 2016 via iPhone wecl come back 。赞 |
39 csx163 Apr 11, 2016 三年前看过,记得当时根本无从下手,现在真的好用多了。 [赞] |
41 sohoer OP 上一次发布有人说访问太慢, 所以我自己实现了分布式同步,目前有三个节点, aliyun 、 gae 、 linode 被墙的资源如 GAE 请使用 linode(海外节点)访问 |
42 frankmdong Apr 11, 2016 好毅力 已 star |
43 xiaogouxo Apr 11, 2016 楼主太刁了。已 star |
45 sohoer OP @leehon 一直都是一个人开发 有时候想想都觉得自己很强大,坚持这么久做一件事情 无数次编译,数不清的重构,每一次重构都很痛苦 刚开始程序员生涯的时候做过很多垃圾站,也用过不少采集器 后面知道 GAE 免费,于是想用很多的 GAE APP 来搭一个免费的爬虫网络(违反 TOS ) 基于 GAE 开发后发现 PAAS 平台限制太多,后来加上了标准的 JAVA 环境支持 目前同时支持 GAE 与标准 JAVA 环境,开发上也增加不少难度, 谁让我想吃免费的蛋糕呢! 最后大家都能有免费蛋糕吃 |
46 xingshu Apr 11, 2016 能留个邮箱么,有点其他需求,希望能通过邮箱沟通。 |
47 sohoer OP |
49 fengxiang Apr 11, 2016 via Android 手动点赞,楼主能坚持真的很厉害。不像某些项目,一堆 bug 还到处宣扬。 |
50 gimp Apr 11, 2016 佩服楼主的毅力和能力,点赞! |
51 mcwanderer Apr 11, 2016 膜拜 |
52 badcode Apr 11, 2016 看哭了,我确定是回这贴的 |
54 DesignerSkyline Apr 11, 2016 给你点赞啦!希望以后也继续更新 |
55 Flygoat Apr 11, 2016 via iPad 垃圾站助手? |
56 sohoer OP @Flygoat 现在不做垃圾站了,像这样的 http://www.shishibi.com(半成品) |
58 sohoer OP |
59 ven Apr 11, 2016 太强大了!赞! |
61 binux Apr 11, 2016 |
62 ddter Apr 11, 2016 不是泼冷水啊,这个跟八爪鱼比起来有啥明显的优势吗。。。 |
63 jiezhi Apr 11, 2016 牛人,学习坚持精神! |
65 sohoer OP |
66 HanSonJ Apr 11, 2016 我吓尿了,好厉害! |
68 leafof Apr 11, 2016 很牛!可惜暂时用不到 |
69 ftp11yyy Apr 11, 2016 点赞,好厉害! |
70 lemayi Apr 11, 2016 太 nb 了! |
71 alocne Apr 11, 2016 好厉害 |
72 isb Apr 11, 2016 惊呆。~ 好厉害!! |
73 yylzcom Apr 11, 2016 via Android 我见过的收藏人数最多的一个帖子 |
74 imWBB Apr 11, 2016 点赞 |
75 xiaocsl Apr 11, 2016 在以前的公司,有过类似的. 我负责前端,开发一个 Chrome 插件,来让人选择爬取的内容. 楼主这个,看功能要完善好多.犀利啊~ |
76 huijian222 Apr 11, 2016 cool |
77 jaylong Apr 11, 2016 好棒! |
78 hpeng Apr 11, 2016 好牛逼。读书的时候就有这个想法,但是并没有做下去。实在佩服,佩服。 |
79 h4lt Apr 11, 2016 叼炸了。正好有相关的需要,学习学习。 |
80 strwei Apr 12, 2016 功能强大到爆,可惜不适合小白用 |
81 branchzero Apr 12, 2016 好强大啊,已 star ,佩服 LZ 的毅力! |
82 konakona Apr 12, 2016 看了介绍视频,很强大! 非常感谢楼主分享! |
83 jacker Apr 12, 2016 和国外的 kimono 太像啦 |
85 cxshun Apr 12, 2016 好强大,佩服楼主! |
86 codeyung Apr 12, 2016 支持楼主! |
87 wq2016 Apr 12, 2016 支持一个! |
88 myforgame Apr 12, 2016 爆了 |
90 jacker Apr 12, 2016 以前做过 SEO ,采集方面主要是采集后伪原创处理然后发布,现在主要做一些运营方面,会遇到需要采集一些数据做分析,根据这两方面我个人感觉可以加上的几个功能是 1.根据部分开源的程序有通用的规则,方便小白来采集(如 WordPress ,或者 magento ); 2.对接一些 API ,如 copypass 等 如果能根据数据生图就更好啦 kimono 可以生成自己的 API ,这个功能也是非常不错的 |
91 viosey Apr 13, 2016 太强大了, 虽然说个人免费使用, 但是即使收费了也是毫不犹豫的买买买 |
92 sohoer OP |
93 vvaaiinn Apr 13, 2016 NB 啊。求个邀请码注册玩玩 |
94 wingyiu Apr 15, 2016 NB |
95 wingyiu Apr 15, 2016 test 账号进去各种 error ,引导做得不好,居然不是开源,不过好像反编译就行了 |
96 quericy Apr 20, 2016 看完 LZ 的项目,感觉自己写的爬虫的通用性就是个笑话 6 年....佩服 LZ 的毅力 |
97 mew7wo May 25, 2016 个人安装之后,用什么帐号可以登录使用个人采集器 |
98 wujunze Aug 19, 2016 佩服楼主的毅力 |
99 sparkssssssss Aug 20, 2016 via Android 膜拜!!!! |
100 fanghui Feb 21, 2017 @sohoer 主要问题是没有 xpath 表达式显示在页面的左上角,你可以看下截图,截图地址: https://pan.baidu.com/s/1ctf1Yu |