
php+mysql 开发的数据采集发布系统
支持 php5.3~php7
支持多级、多页、分页抓取
支持正则、xpath、json 匹配内容
可将数据导入 cms 系统或自己开发的程序、直接入库、保存为文件等
实现定时定量全自动采集发布
界面自适应宽度,手机也可以操作采集
1 eluotao May 4, 2018 支持一下...感谢你的开源分享. |
3 martyartrt1 May 4, 2018 支持 Js 解析么 |
4 IanG May 4, 2018 共享采集规则这个也不错 |
5 zorlan OP @martyartrt1 你说的是 js 渲染吗?这个还不能有些难度 |
8 zorlan OP @LevineChen 好东西,研究一下! |
9 mf2019d May 4, 2018 via iPhone 好好。 |
10 gouchaoer May 4, 2018 说 v8js 的,js 代码一般和 dom 高度绑定的,v8js 里面又没有 dom,所以并没有用 |
11 Hansah May 4, 2018 挂上服务器试试 |
12 LeungJZ May 4, 2018 支持。 |
13 Nott May 4, 2018 赞,PHP 版火车头 |
14 gouchaoer May 4, 2018 源码里面把换行符去掉略蛋疼,一方面这个没用,另一方面造成一个暗示就是你不希望有人贡献代码 |
15 xjroot May 4, 2018 phpspider , 一样的问题, 重复内容该如何处理.. 通配规则等.. |
16 aiseo May 4, 2018 这个怎么感觉就是 php 版火车头呢 |
20 nosay May 4, 2018 赞,就是 tp 版本低了点,可能是一个不稳定的因素。 |
23 xttttt May 5, 2018 为什么汉化只有一半看着好蛋疼 |
25 zorlan OP @xttttt 出 bug 了吗?麻烦在 bbs.skycaiji.com 反馈下,谢谢! |
26 files May 5, 2018 去掉换行符不让别人修改,这也叫开源? |
29 zorlan OP 哎,心凉,这是哪位大佬啊 https://github.com/zorlan/skycaiji/issues/4 |
30 hxy100 May 6, 2018 @zorlan 真的很蛋疼啊,开个源还打乱格式。我知道有工具可以格式化,但你这个让别人看你代码的成本增加了,不符合开源精神,还有很多需要在 Github 在线查看代码的怎么破?要开源,就注意点规范,不要随便破坏行业规则,不好! |
31 zorlan OP @hxy100 好吧,标题应该把开源改成免费(现在改不了了),不过这个程序不是框架只是软件,大家根本不需要改源码,只要部署到服务器上使用就可以了,我上传到 github 也是方便大家下载使用的,不知道你们老是抓着源码干嘛?再说了,这个也不是格式化,只是 php 很简单的一个功能 php_strip_whitespace,ctrl+i 还是能看的,这就破坏行规了? |
32 mmd1989 May 10, 2018 xpath 有案例可以参考么,用手册里的例子 //*[@id="epContentLeft"]/h1 抓网易新闻内容页标题抓不到呢 |