
ScriptSpider (以下简称 SS ),做一个好用的爬虫框架。
目前的功能已经够大多数情况下使用, ScriptSpider 会朝着易用、高度、最新技术的方向发展!
欢迎 Star 和 Fork 我的项目!算是给点鼓励也好(嘿嘿)
<dependency> <groupId>com.github.xjtushilei</groupId> <artifactId>scriptspider</artifactId> <version>0.2</version> <!--请尽量使用最新版本--> </dependency> 关于版本
请尽量使用最新版本,http://search.maven.org,中央仓库搜索最新版本
因为文档都是根据最新版本来及时更新的。
在项目主页的 releases 目录
在最新的 release 下面,下载相应的所有的依赖包集合 zip :dependency.zip。
打开自己的工程,导入即可!
在开始之前,你应该先了解该框架是如何工作的。

基本上,你只需要提供“解析器”,“下载器”两个模块就好啦。
因为 SS 也不知道您想要哪一部分内容,不知道您想存到哪里~
如果您对上图很了解,那么可以直接开始编程了。或者您可以先看一下下面的简单用法介绍。
在src/main/java/com/github/xjtushilei/example中可以查看所有的样例程序
//爬取《交大新闻网》开始的所有页面信息,并将信息打印到控制台! Spider.build().addUrlSeed("http://news.xjtu.edu.cn").run(); 一句话,就能实现一个爬虫!
因为,我们给您默认提供了好多组件。
//爬取《交大新闻网》开始的所有页面信息,并将信息打印到控制台! Spider.build() .thread(10) //设置多少个线程 .addUrlSeed("http://news.xjtu.edu.cn") .run(); 如果您没有设置 thread 选项,默认是 5 个线程
当然了,您可以使用.thread(1)来使用单线程。虽然我们不建议您这么做。
甚至您可以使用.thread(-100)来启动线程(呵呵,默认是 5 )
正常的机器,我们推荐您使用 10 个以上的线程进行尝试!
请移步How to Start
因背景有失大雅,故放在后面。
无意之中看到了一个软件设计大赛,看到一个题目有兴趣,结果工作人员迟迟不给示例文件密码,破解失败,无奈就随手选了个题目,那就爬虫吧。
虽然现在只有一个人。
联系个人主页的邮箱、 QQ 等即可。
1 Caratpine Apr 14, 2017 支持 |
2 yaidev Apr 14, 2017 via iPhone Mark 一下 |
3 xjtushilei OP @Caratpine 谢谢 |
4 6IbA2bj5ip3tK49j Apr 14, 2017 和 webmagic 相比有什么亮点吗? |
5 xjtushilei OP @xgfan 谢谢您的问题。您提了之后我去看了一下 webmagic ,后来发现,其实我的这个好像并没有特别大的优势,好像都差不多。从代码,文档,设计思路等等来说,都还差点。之后我会再持续关注一下。 |
6 wellhome Apr 19, 2017 via iPhone 支持楼主 |
7 herozzm Apr 30, 2017 via Android 解析器最好支持正则,json,css 选择器 |
9 wk999 Jun 8, 2017 via iPhone 跟 webmagic 好像。。。 |
10 rekulas Jun 26, 2017 已 star,试用了不少大牛们推荐的爬虫,都或多或少有些问题,没想到作者的小爬虫给我带来了惊喜 |