
我有 3500 个网站的顶级域名,现在需要获取每个 website 内的全部子 url,并爬取子 url 内的 html 文字信息。
举例来说,以 www.giftofwings.com 为例子: 得到一堆类似于 http://www.giftofwings.com/cgi-bin/SoftCart.exe/cam.html?L+mystore1+bkcm8438ffb2f5b2+1507421651 http://giftofwings.com/specials.html 的 url,注意这里不要.js 和.css 等,只要页面。 拿到这个 list 后在做一个简单的 html 爬取,最后提交的是这些 html 的源码,只要文字信息,不爬任何多媒体,所以应该比较快。
详讯麻花腾:腰腰霸腰霸叁叁玲叁伍 null。
1 hourann 2018-04-22 11:44:36 +08:00 via iPhone 没法保证爬干净吧? |
2 zuoakang 2018-04-22 12:02:54 +08:00 上价格呗 |
4 Leigg 2018-04-22 12:06:24 +08:00 via iPhone 腰霸好评 |
5 gdtv 2018-04-22 12:59:30 +08:00 假如这 3 千多个网站没有任何防爬虫措施,并且这 3 千多个网站服务器性能扛得住爬虫,那么的确挺简单的。 |
6 sunsh2017 2018-04-22 13:03:42 +08:00 报价格。 |
7 KKKKKK 2018-04-22 13:35:57 +08:00 via iPhone 我的需求只有一个,news.qq.com ,只爬文字,不需要多媒体,应该挺简单的,所以比较快。急 |
8 exalex 2018-04-22 13:38:02 +08:00 急 预算 200 块 需求很简单 最多几小时的事情。 楼主大概就这意思 |
9 exalex 2018-04-22 13:40:04 +08:00 有个不是很紧急的少量页面的项目需要外包,有人可以接私活吗?项目需求不算很紧,工作量很小。 inksong 53 天前 我有个紧急的一次性 mapreduce 项目需要外包,有人可以接私活吗?项目需求很紧,工作量很小。 inksong 80 天前 我有个紧急的一次性爬虫项目需要外包,有人可以接私活吗?项目需求很紧,工作量很小。 inksong 88 天前 戏精?已 block |
11 wenzhoou 2018-04-22 15:52:47 +08:00 via Android 这是在测试自己的自动灌水机啊。 |
12 stzz 2018-04-22 16:56:02 +08:00 via Android 好奇这人干嘛的… |
13 jingrui 2018-04-22 18:26:20 +08:00 via iPhone 15w,3 天,还有惊喜,愿意私信 |
14 summerwar 2018-04-22 18:39:52 +08:00 标题中,倒数第二句和倒数第一句内容冲突 |
17 huluhulu 2018-04-22 20:44:29 +08:00 via iPhone 我正好有全套代码……只需要输入域名即可,10 万,2 天 |
18 imkerberos 2018-04-22 21:18:09 +08:00 我正好有全套写好的代码. 连 SERVER + Browser 界面. 10 万, 同楼上 2 天. |
19 DeWhite 2018-04-22 21:48:08 +08:00 楼上这个价格合理 |
21 PythonAnswer 2018-04-23 09:24:45 +08:00 via iPhone 看来要价不能超过 200 |
22 winglight2016 2018-04-23 18:50:18 +08:00 @Leigg 很正常了,之前也是碰到一单,同样是爬网站,报价 500,我说我这里是现成的代码,还带个 GUI 管理界面,2k,然后就没消息了 |