
1 mhycy Feb 26, 2015 爬的是哪个站?有多少资源可用? |
2 iannil Feb 26, 2015 可以参考我这个回复 http://v2ex.com/t/127220#reply5 |
3 laotaitai Feb 27, 2015 直接外包给我吧. 不过哈, 一般情况下, 少于5W的项目我不接. 哥是专业的玩爬虫的. 我写过爬取全世界60%左右连了网的电脑, 一共收集了3亿的资源的. 对, 你没看错, 就是爬你们的电脑, 不是爬网站. |
6 fising Feb 27, 2015 3楼吹牛逼不打草稿 |
7 mrhuiyu Feb 27, 2015 @laotaitai 话说爬电脑?首先不礼貌的冒问一下今天不是愚人节?额好吧那请问假设电脑关机和非管理员用户登录电脑后无法访问指点盘符,那爬虫可以进去访问? |
8 jedyu Feb 27, 2015 3楼是爬IP吧? |
9 mozutaba Feb 27, 2015 3楼是爬ip的开放服务? |
10 joshryo Feb 27, 2015 3楼太谦虚了,居然还有40%连了网的电脑没爬。 |
11 xidianlz Feb 27, 2015 3楼说的是扫描比较好吧 不算爬虫 |
12 xFan Feb 27, 2015 3楼歪楼以后没人理楼主了... 你们赶紧正回来,. |
13 angerskon Feb 27, 2015 3楼说的3亿的资源是指的3亿台电脑吗?照你说的60%来算,也就是说全球5亿左右的计算机联网。ipv4的地址一共42亿左右,除掉一些保留的,怎么也不止5亿吧。 |
14 thinkmore Feb 27, 2015 3楼就是来骗回复的 |
15 crazycookie Feb 27, 2015 楼上都被 3楼带歪了 其实有偿指导也是一件 比较 bug的事情 这种分布式我在做,确实 scrapy + redis 可以完成这些 我用linode跑的国外的站,4台服务器,还算稳定 |
16 binux Feb 27, 2015 via Android 千万级别不算大型啊。。。 |
17 lucn Feb 27, 2015 scrapy开发成本高,pyspider半小时搞定 |
18 gouwudang Feb 27, 2015 楼主可以来我司工作,每天得爬上亿条数据 |
20 cxl008 Feb 27, 2015 scrapy+mongodb+redis 的方案 分布40台机器。。 爬取国内200多个安卓市场。。。。。。。。数据量到1亿左右。。没有3楼那么牛逼了。。。。 |
22 CodeDrift Feb 27, 2015 突然感觉3L在360上班。。。 |
24 mengskysama Feb 27, 2015 |
25 nine Feb 27, 2015 pyspider吧,很好用。。 |
31 professorz OP |
33 2dog Feb 27, 2015 @laotaitai 邮件沟通吧 [email protected] |
34 inter Feb 27, 2015 千万算个球大型。我们这一台服务器上的一个爬虫实例,一天就是上千万的请求。 其实还能更高,但是现在提不上去的原因是一个实例就把对方一台服务器的下行吃满了。我们还得想着怎么帮对方提高吞吐量,对方cdn配置有问题的时候还得帮他们做同步. python真是弱啊,上亿的就几十台服务器了。我们这一台单核1g机器,跑两个实例。 1亿请求,200多个站点,这就是台好点的服务器的事情 |
35 Yannis1990 Feb 27, 2015 一直想知道 “千万级” 的网站是什么意思? 千万个页面? |
37 professorz OP @Yannis1990 嗯 千万个条目 |
38 mengskysama Feb 27, 2015 @cxl008 www.66ip.cn/zz.html 估计都是扫出来的,无辜的网民 |
39 mikangchan Feb 27, 2015 想求教下怎么精确控制内容... 数据量不大,不过图片较多,而且要精确控制一部分文字内容 |
41 lonelygo Feb 27, 2015 我是来看3楼歪楼的 |
42 flyingkid Feb 28, 2015 3L如果是写DHT爬虫的话我还是相信的。 |
43 professorz OP @inter 你们不是用的python?用的啥? |
45 linkupmylife Mar 1, 2015 我也玩过爬虫,爬完全是HTML,再用HTM转TXT之后放到EXCEL里筛选,非常麻烦。 |