
1 wang2191195 Dec 14, 2012 scrapy 你值得拥有 |
2 enj0y Dec 14, 2012 使用云的理念,用访客的资源来爬行,节约服务器资源。。 哈哈,估计这样的网站没有人敢访问。 |
3 kenneth OP |
4 flyingkid Dec 14, 2012 设置一个规则 http://*.hao23.com/* 其他的全部调过。 |
6 zuroc Dec 14, 2012 |
7 zuroc Dec 14, 2012 |
8 momou Dec 14, 2012 |
10 tioover Dec 14, 2012 curl拉下来 然后找出所有<a> |
11 dreampuf Dec 14, 2012 wget -e robots=off -r -T 3 --domains=hao123.com wwwhao123.com for i in `find . -iname *.html`; do cat $i | grep "http:" | sed 's/^.*http/http/' | cut -d'"' -f1 | sort -u;done |
12 greatghoul Dec 14, 2012 wget 就搞定了。 |
13 glsee Dec 14, 2012 |
14 barbery Dec 15, 2012 右键网页另存为。。。。用正则提取。。。。 |
15 im924106179 Dec 15, 2012 100rmb包搞定 |
16 kenneth OP @im924106179 你能搞定就上代码,100rmb我付你。 |
17 xjay Dec 16, 2012 scrapy 你值得拥有,呵呵。 用CrawlSpider,写好rules规则,然后在parse_item里面就可以处理你要的数据了,再实现一个pipeline数据管道,把你要的数据保存起来,就ok了。 |
18 ccdjh Dec 16, 2012 爬取应该不行,你写个爬虫,总有你控制不住,或者没有那么智能。 你还不如写一个按页抓取的。就是你输入http://www.hao123.com/hardware 把http://www.hao123.com/hardware上的站提取出来,并且转json就好了。没必要钻胡同 |
19 xieranmaya Dec 17, 2012 这样行不行,用jQuery $("a").each(function(){ $("<div></div>").load(this.href).appendTo(document.body); }); |
21 kenneth OP |
22 bigdude Dec 19, 2012 wget 啊 |
23 IFoon Dec 19, 2012 用采集工具啊。。 www.sensite.cn |
24 adyizhan Dec 19, 2012 @im924106179 怎么联系。 |
25 ADIVILOrz Dec 19, 2012 |
28 secretworry Dec 20, 2012 @kenneth echo "YOUR_SQL_HERE" | $MYSQL 就能输入数据库了。 其中MYSQL="mysql -u"(YOUR MYSQL ACCESS COMMAND) |
29 aksoft Dec 21, 2012 都是NB人,学习下.. |