
RT,Scrapy如何爬瀑布流的站点?
1 est 2015-06-05 13:01:03 +08:00 我遇到了这个问题,解决办法是自己写。 |
2 mthli 2015-06-05 13:11:02 +08:00 via Android 瀑布流有"page="吧,试试找找看看? |
3 kisshere 2015-06-05 13:34:47 +08:00 via Android 抓包,提取网址,实在不会用casperjs吧 |
4 mahone3297 2015-06-05 13:36:39 +08:00 @est 自己写是什么意思? |
5 nikoukou 2015-06-05 14:03:12 +08:00 casper.js可以试一试,就是速度比较慢,相当于cli的按键精灵。。 |
6 rphoho OP |
8 alexapollo 2015-06-05 14:22:58 +08:00 上内核做渲染! |
9 duobei 2015-06-05 14:37:54 +08:00 @alexapollo 这个建议不错 |
10 kisshere 2015-06-05 16:16:14 +08:00 via Android @rphoho 刚都说了,叫你chrome F12键抓包,一般如果他的MySQL不是cursor分页的话,可以直接按照pageid递增就抓取了,遇到瀑布流是好事,这样更容易抓取 |
11 kisshere 2015-06-05 16:18:08 +08:00 via Android 瀑布流一般都会ajax加载json,更容易抓取和解析 |
12 allen3921 2015-06-05 19:19:04 +08:00 直接分析js |
13 ChiangDi 2015-06-05 19:23:44 +08:00 当然是看他的 js 代码,有时候可能爬虫都不要写就是一个 json API |
14 alexapollo 2015-06-06 00:35:06 +08:00 @duobei 其实这是最标准的方法。。应该。。 |
15 onlyice 2015-06-06 20:21:56 +08:00 如果不是瀑布流,你会怎么抓? 其实是不是瀑布流跟 scrapy 没什么关系,只跟网站的 HTTP 接口是怎样的有关系。 |
16 mingyun 2015-06-07 10:20:24 +08:00 casper.js没用过,有这方面的案例吗 |