
比如我要爬取的网站是 https://xxx.com,在 log 信息中看到得到的网页有很多 https://xxx.com?mdtp=30&p=8+++++++++++++++++++ 而且+号是不断的增加的,网站返回的是同一个页面。使用 linkExtractor 去过滤吗?
1 prasanta 2017 年 6 月 2 日 把它处理掉 |
2 KeepPro 2017 年 6 月 2 日 via Android 这说明人家并不想让你爬 |
3 734506700qq 2017 年 6 月 2 日 啥网站啊,这么溜,这个反爬虫机制真 low |
4 zhangzixu OP @734506700qq 高校的,哈哈 |
5 cranelee13 2017 年 6 月 2 日 via iPhone 用正则过滤链接吧,很好解决。 |