
我想要抓取http://www.csrc.gov.cn/pub/newsite/xxpl/yxpl/
上面的数据。
我用scrapy shell http://www.csrc.gov.cn/pub/newsite/xxpl/yxpl/
测试的时候,取不到包含'下一页'的a标签。
进行测试,利用如下规则来选取:
In [35]: Selector(response).xpath('span[@class="nav_go_next"]/a')
然后,我发现一个大概的原因,就是nav_go_next标签的父元素里面包含了两个script脚本
我能通过
In [35]: Selector(response).xpath('//div[@class="page"]/script')
来取得script标签,但是通过
In [35]: Selector(response).xpath('//div[@class="page"]/span')
就取不到span元素。
有谁碰到过类似的问题吗?求教!谢谢!
1 imn1 2015 年 7 月 29 日 scrapy能运行js么? 这个span是js生成的,直接从html的dom是找不到的 |
3 knightdf 2015 年 7 月 29 日 用phantomjs+ selenium来抓吧 |
5 ammzen 2015 年 7 月 29 日 握爪,最近我也在爬这些东西 不知道你是用来做什么呢 |
6 Mirachael OP @lakewalker 嗯,谢谢。我大概就是按照你的思路来做的,因为我发现25是个固定值,我直接循环加到start_urls里了。 |