写的 Scrapy 爬虫程序在 For 循环中会漏爬很多数据

import scrapy from xxx.items import WorkItem class XXXSpider(scrapy.Spider): name = "xxx" allowed_domains = ["example.com"] start_urls = ["https://example.com/xx/xx"] def parse(self, response): year_list = response.xpath('//ul[@class="p-accordion"]/li') for year in year_list[:2]: release_dates_url_of_year = year.xpath('.//div[@class="genre -s"]/a/@href').extract() for date_url in release_dates_url_of_year: yield scrapy.Request ( url = date_url, callback =self.date_detail_parse ) def date_detail_parse(self, response): work_list = response.xpath('.//div[@class="swiper-slide c-low--6"]/div') for work in work_list: actress_name = work.xpath('.//a[@class="name c-main-font-hover"]/text()').extract_first() if actress_name is not None: item = WorkItem() item['actress_name'] = actress_name item['image_hover'] = work.xpath('.//img[@class="c-main-bg lazyload"]/@data-src').extract_first() work_detail_url = work.xpath('.//a[@class="img hover"]/@href').extract_first() if work_detail_url is not None: yield scrapy.Request ( url = work_detail_url, callback = self.work_detail_pares, meta = {'workItem' : item} ) def work_detail_pares(self, response): item = response.meta['workItem'] pics_list = response.xpath('.//div[@class="swiper-wrapper"]/div') pre_images = [] for pic in pics_list: img_url = pic.xpath('./img/@data-src').extract_first() pre_images.append(img_url) item['pre_images'] = pre_images item['name'] = response.xpath('.//div[@class="p-workPage l-wrap"]/h2/text()').extract_first().strip() item['id'] = response.xpath('.//span[@class="c-tag02 c-main-bg-hover c-main-bg"]/../text()').extract_first() item['company'] = 'xxx' item['release_date'] = response.xpath('.//div[@class="p-workPage__table"]/div[2]//div[@class="item"]/a/text()').extract_first() actress_detail_url = response.xpath('.//div[@class="p-workPage__table"]/div[1]//div[@class="item"]/a/@href').extract_first() yield scrapy.Request( url = actress_detail_url, callback = self.actress_detail_pase, meta = {'workItem' : item} ) def actress_detail_pase(self, response): item = response.meta['workItem'] item['actress_avatar'] = response.xpath('.//div[@class="swiper-slide"]/img/@data-src').extract_first() yield item

这是我的爬虫主程序，year_list我目前就只取了前 2 条数据做测试，发现爬取下来的数据跟网站上相比，很漏爬很多很多数据，而且每次爬取的数量都是同一个，网站上应该有至少几百条数据，而爬虫爬取下来，每次只能爬 35 条数据。而且每次爬取的数据内容都是变化的，这次没爬到的数据可能下一次再启动爬虫他就爬到了，但是总数永远是 35 。
我也尝试过把item包在deepcopy()里，也没有区别。
如果不用for循环，就只爬单条数据的话，他又确实可以把完整的数据都爬取下来

有没有大佬知道我这问题到底出在哪里？问 GPT 的各种解答方案也试了，还是不行。

Scrapy

爬虫

数据

14 条回复 2024-12-25 09:52:17 +08:00

glacer

&nbp;2024 年 12 月 24 日

断点调试一下不是很容易发现问题吗

NoOneNoBody

2024 年 12 月 24 日

@class="genre -s"
css 不会写-s 的吧？

先在每个 for 前面 print 一下 len 吧

dsg001

2024 年 12 月 24 日

大概率是 xpath 不对

wineast

2024 年 12 月 24 日

yeild 之前打印下信息，看看条数对不对

Windy418

2024 年 12 月 24 日

@wineast 我刚才在多个地方放了 print 打印看了下，发现有些在`work_detail_pares()`里处理的`item`，到了`actress_detail_pase()`就没有了。（比如有条 item 的一个字段是 12 月 31 日，结果在 actress_detail_pase()打印，发现没有一条 item 里有 12 月 31 日。这条数据没有传进来，甚至如果把`actress_detail_pase()`的方法删了，数据就可以抓取完全了。这是什么原因？我的传值方法也没什么不一样的啊

airqj

2024 年 12 月 24 日

碰到这种问题把网页和源码扔给 claude ，直接就给你答案了

Jius7u

2024 年 12 月 24 日

问下 AI 对于 AI 来说应该简单

Windy418

2024 年 12 月 24 日

@airqj 我反正把源码和问题抛给 GPT ，他是没跟我干出来的

airqj

2024 年 12 月 24 日

@qtoq126 #8 代码方面 claude 好一些

datehoer

2024 年 12 月 24 日

直接 debug 走一下就搞出来了吧。
可以看下日志是否有报错，你这个问题一般是哪里有错误，比如网站做了反爬，然后获取数据有问题。或者有可能是 url 有重复，被自动去冲了。

my8100

2024 年 12 月 24 日 via iPhone

把 scrapy 抓取的网页保存到文件，再手动调用解析一次，看是网页还是解析问题。

Vegetable

2024 年 12 月 24 日

不给页面的情况下想让大家看这玩意给你解决问题很难的，大概率是你解析的代码有问题，但是不知道是你写错了还是页面规则你没搞清楚。
你可以在 scrapy shell 一步一步手动操作，看看到底哪里不对。

duzhuo

2024 年 12 月 24 日

建议直接把网站发出来

wineast

2024 年 12 月 25 日

@qtoq126 yield scrapy.Request(
url = actress_detail_url,
callback = self.actress_detail_pase,
meta = {'workItem' : item}
“actress_detail_pase”，是一个回调函数。他要被执行的话，前提就是上面这个 actress_detail_url 要被执行后才能回调，你看下所有的请求，这个 12/31 的请求是不是：
1. 没有被正确拼接 url
2. 因为网站反扒的缘故，没有返回 200