第一次搞 scrapy，求问关于 start_requests() 内 yield request 的问题

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

Learn Python the Hard Way

Python Sites

PyPI - Python Package Index

http://diveintopython.org/toc/index.html

Pocoo

值得关注的项目

PyPy

Celery

Jinja2

Read the Docs

gevent

pyenv

virtualenv

Sentry

Shovel

Pyflakes

pytest

Python 编程

pep8 Checker

Styles

PEP 8

Google Python Style Guide

Code Style from The Hitchhiker's Guide

这是一个创建于 2303 天前的主题，其中的信息可能已经有所发展或是发生改变。

元数据存储在第三方队列中，然后我的逻辑是在 start_requests() 中 while 从队列中循环获取数据，然后根据这些数据拼接 URL，再 yield, 伪代码如下：

def start_requests(self): data = get_data_from_queue() if len(data) > 0: url = data 内数据拼接 yield scrapy.Request(url,其它参数)

最终的结果是队列数量和实际请求数量相差极大，比如我在队列中的消息数量为 1000，然后开启爬虫，等爬虫停止的时候，根据它的最后的日志信息发现请求队列中只入队了几十个。而队列中的消息已经消费完了。

我目前的想法是，是不是从第三方获取消息太快了，scrapy 这边 yield request 的时候没跟上，然后现在在调整单次从队列获取的数量大小？但是收效甚微，极端数量为 1 的时候，队列还没消费完，爬虫已经停止了。

我觉得这应该是很简单的问题，举个例子 for 循环这样 yield request 对于有规则的 url 也是常见的场景，但是受限于这方面知识面不足，我目前没有什么好的思路去尝试解决这个问题。

想问各位 v 友，我这个问题的关键在哪里，应该怎么解决。或者提供一个准确的关键词也是极好的，我就是没有准确的关键词，已经搜索很久了也没有搜到想要的。

第 1 条附言 2019-08-31 14:42:42 +08:00

补充：

 def start_requests(self): records = self.service.batch_receive_message(3) while len(records) > 0: for record in records: record = json.loads(record.message_body) a = record.get('a') b = record.get('b') c = record.get('c') url = self.base_url.format(a = a, b = b, c = c) yield scrapy.Request(url, meta=record, callback=self.parse, errback=self.error_back) records =self.service.batch_receive_message(3)

队列

yield

request

URL

4 条回复 2019-08-31 14:47:31 +08:00

leishi1313

2019-08-31 01:27:44 +08:00

你放整个的代码吧，粗看并不是一个 for 或者 yield 的问题

OldPanda

2019-08-31 02:21:18 +08:00

如果不方便放整个的代码，能不能放这部分的原代码加上 get_data_from_queue() 函数的实现？

Trim21

2019-08-31 08:58:55 +08:00 via Android

按你这个伪代码，如果某次取到的 data 长度为 0，不就结束生成请求了…

FYK

2019-08-31 14:47:31 +08:00

@leishi1313 已补充，不太方便原样，所以改了下变量名啥的，但是实际的逻辑就是这样子

@OldPanda 已补充，不太方便原样，所以改了下变量名啥的，但是实际的逻辑就是这样子

@Trim21 应该是不停止的，具体的停止要看 scrapy 的请求队列中是否还有请求存在。我有遇到过你说的这样的情况，就是在取到的 data 长度为 0 时，恰好程序停止了，但停止的实际原因是因为请求队列空了。如果 data 长度为 0，而 scrapy 的请求队列中还有请求，scrapy 会继续执行请求，直到全部消耗完毕才会停止程序。