Scrapy - 如何增加预定的start_requests数量?

时间:2018-02-17 16:10:55

标签: python web-scraping scrapy web-crawler

我有一只爬行多个网站的蜘蛛。我注意到即使网站列表中有近400个项目,study_monitoring方法start_requests在开始抓取和处理它们时只有15或16,而没有安排其他385个网站网址。

yields

我可以在调试器中看到只有前16/15个网址是def start_requests(self): for d in Domain.objects.all(): self.allowed_domains.append(d.name) yield scrapy.Request(d.main_url, callback=self.parse_item, meta={'domain': d, 'depth': 0},priority=3) ,然后很长时间没有。

我需要制作scrapy来安排所有这些网址,因为我为相同的域设置了延迟,这是非常低效的。

怎么做?

0 个答案:

没有答案
相关问题