Question

我想以这种格式抓取一个包含网址的网站：

这是代码：

[VehicleProtocol]

抓取器在一分钟后停止，它只返回最近的内容！任何解决方案？

Answer 1

Scrapy已将您的一些请求定义为重复链接，因此将其丢弃。 'dupefilter/filtered': 21126,

您可以在＆＃39; settings.py＆＃39;中添加下一行。 scrapy项目文件夹中的文件：

DUPEFILTER_CLASS = 'scrapy.dupefilters.BaseDupeFilter'

它将完全禁用过滤（对于整个项目），但现在您需要自己检测并过滤重复的请求。