scrapy不会抓取所有内容

时间:2017-11-22 13:36:13

标签: python scrapy web-crawler scrapy-spider

我想以这种格式抓取一个包含网址的网站:

  • www.test.com/category1/123456.html(页面)
  • www.test.com/category1/123457.html ..
  • www.test.com/category2
  • www.test.com/category3 ...

这是代码:

[VehicleProtocol]

抓取器在一分钟后停止,它只返回最近的内容! 任何解决方案?

1 个答案:

答案 0 :(得分:0)

Scrapy已将您的一些请求定义为重复链接,因此将其丢弃。 'dupefilter/filtered': 21126,

您可以在' settings.py'中添加下一行。 scrapy项目文件夹中的文件:

DUPEFILTER_CLASS = 'scrapy.dupefilters.BaseDupeFilter'

它将完全禁用过滤(对于整个项目),但现在您需要自己检测并过滤重复的请求。

相关问题