scrapy-redis重新抓取一台计算机已抓取的网址

时间:2016-08-23 03:26:12

标签: python scrapy web-crawler distributed

我使用scrapy-redis.编写了一个分布式蜘蛛 起初,一切似乎都很好。

设置文件:

SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'

但是,在抓取所有网址后,一个蜘蛛关闭,但另一个没有 - 并开始重新抓取已经抓取的网址。

任何人都可以帮助我,并解释原因吗?

1 个答案:

答案 0 :(得分:0)

我已经解决了这个问题!由于使用" def close_spider(self,spider)错误的参数设置,蜘蛛没有正常关闭:"功能。