scrapy过滤重复请求

时间:2012-02-15 00:59:40

标签: python scrapy

调度程序中存在的重复过滤器与IgnoreVisitedItems middleware之间有什么区别?

Google群组帖子,表明调度程序中存在重复的过滤器:http://groups.google.com/group/scrapy-users/browse_thread/thread/8e218bcc5b293532

1 个答案:

答案 0 :(得分:12)

调度程序中的重复过滤器仅过滤掉在单个蜘蛛运行中已经看到的URL(意味着它将在后续运行时重置)。 IgnoreVistedItems中间件将在运行之间保持状态并避免访问过去看到的URL,但仅限于最终项目URL,以便可以重新爬网站的其余部分(以便查找新项目)。