防止将scrapy响应添加到缓存中

时间:2016-08-15 14:28:24

标签: scrapy

我正在抓取一个网站,该网站返回带有验证码和状态码200的网页,表明一切正常。这会导致页面被放入scrapy的缓存中。

我想稍后重新抓取这些网页。但如果它们在缓存中,它们将不会被重新抓取。

是否可以从httpcache中间件重载process_response函数或在reponse html中查找特定字符串并使用错误代码覆盖200代码?

什么是让scrapy不将某些响应放入缓存的最简单方法。

0 个答案:

没有答案