如何在scrapy中禁用缓存?

时间:2015-09-16 17:41:27

标签: caching scrapy

我正在尝试抓取特定网站上的网页。对于我通过scrapy.Request()发送的不同Cookie集,网页会有所不同。

如果我逐个向网页发出请求,它会给我正确的结果,但是当我将这些cookie发送到for循环中时,它会给我相同的结果。我认为scrapy正在为我创建缓存,在第二个请求中它从缓存中获取响应。这是我的代码:

def start_requests(self):
        meta = {'REDIRECT_ENABLED':True}
        productUrl = "http://xyz"
        cookies = [{'name': '', 'value': '=='},{'name': '', 'value': '=='}]
        for cook in cookies:

            header = {"User-Agent":"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36"}
            productResponse = scrapy.Request(productUrl,callback=self.parseResponse,method='GET',meta=meta,body=str(),cookies=[cook],encoding='utf-8',priority=0,dont_filter=True)
            yield productResponse


def parseResponse(self,response): 
     selector = Selector(response)
     print selector.xpath("xpaths here").extract()
     yield None

我希望print语句应该为这两个请求提供不同的结果。

如果有什么不清楚,请在评论中提及。

2 个答案:

答案 0 :(得分:4)

这里我假设您只想避免仅缓存特定请求。

对于此示例,它意味着避免在start_requests下缓存这些请求并缓存所有其他请求(您可能在parseResponse下)。

要执行此操作,只需在代码中添加productResponse.meta['dont_cache'] = True行即可 在HTTPCACHE_ENABLED=True

下设置settings.py

现在所有其他请求都将被缓存。

def start_requests(self):
        meta = {'REDIRECT_ENABLED':True}
        productUrl = "http://xyz"
        cookies = [{'name': '', 'value': '=='},{'name': '', 'value': '=='}]
        for cook in cookies:

            header = {"User-Agent":"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36"}
            productResponse = scrapy.Request(productUrl,callback=self.parseResponse,method='GET',
                                             meta=meta,body=str(),cookies=[cook],
                                             encoding='utf-8',priority=0,dont_filter=True)
            productResponse.meta['dont_cache'] = True
            yield productResponse

def parseResponse(self,response): 
     selector = Selector(response)
     print selector.xpath("xpaths here").extract()
     yield None

答案 1 :(得分:0)

只需要在请求url中添加一个虚拟参数

import random

productUrl = "http://xyz" + "?dummy=" + str(random.random())