如何使用Scrapy打开文件流进行阅读?

时间:2016-03-25 19:34:22

标签: python scrapy scrapy-spider

使用Scrapy,我想使用我提取的url将二进制文件读入内存并提取内容。

目前,我可以使用选择器在页面上找到URL,例如

myFile = response.xpath('//a[contains(@href,".interestingfileextension")]/@href').extract()

如何将该文件读入内存,以便查找该文件中的内容?

非常感谢

1 个答案:

答案 0 :(得分:0)

发出请求并浏览回调中的内容:

def parse(self, response):
    url = response.xpath('//a[contains(@href,".interestingfileextension")]/@href').extract_first()
    return scrapy.Request(url, callback=self.parse_file)

def parse_file(self, response):
    # response here is the contents of the file
    print(response.body)