在通过scrapy抓取数据的同时构建引用URL链?

时间:2016-05-01 18:40:38

标签: python web-scraping scrapy

在抓取网址时是否有可用于构建引荐来源链的scrapy模块。

让我们说,例如,我从http://www.example.com开始抓取,然后转到http://www.new-example.com,然后从http://www.new-example.com转到http://very-new-example.com

我可以像这样创建一个url链(csv或json文件):

 http://www.example.com, http://www.new-example.com
 http://www.example.com, http://www.new-example.com, http://very-new-example.com

等等,如果目前没有可用的模块或实现,那么我可以尝试其他选项吗?

1 个答案:

答案 0 :(得分:0)

是的,您可以通过创建一个可以通过所有方法访问的全局列表来跟踪引荐。

referral_url_list = []

def call_back1(self, response):
    self.referral_url_list.append(response.url)

def call_back1(self, response):
    self.referral_url_list.append(response.url)

def call_back1(self, response):
    self.referral_url_list.append(response.url)
蜘蛛完成后

由蜘蛛signals检测到。您可以在信号函数中编写csvjson文件