Question

在抓取网址时是否有可用于构建引荐来源链的scrapy模块。

让我们说，例如，我从http://www.example.com开始抓取，然后转到http://www.new-example.com，然后从http://www.new-example.com转到http://very-new-example.com。

我可以像这样创建一个url链（csv或json文件）：

 http://www.example.com, http://www.new-example.com
 http://www.example.com, http://www.new-example.com, http://very-new-example.com

等等，如果目前没有可用的模块或实现，那么我可以尝试其他选项吗？

Answer 1

是的，您可以通过创建一个可以通过所有方法访问的全局列表来跟踪引荐。

referral_url_list = []

def call_back1(self, response):
    self.referral_url_list.append(response.url)

def call_back1(self, response):
    self.referral_url_list.append(response.url)

def call_back1(self, response):
    self.referral_url_list.append(response.url)

蜘蛛完成后

由蜘蛛signals检测到。您可以在信号函数中编写csv或json文件

在通过scrapy抓取数据的同时构建引用URL链？

1 个答案: