scrapy - 针对大量请求的Scrapy模式

我需要刮掉大型网站，每个类别中的文章大约有10个类别和数千个（我真的不知道多少）。最简单的方法是为每个类别创建一个蜘蛛，并为每个下一篇文章链接创建yield响应，以便进一步提取。

我在想的是制作顶级蜘蛛，将文章网址从类别提取到队列。然后，第二级（文章）蜘蛛应该从队列中接收每个恒定数量的URL（比如100），并且当蜘蛛完成时，另一个蜘蛛开始。通过这种方式a）我们可以控制一些蜘蛛，这是一个常数，例如20 b）我们可以选择提前计算文章的数量c）蜘蛛的内存使用量有限。在之前的项目中，类似的工作正常。

这是否有意义，或者您可以尽可能多地从一只蜘蛛发出请求，它会正常工作吗？

针对大量请求的Scrapy模式

1 个答案: