Question

我想多次运行相同的蜘蛛，除非我会将每个蜘蛛送到生成器的不同部分，希望它能更快地扫描整个物体。

我一直在考虑做类似的事情：

import scrapy
from scrapy.crawler import CrawlerProcess

class MySpider1(scrapy.Spider):
    # Spider definition

process = CrawlerProcess()
process.crawl(MySpider1)
process.crawl(MySpider1)  
process.crawl(MySpider1)  
process.crawl(MySpider1)
process.crawl(MySpider1)
process.crawl(MySpider1)  
process.crawl(MySpider1)  
process.crawl(MySpider1)
process.start()

除了我不知道两件事：

如何将参数传递给MySpider1，以便我可以将每个进程与主发生器的不同部分一起提供。
这会加快这个过程吗？我不确定，因为我不知道这个API的内部架构。为什么孤独的蜘蛛不会使用所有的处理器资源，因为当我运行它时它甚至没有出汗。这个系统的限制资源是什么？我可以一次运行多少蜘蛛？

如何多次运行同一个蜘蛛？

0 个答案: