如何多次运行同一个蜘蛛?

时间:2016-12-12 10:42:05

标签: python parallel-processing scrapy

我想多次运行相同的蜘蛛,除非我会将每个蜘蛛送到生成器的不同部分,希望它能更快地扫描整个物体。

我一直在考虑做类似的事情:

import scrapy
from scrapy.crawler import CrawlerProcess

class MySpider1(scrapy.Spider):
    # Spider definition

process = CrawlerProcess()
process.crawl(MySpider1)
process.crawl(MySpider1)  
process.crawl(MySpider1)  
process.crawl(MySpider1)
process.crawl(MySpider1)
process.crawl(MySpider1)  
process.crawl(MySpider1)  
process.crawl(MySpider1)
process.start()

除了我不知道两件事:

  • 如何将参数传递给MySpider1,以便我可以将每个进程与主发生器的不同部分一起提供。

  • 这会加快这个过程吗?我不确定,因为我不知道这个API的内部架构。为什么孤独的蜘蛛不会使用所有的处理器资源,因为当我运行它时它甚至没有出汗。这个系统的限制资源是什么?我可以一次运行多少蜘蛛?

0 个答案:

没有答案