在群集上并行运行抓取作业

时间:2019-03-18 16:40:14

标签: google-cloud-platform scrapy google-compute-engine cluster-computing

我想在许多抓取过程中拆分抓取网址,然后在单独的Google云实例上运行它们。我可以手动执行此操作(同一蜘蛛仅具有不同的输入数据),但是管理10-20个实例非常烦人。是否可以运行实例组并指定应在哪个实例上执行哪个进程?我正在使用scrapy spider,现在我将手动拆分输入数据。下一步将使用Redis队列。

我过去在MPI和集群计算方面经验丰富。我记得有一个选项可以指定每个节点的最大进程数。在这种情况下,我想做类似的事情。

0 个答案:

没有答案