google-cloud-platform - 在群集上并行运行抓取作业

我想在许多抓取过程中拆分抓取网址，然后在单独的Google云实例上运行它们。我可以手动执行此操作（同一蜘蛛仅具有不同的输入数据），但是管理10-20个实例非常烦人。是否可以运行实例组并指定应在哪个实例上执行哪个进程？我正在使用scrapy spider，现在我将手动拆分输入数据。下一步将使用Redis队列。

我过去在MPI和集群计算方面经验丰富。我记得有一个选项可以指定每个节点的最大进程数。在这种情况下，我想做类似的事情。

在群集上并行运行抓取作业

0 个答案: