仅使用Apache Spark中的一个处理器映射作业

时间:2014-11-07 17:22:56

标签: apache-spark

Apache Spark中的地图功能只使用一个处理器吗?我希望将我的地图程序并行化为8个CPU,但是当我运行" top"我只看到一个处理器在工作。任何建议将不胜感激!我正在使用Python。

谢谢!

1 个答案:

答案 0 :(得分:2)

最佳可能性:

  1. 您的数据只有一个分区,因为它很小。一个数据分区由一个任务处理,因此一个核心。这是好的和正常的。您可以尝试repartition但如果您的数据集很小,那么只是为了制作分区可能会浪费。
  2. 您在本地运行时指定了local master而不是local[*]
  3. 您实际上在驱动程序上看到一些长时间运行的非分布式方法调用需要很长时间,而不是map,这当然不是并行的
相关问题