apache-spark - 当数据大小大于内存时，PySpark能否提供优势？ - Thinbug

当数据大小大于内存时，PySpark能否提供优势？

时间：2014-01-13 21:59:16

标签： apache-spark

PySpark在处理太大而无法完全加载到内存中的数据时是否具有任何优势？我试图将这个（以及其他功能）与基于IPy Parallel的方法进行比较。

1 个答案:

答案 0 :(得分：0)

spark-shell（使用scala）/ pyspark适用于Superfast集群计算。

这一切都取决于群集的大小，特别是您要分配给每个工作人员的SPARK_WORKER_MEMORY。

如果您的数据更适合内存，那么spark将有效地利用DISK（以及内存）。

希望这会有所帮助:)