当数据大小大于内存时,PySpark能否提供优势?

时间:2014-01-13 21:59:16

标签: apache-spark

PySpark在处理太大而无法完全加载到内存中的数据时是否具有任何优势?我试图将这个(以及其他功能)与基于IPy Parallel的方法进行比较。

1 个答案:

答案 0 :(得分:0)

spark-shell(使用scala)/ pyspark适用于Superfast集群计算。

这一切都取决于群集的大小,特别是您要分配给每个工作人员的SPARK_WORKER_MEMORY。

如果您的数据更适合内存,那么spark将有效地利用DISK(以及内存)。

希望这会有所帮助:)

相关问题