在PySpark中保存和读取numpy数组的最佳方法是什么?

时间:2019-04-26 19:46:32

标签: numpy pyspark

假设我有一个RDD,其中每个项目都是一个numpy数组:

rdd = sc.parallelize([np.asarray(1), np.asarray(2)])

将RDD保存到HDFS,然后再读回的推荐方法是什么?我知道saveAsTextFile方法,但是这实际上不是文本文件,对吗?其他方法,例如saveAsHadoopFilesaveAsNewAPIHadoopFile等似乎更适合键-值对的RDD,在此情况并非如此。

0 个答案:

没有答案