Spark读取多个文件并保存为一个输出文件

时间:2016-04-30 21:26:11

标签: python apache-spark

我在Spark中读取多个文件。输入:

path = glob.glob('/home/lh/workspace/PythonSpark/input/*/*')
textFile = sc.textFile(path)

问题是它似乎只是在输出文件中写入它正在读取的最后一个文件而不是所有文件。我已经尝试过coalesce(1)来整理它们,但它的行为与没有它的行为相同。

wordCounts.saveAsTextFile("/home/lh/workspace/PythonSpark/output")

0 个答案:

没有答案