我在Spark中读取多个文件。输入:
path = glob.glob('/home/lh/workspace/PythonSpark/input/*/*')
textFile = sc.textFile(path)
问题是它似乎只是在输出文件中写入它正在读取的最后一个文件而不是所有文件。我已经尝试过coalesce(1)来整理它们,但它的行为与没有它的行为相同。
wordCounts.saveAsTextFile("/home/lh/workspace/PythonSpark/output")