合并rdd字符串行而不减少

时间:2015-12-14 10:26:20

标签: scala apache-spark

当我使用spark中的rdd从文本文件中检索数据时,看起来检索的行是相互分离的。

我想要的是rdd将它们组合在一起并将它们视为我已经并行化了一个字符串。

例如:来自rddcontent:

sc.TextFile("sample.txt") // content: List("abc", \n "def")

要:

sc.parallelize("abcdef") // content: "abcdef"

应该这样做,因为整个数据太大而无法在内存中使用reduce但仍需要整体处理(当然并行但没有行分隔)

0 个答案:

没有答案
相关问题