Spark RDD基于文件的多行

时间:2018-04-13 19:56:02

标签: scala apache-spark bigdata spark-dataframe rdd

我有一个关于火花的简单问题。

想象一下包含此数据的文件:

00000000000
01000000000
02000000000
00000000000
01000000000
02000000000
03000000000

我想创建一个rdd或sparkdataframe,它基于以00开头的行来打破这些数据。所以它将是一个字符串数组的rdd,在这种情况下,基于这个数据示例,将是这样的行:

[00000000000, 01000000000, 02000000000] // first row
[00000000000, 01000000000, 02000000000, 03000000000] // second row

因此它将基于以00开头的行分割数据,并创建一个包含所有其他行的字符串数组,直到找到另一行以00开头,其中rdd的下一行应该开始。

我真的很感激一些代码示例。

谢谢。

0 个答案:

没有答案