Scala:我如何根据行数将数据帧拆分为多个csv文件

时间:2017-04-23 03:48:31

标签: scala csv apache-spark dataframe rdd

我有一个数据帧说df1有10M行。我想将它们拆分为多个csv文件,每个文件包含1M行。有什么建议在scala中做同样的事情吗?

1 个答案:

答案 0 :(得分:0)

您可以在Dataframes上使用randomSplit方法。

import scala.util.Random
val df = List(0,1,2,3,4,5,6,7,8,9).toDF
val splitted = df.randomSplit(Array(1,1,1,1,1)) 
splitted foreach { a => a.write.format("csv").save("path" + Random.nextInt) }

我使用Random.nextInt来获得唯一的名称。如有必要,您可以在那里添加一些其他逻辑。

来源:

http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.Dataset

How to save a spark DataFrame as csv on disk?

https://forums.databricks.com/questions/8723/how-can-i-split-a-spark-dataframe-into-n-equal-dat.html

编辑:另一种方法是使用限制,但:

var input = List(1,2,3,4,5,6,7,8,9).toDF
val limit = 2

var newFrames = List[org.apache.spark.sql.Dataset[org.apache.spark.sql.Row]]()
var size = input.count;

while (size > 0) {
    newFrames = input.limit(limit) :: newFrames
    input = input.except(newFrames.head)
    size = size - limit
}

newFrames.foreach(_.show)

结果列表中的第一个元素可能包含的元素少于列表的其余部分。