Spark将大文件作为输入流读取

时间:2017-03-26 01:15:23

标签: apache-spark apache-spark-sql spark-streaming spark-dataframe

我知道spark内置方法可以有分区并读取大块文件并使用textfile分发为rdd。 但是,我在一个定制的加密文件系统中读到这个,火花本质上不支持。我能想到的一种方法是读取输入流并加载多行并分发给执行程序。继续阅读,直到加载所有文件。因此,由于内存不足错误,执行程序不会爆炸。这有可能在火花中做到这一点吗?

1 个答案:

答案 0 :(得分:0)

您可以尝试使用不同n的lines.take(n)来查找群集的限制 或

spark.readStream.option("sep", ";").csv("filepath.csv")