Spark从远程服务器读取文件

时间:2017-03-28 16:32:47

标签: apache-spark

我有1个节点的spark集群,并使用WholeTextFile api或Textfile API来读取和解析文件。

我可以知道spark允许从远程服务器读取文件吗?或者物理上需要在Spark节点上存在文件。?

1 个答案:

答案 0 :(得分:0)

您可以使用FTP读取远程文件

import org.apache.spark.SparkFiles
val filePath = "ftp://user:pwd/myhost/map/myinput.nt"
sc.addFile(filePath)
var fileName = SparkFiles.get(filePath.split("/").last)
var file = sc.textFile(fileName)