输入路径不存在apache-spark

时间:2019-09-10 06:59:37

标签: python apache-spark

是Spark的新手,但是我一直在尝试访问文件,并且无论我如何调整用于在计算机上查找文本文件的代码,我都不断遇到相同的错误

lines = sc.textFile(r"Documents/python-spark-tutorial/in/word_count.txt").collect()
  

回溯(最近一次通话最后一次):文件“”,第1行,在      文件   “ C:\ spark \ spark-2.4.4-bin-hadoop2.7 \ python \ pyspark \ rdd.py”,第816行,   在收集       sock_info = self.ctx._jvm.PythonRDD.collectAndServe(self._jrdd.rdd())文件   “ C:\ spark \ spark-2.4.4-bin-hadoop2.7 \ python \ lib \ py4j-0.10.7-src.zip \ py4j \ java_gateway.py”,   第1257行,在通话文件中   “ C:\ spark \ spark-2.4.4-bin-hadoop2.7 \ python \ pyspark \ sql \ utils.py”,行   63,在装饰       返回f(* a, kw)文件“ C:\ spark \ spark-2.4.4-bin-hadoop2.7 \ python \ lib \ py4j-0.10.7-src.zip \ py4j \ protocol.py” ,第328行,位于get_return_value py4j.protocol.Py4JJavaError:***错误   通话时发生   z:org.apache.spark.api.python.PythonRDD.collectAndServe。 :   org.apache.hadoop.mapred.InvalidInputException:输入路径不正确   存在:   文件:/ C:/Users/Home/Documents/python-spark-tutorial/in/word_count.txt *           在org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:287)           在org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:229)

2 个答案:

答案 0 :(得分:0)

尝试以下代码段。

sc.textFile("file:///path")

答案 1 :(得分:0)

我的问题已解决,这是我把txt而不是文本弄乱了的文件扩展名

相关问题