Question

是Spark的新手，但是我一直在尝试访问文件，并且无论我如何调整用于在计算机上查找文本文件的代码，我都不断遇到相同的错误

lines = sc.textFile(r"Documents/python-spark-tutorial/in/word_count.txt").collect()

回溯（最近一次通话最后一次）：文件“”，第1行，在文件 “ C：\ spark \ spark-2.4.4-bin-hadoop2.7 \ python \ pyspark \ rdd.py”，第816行，在收集 sock_info = self.ctx._jvm.PythonRDD.collectAndServe（self._jrdd.rdd（））文件 “ C：\ spark \ spark-2.4.4-bin-hadoop2.7 \ python \ lib \ py4j-0.10.7-src.zip \ py4j \ java_gateway.py”，第1257行，在通话文件中 “ C：\ spark \ spark-2.4.4-bin-hadoop2.7 \ python \ pyspark \ sql \ utils.py”，行 63，在装饰返回f（* a， kw）文件“ C：\ spark \ spark-2.4.4-bin-hadoop2.7 \ python \ lib \ py4j-0.10.7-src.zip \ py4j \ protocol.py” ，第328行，位于get_return_value py4j.protocol.Py4JJavaError：***错误通话时发生 z：org.apache.spark.api.python.PythonRDD.collectAndServe。： org.apache.hadoop.mapred.InvalidInputException：输入路径不正确存在：文件：/ C：/Users/Home/Documents/python-spark-tutorial/in/word_count.txt * 在org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus（FileInputFormat.java:287）在org.apache.hadoop.mapred.FileInputFormat.listStatus（FileInputFormat.java:229）

Answer 1

尝试以下代码段。

sc.textFile("file:///path")

Answer 2

我的问题已解决，这是我把txt而不是文本弄乱了的文件扩展名

输入路径不存在apache-spark

2 个答案: