是Spark的新手,但是我一直在尝试访问文件,并且无论我如何调整用于在计算机上查找文本文件的代码,我都不断遇到相同的错误
lines = sc.textFile(r"Documents/python-spark-tutorial/in/word_count.txt").collect()
回溯(最近一次通话最后一次):文件“”,第1行,在 文件 “ C:\ spark \ spark-2.4.4-bin-hadoop2.7 \ python \ pyspark \ rdd.py”,第816行, 在收集 sock_info = self.ctx._jvm.PythonRDD.collectAndServe(self._jrdd.rdd())文件 “ C:\ spark \ spark-2.4.4-bin-hadoop2.7 \ python \ lib \ py4j-0.10.7-src.zip \ py4j \ java_gateway.py”, 第1257行,在通话文件中 “ C:\ spark \ spark-2.4.4-bin-hadoop2.7 \ python \ pyspark \ sql \ utils.py”,行 63,在装饰 返回f(* a, kw)文件“ C:\ spark \ spark-2.4.4-bin-hadoop2.7 \ python \ lib \ py4j-0.10.7-src.zip \ py4j \ protocol.py” ,第328行,位于get_return_value py4j.protocol.Py4JJavaError:***错误 通话时发生 z:org.apache.spark.api.python.PythonRDD.collectAndServe。 : org.apache.hadoop.mapred.InvalidInputException:输入路径不正确 存在: 文件:/ C:/Users/Home/Documents/python-spark-tutorial/in/word_count.txt * 在org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:287) 在org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:229)
答案 0 :(得分:0)
尝试以下代码段。
sc.textFile("file:///path")
答案 1 :(得分:0)
我的问题已解决,这是我把txt而不是文本弄乱了的文件扩展名