Question

我正在尝试读取csv文件来创建数据框（https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html）

使用：

spark-1.3.1-bin-hadoop2.6
spark-csv_2.11-1.1.0

代码：

import org.apache.spark.sql.SQLContext
object test {
 def main(args: Array[String]) {
       val conf = new SparkConf().setAppName("test")
       val sc = new SparkContext(conf)
       val sqlContext = new SQLContext(sc)
       val df = sqlContext.csvFile("filename.csv")
       ...
 }
}

错误：

value csvFile is not a member of org.apache.spark.sql.SQLContext

我试图按照这里的建议去做：Spark - load CSV file as DataFrame?

但是sqlContext似乎没有认识到CsvContext类的csvFile方法。

任何建议都将不胜感激！

Answer 1

我也遇到了一些CSV问题（没有Spark-CSV），但是你可以看一下这些问题并检查它们是否正常。

使用sbt程序集使用spark-csv库构建Spark shell。
将spark-csv依赖项添加到maven项目的POM.XML。
使用Dataframe API的加载/保存方法。

SPARK-CSV GITHUB

参考spark-csv github readme.md页面，你将启动并运行：）

读取csv文件以创建数据帧

1 个答案: