将数据从本地hdfs加载到本地SparkR

时间:2015-10-19 09:36:36

标签: hdfs sparkr

我正在尝试使用SparkR将内部部署hdf中的数据加载到R-Studio。

当我这样做时:

SELECT 'abcde' type,
  NVL(SUM(something),0) value
FROM tableA a
LEFT OUTER JOIN tableB b
ON a.id=b.id
GROUP BY type;

然后这个:

 df_hadoop <- read.df(sqlContext, "hdfs://xxx.xx.xxx.xxx:xxxx/user/lam/lamr_2014_09.csv",
              source = "com.databricks.spark.csv")

我明白了:

str(df_hadoop)

然而,这不是我正在寻找的df,因为csv中有13个字段我正在尝试从hdfs加载。

我有一个包含csv的13个字段的模式,但是我在哪里或如何告诉SparkR?

1 个答案:

答案 0 :(得分:1)

如果您尝试以下操作:

df <- createDataFrame(sqlContext,
                      data.frame(a=c(1,2,3),
                                 b=c(2,3,4),
                                 c=c(3,4,5)))

str(df)

你也可以

Formal class 'DataFrame' [package "SparkR"] with 2 slots
  ..@ env:<environment: 0x139235d18> 
  ..@ sdf:Class 'jobj' <environment: 0x139230e68> 

Str()确实显示了df的表示形式,它是一个指针而不是data.frame。而只是使用

df

show(df)
相关问题