Question

我正在尝试使用SparkR将内部部署hdf中的数据加载到R-Studio。

当我这样做时：

SELECT 'abcde' type,
  NVL(SUM(something),0) value
FROM tableA a
LEFT OUTER JOIN tableB b
ON a.id=b.id
GROUP BY type;

然后这个：

 df_hadoop <- read.df(sqlContext, "hdfs://xxx.xx.xxx.xxx:xxxx/user/lam/lamr_2014_09.csv",
              source = "com.databricks.spark.csv")

我明白了：

str(df_hadoop)

然而，这不是我正在寻找的df，因为csv中有13个字段我正在尝试从hdfs加载。

我有一个包含csv的13个字段的模式，但是我在哪里或如何告诉SparkR？

Answer 1

如果您尝试以下操作：

df <- createDataFrame(sqlContext,
                      data.frame(a=c(1,2,3),
                                 b=c(2,3,4),
                                 c=c(3,4,5)))

str(df)

你也可以

Formal class 'DataFrame' [package "SparkR"] with 2 slots
  ..@ env:<environment: 0x139235d18> 
  ..@ sdf:Class 'jobj' <environment: 0x139230e68>

Str（）确实显示了df的表示形式，它是一个指针而不是data.frame。而只是使用

df

或

show(df)

将数据从本地hdfs加载到本地SparkR

1 个答案: