从Hadoop读取R中的巨大csv文件

时间:2014-11-04 18:12:47

标签: r csv hadoop

我正在尝试从Hadoop中读取R中的巨大(250 MB,60万行,60列)CSV文件。我使用的字段分隔符是“@”,我使用的R代码是

PC2009 <- as.matrix(from.dfs("hdfs://..../apps/g00008/moloy/fuzzy/TUSOpsSODetails_2009.csv", 
           make.input.format(format="csv", sep="@", fill=TRUE))$val)

但是从第5列开始,数据就会被破坏。通过做一个“猫”,我发现HDFS中的数据是正确的。谁能请教我如何从Hadoop读取R中的这些大文件?请注意,我是MapReduce的新手。

0 个答案:

没有答案