如何有效地读取R中的大数据集?

时间:2015-04-24 03:58:27

标签: r

在R中读取大数据集(~6 GB)的简单方法是什么?每当我读取大数据集时,R冻结。

2 个答案:

答案 0 :(得分:3)

如果您的数据位于.xlsx或.xlsm文件中,您可能需要考虑使用C库来解析Excel文件内部XML结构的新readxl包。

我相信它现在是R中最快的选择。

install.packages("readxl")
library(readxl)
df <- read_excel("myfile.xlsx", sheet = 1, col_names = TRUE, na = "")

答案 1 :(得分:3)

查看hadley的Rstudio最新的readr包。 here

声称速度提高了10倍,并提供了相同的功能来加载普通文件数据集,例如read_csv read_delim read_tsv ...

另一种选择是使用data.table包。它提供类似的加载工具,比read.csv或read.delim快得多。