在R中处理大数据集的最佳方法

时间:2015-12-24 09:41:27

标签: r bigdata ff r-bigmemory

我必须在大数据集上运行一些回归模型和描述。我有一个大约500个文件的文件夹(更新:txt文件),我想合并,总共250GB。

我知道如何合并文件夹中的所有文件,但是虽然我在128RAM服务器上运行它,但我一直在内存不足。

我正在寻找有关如何以可管理的方式(如果可能)使用R.加载/合并这些文件的任何提示/建议。我一直在研究诸如" ff"等软件包。和" bigmemory",这些会为我提供解决方案吗?

1 个答案:

答案 0 :(得分:0)

我会建议ff和biglm包。后者允许您对存储在磁盘上的整个数据集(使用ff)运行回归,方法是在RAM中加载较小的块。使用read.table.ffdf()将单独的txt文件转换为磁盘上的ff文件。请参阅chunk.ffdf()帮助文件中的示例,了解如何使用biglm()运行回归。