r - 在R中处理大数据的有效方法

时间：2017-10-08 15:03:28

标签： r bigdata

我有一个巨大的csv文件，1.37 GB，当在R中运行我的glm时，它崩溃了，因为我没有足够的内存分配。你知道，常规错误..

除了包ff和bigmemory之外别无选择，因为它们似乎对我来说效果不好，因为我的列是整数和字符的混合，而且似乎有两个包我必须指定我的列的类型是char或整数。

我们很快将在2018年，即将把人们放在火星上;我们可以使用没有简单的“read.csv.xxl”函数吗？

答案 0 :(得分：1)

我首先要解决的问题是，仅仅因为你的样本数据需要1.37 GB而不，这意味着使用glm进行所有计算时，1.37 GB是令人满意的包。最有可能的是，您的计算之一可能至少达到1.37 GB的倍数。

对于第二部分，这里的实际解决方法是采用1.37 GB数据集的合理子样本。您是否真的需要使用所有原始数据集中的数据点来构建模型？或者，可以说10％的子样本也会给你一个统计上显着的模型？如果降低数据集的大小，则用R。

解决内存问题

请记住，R完全在内存中运行，这意味着一旦超出可用内存，您可能会运气不佳。