在r-project上的大型数据集上应用聚合函数

时间:2014-08-31 15:27:59

标签: r ehcache-bigmemory large-data

我需要在一个18GB的数据集上使用聚合函数,该数据集包含CSV格式的数字和分类数据集(在某些情况下有超过6000万条记录)。

我尝试过各种各样的软件包,比如ff或bigmemory但没有成功。问题是我必须按照某些列的值对某些列进行分组,这些列在一列上应用聚合函数,或者作为分割函数在几列上应用。

一个简短的例子:

country day month year f person_id age...
1 23 01 2014 4005 5000 20...
1 23 01 20014 4005 244 43...
....

按国家/地区和月份进行分组我们想知道聚合在data.frame或data.table上的乘客数量(不支持大型数据集) 或者按年龄和性别分组应用分析日期月份和日期,因为分割功能可以对data.frame或data.table执行(因此没有大型数据集)。

你们能告诉我一个解决方案吗?请提供任何有用的提示。非常感谢您的合作!

0 个答案:

没有答案