N克 - 不在记忆中

时间:2016-09-21 10:09:33

标签: python n-gram language-model

我有3百万的摘要,我想从中提取4克。我想建立一个语言模型,所以我需要找到这些4克的频率。

我的问题是我无法在内存中提取所有这些4克。如何实现一个可以估算这4克的所有频率的系统?

1 个答案:

答案 0 :(得分:0)

听起来你需要将中频计数存储在磁盘而不是内存中。幸运的是,大多数数据库都可以这样做,而python可以与大多数数据库通信。