text2vec和RHadoop

时间:2017-08-13 03:02:42

标签: text2vec

目前,我们正在使用text2vec处理AWS EC2中的大型数据集(单实例),未来文本数据会越做越大,我们可能会尝试使用RHadoop(MapReduce)架构而不知道它是否可以text2vec和RHadoop(MapReduce)之间的兼容性。

1 个答案:

答案 0 :(得分:0)

简短的回答是肯定的 - 如果你真的希望你可以使用RHadoop做任何事情。但我非常确定这种努力会很充实,而且你可能对结果感到满意。

回到真正的问题。值得尝试text2vec版本0.5(上周发布) - 它比以前消耗更少的ram。您还可以使用块并行处理数据。例如,检查this vignette

另一件事是,对于像分类这样的基本任务,你通常不需要RAM中的所有数据。您可以检查另一个我的软件包 - FTRL,以便逐步使用SGD进行逻辑回归(具有L1 / L2 /弹性网罚分)。

很高兴有关于内存问题的github报告(实际上来自Matrix包)。

PS树方法和集合通常不适合稀疏的高维数据。