矩阵TFIDF的降维

时间:2011-03-29 22:30:02

标签: java matrix classification tf-idf

我计算TFIdf(术语频率,逆文档频率),我已经看到在这一步之后,有必要使用像LSI,chi -square test ...,

我不知道如何在java中实现卡方检验以减少矩阵TFIDF的维数,如果有一些库可以做到这一点或者教程中他们解释我怎么做,请告诉我

2 个答案:

答案 0 :(得分:3)

为LSA,LDA使用gensims库。 它实际上可以为任何大型数据集执行LSA。它不会立即将整个语料库加载到内存中,但会进行惰性读取。

答案 1 :(得分:0)

我认为你不想做卡方;这不是减少尺寸的技术。

您要做的是SVD或奇异值分解。这是LSI / LSA中用于降维的技术。

维基百科建议在Java中使用名为“S-Space Pacakage”的库来实现LSA。我自己没有用过它,但你可能想看看它。

http://code.google.com/p/airhead-research/

相关问题