LSA - 特征选择

时间:2014-01-28 09:42:20

标签: machine-learning svd feature-selection latent-semantic-indexing latent-semantic-analysis

我对文档进行了SVD分解

SVD Decomposition

我已阅读this page,但我不明白如何计算文档分离的最佳功能。

我知道:

S x Vt 为我提供了文档和功能之间的关系

U x S 给出了术语和功能之间的关系

但最佳功能选择的关键是什么?

1 个答案:

答案 0 :(得分:5)

SVD仅涉及输入,而不涉及其标签。换句话说,它可以被视为无监督技术。因此,它无法告诉您什么功能有利于分离,而不做任何进一步的假设。

它告诉你的是什么'基础载体'在仅使用基矢量的子集重建原始数据方面,比其他人更重要。

然而,您可以通过以下方式考虑LSA(这只是解释,数学是重要的):文档由多个主题组合生成。每个主题都由长度为n的向量表示,它告诉您此主题中每个单词的可能性。例如,如果主题为sports,则footballgame等字词的可能性高于bestsellermovie。这些主题向量是U的列。为了生成文档(A列),您可以采用线性的主题组合。线性组合的系数是Vt的列 - 每列告诉您生成文档时要采用的主题比例。此外,每个主题都有一个整体的增益' factor,它告诉你这个主题在你的文档集中有多重要(也许你只有一个关于1000个文档中的体育文档)。这些是奇异值== S的对角线。如果丢弃较小的那些,您可以用较少的主题表示原始矩阵A,并丢失少量信息。当然,'小'是一个应用问题。

LSA的一个缺点是,如何解释这些数字并不完全清楚 - 例如,它们不是概率。有" 0.5"文档中sports的单位,但是" -1"是什么意思?单元?