我对文档进行了SVD分解
我已阅读this page,但我不明白如何计算文档分离的最佳功能。
我知道:
S x Vt 为我提供了文档和功能之间的关系
U x S 给出了术语和功能之间的关系
但最佳功能选择的关键是什么?
答案 0 :(得分:5)
SVD仅涉及输入,而不涉及其标签。换句话说,它可以被视为无监督技术。因此,它无法告诉您什么功能有利于分离,而不做任何进一步的假设。
它告诉你的是什么'基础载体'在仅使用基矢量的子集重建原始数据方面,比其他人更重要。
然而,您可以通过以下方式考虑LSA(这只是解释,数学是重要的):文档由多个主题组合生成。每个主题都由长度为n
的向量表示,它告诉您此主题中每个单词的可能性。例如,如果主题为sports
,则football
或game
等字词的可能性高于bestseller
或movie
。这些主题向量是U的列。为了生成文档(A列),您可以采用线性的主题组合。线性组合的系数是Vt的列 - 每列告诉您生成文档时要采用的主题比例。此外,每个主题都有一个整体的增益' factor,它告诉你这个主题在你的文档集中有多重要(也许你只有一个关于1000个文档中的体育文档)。这些是奇异值== S的对角线。如果丢弃较小的那些,您可以用较少的主题表示原始矩阵A,并丢失少量信息。当然,'小'是一个应用问题。
LSA的一个缺点是,如何解释这些数字并不完全清楚 - 例如,它们不是概率。有" 0.5"文档中sports
的单位,但是" -1"是什么意思?单元?