machine-learning - LSA - 特征选择

SVD仅涉及输入，而不涉及其标签。换句话说，它可以被视为无监督技术。因此，它无法告诉您什么功能有利于分离，而不做任何进一步的假设。

它告诉你的是什么＆＃39;基础载体＆＃39;在仅使用基矢量的子集重建原始数据方面，比其他人更重要。

然而，您可以通过以下方式考虑LSA（这只是解释，数学是重要的）：文档由多个主题组合生成。每个主题都由长度为n的向量表示，它告诉您此主题中每个单词的可能性。例如，如果主题为sports，则football或game等字词的可能性高于bestseller或movie。这些主题向量是U的列。为了生成文档（A列），您可以采用线性的主题组合。线性组合的系数是Vt的列 - 每列告诉您生成文档时要采用的主题比例。此外，每个主题都有一个整体的增益＆＃39; factor，它告诉你这个主题在你的文档集中有多重要（也许你只有一个关于1000个文档中的体育文档）。这些是奇异值== S的对角线。如果丢弃较小的那些，您可以用较少的主题表示原始矩阵A，并丢失少量信息。当然，＆＃39;小＆＃39;是一个应用问题。

LSA的一个缺点是，如何解释这些数字并不完全清楚 - 例如，它们不是概率。有＆＃34; 0.5＆＃34;文档中sports的单位，但是＆＃34; -1＆＃34;是什么意思？单元？

LSA - 特征选择

1 个答案: