python - 潜在语义索引如何用于特征选择？

LSA在概念上类似于PCA，但用于不同的设置。

PCA 的目标是将数据转换为新的，可能是维度较小的空间。例如，如果您想识别脸部并且使用640x480像素图像（即307200维空间中的矢量），您可能会尝试将这个空间减少到合理的两者 - 使计算更简单并使数据更少噪声。 PCA就是这样做的：它＆＃34;旋转＆＃34;你的高维空间的轴，并指定＆＃34;重量＆＃34;到每个新轴，这样你就可以丢掉最不重要的轴。

另一方面，

LSA 用于分析单词的语义相似性。它无法处理图像，银行数据或其他一些自定义数据集。它专为文本处理而设计，专门用于术语文档矩阵。然而，这些矩阵通常被认为太大，因此它们被缩减为以与PCA非常相似的方式形成较低等级的矩阵（两者都使用SVD）。但是，此处不执行功能选择。相反，你得到的是特征向量转换。 SVD为您提供了一些变换矩阵（让我们称之为S），它与输入向量x相乘，在较小的空间中给出新的向量x'，具有更重要的基础。这个新基础是您的新功能。虽然，他们没有被选中，而是通过改变旧的，更大的基础来获得。

有关LSA的更多详细信息，只要有实施提示，请参阅this文章。

潜在语义索引如何用于特征选择？

1 个答案: