潜在语义分析(LSA)单值分解(SVD)理解

时间:2013-02-04 17:47:25

标签: analysis svd latent-semantic-indexing latent-semantic-analysis

通过我对LSI(机械工程背景)的谦虚理解,请耐心等待:

在LSI中执行SVD后,您有3个矩阵:

U,S和V转置。

U将单词与主题进行比较,S是衡量每个要素强度的一种方法。 Vt将主题与文档进行比较。

 U dot S dot Vt

在SVD之前返回原始矩阵。没有做太多(无)深度代数,似乎:

 U dot S dot **Ut**

按术语矩阵返回一个术语,它提供术语之间的比较。即,一个术语与其他术语的相关性如何,一种比较词而不是组件的各种DSM(设计结构矩阵)。我可能完全错了,但我在样本数据集上尝试过,结果似乎有意义。它可能只是偏见(我想让它起作用,所以我看到了我想要的东西)。由于文件受到保护,我无法发布结果。

我的问题是:这有什么意义吗?按道理?数学上?

感谢您的任何时间/回复。

1 个答案:

答案 0 :(得分:0)

如果你想知道一个术语与另一个术语的相关性,你可以计算

  
    
      

(U点S)

    
  

这些术语由行向量表示。然后,您可以通过应用距离函数(例如欧氏距离)来计算距离矩阵。一旦通过计算所有矢量之间的距离来制作距离矩阵,所得到的矩阵应该是中空对称的,所有距离都> 0。如果距离A [i,j]很小则它们是相关的,否则它们不相关。