我正在尝试了解PCA,我经历了几个教程。到目前为止,我理解,矩阵的特征向量意味着向量旋转的方向,并且当乘以该矩阵时,按照特征值的比例进行缩放。因此,与最大特征值相关联的特征向量定义了最大旋转的方向。据我所知,沿着主成分,变化最大,重建误差最小。我不明白的是:
为什么找到协方差矩阵的特征向量对应于轴,以便用这个轴更好地定义原始变量?
答案 0 :(得分:0)
你的前提是不正确的。 PCA(和协方差矩阵的特征向量)当然不能代表原始数据“更好”。
简而言之,PCA的目标是找到数据的较低维度表示(X
,其为n
维度),以便尽可能多地保留变体。结果是这个低维表示是一个正交子空间,它是你的数据的最佳 k
维表示(其中k < n
)。我们必须找到子空间。
另一种思考方式:给定数据矩阵X
找到矩阵Y
,Y
是k
维度X
的投影。要找到最佳投影,我们可以最小化X
和Y
之间的差异,矩阵说法意味着最小化||X - Y||^2
。
由于Y
只是X
在较低维度上的投影,我们可以说Y = X*v
其中v*v^T
是较低等级的投影。 Google rank
如果这没有意义。我们知道Xv
的维度低于X
,但我们不知道它指向的方向。
为此,我们发现v
使||X - X*v*v^t||^2
最小化。这相当于最大化||X*v||^2 = ||v^T*X^T*X*v||
,X^T*X
是数据的样本协方差矩阵。这在数学上是为什么我们关心数据的协方差。而且,事实证明,做到这一点的v
是最好的,是一个特征向量。在低维投影/近似中,每个维度都有一个特征向量。这些特征向量也是正交的。
请记住,如果它们是正交的,那么它们之间的协方差就是0
。现在想想一个非零对角线的矩阵和非对角线的零点。这是正交列的协方差矩阵,即每列是特征向量。
希望这有助于弥合协方差矩阵之间的联系以及它如何帮助产生最佳的低维子空间。
同样,特征向量不能更好地定义我们的原始变量。通过将PCA应用于数据集确定的轴是我们的原始变量的线性组合,这些变量倾向于表现出最大方差,并产生与我们原始数据最接近的可能近似值(通过l2范数测量)。