statistics - 为什么Covariance矩阵的主成分能够捕获变量的最大方差？

你的前提是不正确的。 PCA（和协方差矩阵的特征向量）当然不能代表原始数据“更好”。

简而言之，PCA的目标是找到数据的较低维度表示（X，其为n维度），以便尽可能多地保留变体。结果是这个低维表示是一个正交子空间，它是你的数据的最佳 k维表示（其中k < n）。我们必须找到子空间。

另一种思考方式：给定数据矩阵X找到矩阵Y，Y是k维度X的投影。要找到最佳投影，我们可以最小化X和Y之间的差异，矩阵说法意味着最小化||X - Y||^2。

由于Y只是X在较低维度上的投影，我们可以说Y = X*v其中v*v^T是较低等级的投影。 Google rank如果这没有意义。我们知道Xv的维度低于X，但我们不知道它指向的方向。

为此，我们发现v使||X - X*v*v^t||^2最小化。这相当于最大化||X*v||^2 = ||v^T*X^T*X*v||，X^T*X是数据的样本协方差矩阵。这在数学上是为什么我们关心数据的协方差。而且，事实证明，做到这一点的v是最好的，是一个特征向量。在低维投影/近似中，每个维度都有一个特征向量。这些特征向量也是正交的。

请记住，如果它们是正交的，那么它们之间的协方差就是0。现在想想一个非零对角线的矩阵和非对角线的零点。这是正交列的协方差矩阵，即每列是特征向量。

希望这有助于弥合协方差矩阵之间的联系以及它如何帮助产生最佳的低维子空间。

同样，特征向量不能更好地定义我们的原始变量。通过将PCA应用于数据集确定的轴是我们的原始变量的线性组合，这些变量倾向于表现出最大方差，并产生与我们原始数据最接近的可能近似值（通过l2范数测量）。

为什么Covariance矩阵的主成分能够捕获变量的最大方差？

1 个答案: