使用Numpy(np.linalg.svd)进行奇异值分解

时间:2014-07-23 14:27:51

标签: python numpy pca

我正在阅读Abdi& Williams(2010)"主成分分析"以及我试图重做SVD以获得进一步PCA的值。

文章指出在SVD之后:

X = P D Q ^ t

我将数据加载到np.array X中。

X = np.array(data)
P, D, Q = np.linalg.svd(X, full_matrices=False)
D = np.diag(D)

但是在使用

检查时,我没有得到上述相同
X_a = np.dot(np.dot(P, D), Q.T)

X_a和X是相同的尺寸,但值不相同。我错过了什么,或者np.linalg.svd函数的功能是否与文章中的等式不相容?

3 个答案:

答案 0 :(得分:18)

TL; DR:numpy的SVD计算X = PDQ,因此Q已经转置。

SVD将矩阵X有效地分解为旋转PQ以及对角矩阵D。我linalg.svd()的版本返回了PQ的向前轮换。在计算Q时,您不希望转换X_a

import numpy as np
X = np.random.normal(size=[20,18])
P, D, Q = np.linalg.svd(X, full_matrices=False)
X_a = np.matmul(np.matmul(P, np.diag(D)), Q)
print(np.std(X), np.std(X_a), np.std(X - X_a))

我得到:1.02,1.02,1.8e-15,显示X_a非常准确地重建X

如果您使用的是Python 3,@运算符会实现矩阵乘法并使代码更容易理解:

import numpy as np
X = np.random.normal(size=[20,18])
P, D, Q = np.linalg.svd(X, full_matrices=False)
X_a = P @ diag(D) @ Q
print(np.std(X), np.std(X_a), np.std(X - X_a))
print('Is X close to X_a?', np.isclose(X, X_a).all())

答案 1 :(得分:4)

来自scipy.linalg.svd docstring,其中(M,N)是输入矩阵的形状,K是两者中的较小者:

Returns
-------
U : ndarray
    Unitary matrix having left singular vectors as columns.
    Of shape ``(M,M)`` or ``(M,K)``, depending on `full_matrices`.
s : ndarray
    The singular values, sorted in non-increasing order.
    Of shape (K,), with ``K = min(M, N)``.
Vh : ndarray
    Unitary matrix having right singular vectors as rows.
    Of shape ``(N,N)`` or ``(K,N)`` depending on `full_matrices`.
如上所述,Vh是Abdi和Williams论文中使用的Q的转置。所以只是

X_a = P.dot(D).dot(Q)

应该给你答案。

答案 2 :(得分:1)

我认为对于那些在Python / linalg库中使用SVD的人来说,还有一些要点。首先,https://docs.scipy.org/doc/numpy/reference/generated/numpy.linalg.svd.html是SVD计算功能的良好参考。

将SVD计算为A = U D(V ^ T), 对于U,D,V = np.linalg.svd(A),此函数已经以V ^ T形式返回V。而且D仅包含特征值,因此必须将其成形为矩阵形式。因此,重建可以使用

import numpy as np
import matplotlib.pyplot as plt

n = 30
A = np.matrix([[0,-1],[1,1.6]])
xn = np.zeros(n)
x0 = np.matrix([[5],[-1]])
for i in range(n):
    xn[i]= A**i*x0
    plt.plot(xn)
plt.show()

要点是,如果A矩阵不是正方形而是矩形矩阵,则无法使用,可以改用

import numpy as np
U, D, V = np.linalg.svd(A)
A_reconstructed = U @ np.diag(D) @ V

或者您可以在SVD函数中使用'full_matrices = False'选项;

import numpy as np
U, D, V = np.linalg.svd(A)
m, n = A.shape
A_reconstructed = U[:,:n] @ np.diag(D) @ V[:m,:]