Python根据corellation矩阵生成数字

时间:2018-11-02 17:55:53

标签: python correlation

enter image description here enter image description here

enter image description here

您好,我正在尝试生成尽可能接近第一张表的相关数据(总共显示13条记录中的前三行)。还显示了相关列的相关矩阵(corr_total)。

我正在尝试以下代码,其中显示了错误: “ LinAlgError:第四名未​​成年人未定正数”

from scipy.linalg import cholesky

# Correlation matrix

# Compute the (upper) Cholesky decomposition matrix

upper_chol = cholesky(corr_total)

# What should be here? The mu and sigma of one row of a table?
rnd = np.random.normal(2.57, 0.78, size=(10,7))


# Finally, compute the inner product of upper_chol and rnd
ans = rnd @ upper_chol

我的问题是mu和sigma的值是什么,以及如何解决上面显示的错误。 谢谢! 附注:我已编辑问题以显示原始表格。它显示了四位患者的数据。我基本上是想为更多病例提供综合数据,以复制在这些患者中发现的模式

1 个答案:

答案 0 :(得分:3)

谢谢您回答我有关何时可以访问数据的问题。当您致电cholesky时,会生成收到的错误。 cholesky要求您的矩阵是正半定的。检查矩阵是否为半正定的一种方法是查看其所有特征值是否都大于零。相关/协方差矩阵的特征值之一几乎为零。我认为cholesky只是在挑剔。使用可以使用scipy.linalg.sqrtm作为替代分解。

对于有关生成多元法线的问题,您生成的随机法线应为标准随机法线,即均值0和宽度1。Numpy为标准随机法线生成器提供np.random.randn 。 要生成多元法线,还应该对协方差进行分解,而不是对相关矩阵进行分解。如您所料,以下将使用仿射变换生成多元法线。

from scipy.linalg import cholesky, sqrtm
relavant_columns = ['Affecting homelife',
           'Affecting mobility',
           'Affecting social life/hobbies',
           'Affecting work',
           'Mood',
           'Pain Score',
           'Range of motion in Doc']

# df is a pandas dataframe containing the data frame from figure 1
mu = df[relavant_columns].mean().values
cov = df[relavant_columns].cov().values
number_of_sample = 10


# generate using affine transformation
#c2 = cholesky(cov).T
c2 = sqrtm(cov).T
s = np.matmul(c2, np.random.randn(c2.shape[0], number_of_sample)) + mu.reshape(-1, 1)

# transpose so each row is a sample
s = s.T 

Numpy还具有内置功能,可以直接生成多元法线

s = np.random.multivariate_normal(mu, cov, size=number_of_sample)