K均值聚类:如何确定哪些变量会影响聚类?

时间:2020-07-08 15:04:08

标签: scikit-learn k-means unsupervised-learning

我正在对86个不同的变量进行聚类分析,我设法使用PCA将其减少到19台PC。使用sk-learn的K-means聚类算法,我得到了10个聚类。但是,我无法弄清楚哪些变量负责分隔这些群集。如何确定哪些变量负责某个群集。

1 个答案:

答案 0 :(得分:0)

PCA创建主要成分,从本质上可以将其视为基本特征的一些线性组合,以帮助将维数从您的情况下的86个特征减少到变化最大的19个“主要成分”。 >

为了了解这些主要组件所基于的区分功能,您必须深入了解PCA的功能。简而言之,PCA对86个特征的相关矩阵进行特征分解。然后将数据投影到一个新的向量空间,该向量空间由19个特征值最高的特征向量组成。

为了粗略估计PCA认为“主要”的特征,可以手动对相关矩阵进行特征分解,并查看哪些特征的特征值最高。但是,请记住,这不会是1-1的相关性,因为PCA使用这86个特征的某种线性组合来降低尺寸。但是,本征分解也许可以帮助您更好地理解数据。

此外,如果您感兴趣的话,这也是PCA及其与特征分解的关系的绝佳解释:https://stats.stackexchange.com/questions/2691/making-sense-of-principal-component-analysis-eigenvectors-eigenvalues