r中的最佳簇数

时间:2014-05-06 16:03:52

标签: r machine-learning cluster-analysis data-mining

在此SO answer中,如何选择群集数量,其中一个图表包含以下内容:

  

这两个组成部分解释了100%的点变异性

。它指的是什么组件?这些是x和y组件吗?

enter image description here

1 个答案:

答案 0 :(得分:1)

组件是主要组件,例如主成分分析对原始变量的结果。

clusplot(...)依赖clusplot.default(...),其中文档说明:

  

...创建一个可视化分区(聚类)的双变量图   数据。所有观察都由图中的点表示,   使用主成分或多维缩放...

由于原始数据可以具有> 2个维度(例如,多于两个变量),并且聚类图限于2D,期望对原始数据执行某种维数减少。这样做的常用方法是PCA,它创建一组新的变量作为原始集的线性组合。新变量称为主成分,并且具有(通常)原始数据集中的大多数变量集中在前几个主成分中的属性。所以clusplot(...)绘制了PC2与PC1的对比。

如果原始数据集中只有两个维度,那么将只有2个PC,这些将占数据可变性的100%。我怀疑这是你的例子中发生的事情。