cluster-analysis - 如何从具有分层聚类的样本中获得聚类？

时间：2019-05-09 20:32:02

标签： cluster-analysis cross-validation hierarchical-clustering

为了找到一个未知样本所属的簇，

k-means存储每个群集的质心。新样本所属的聚类就是具有最接近质心的聚类。

那分层集群又如何呢？您将如何找到新样本所属的集群？

类似地，在进行聚类的情况下，聚类后，我们只会（单独）获得训练数据的行和列的聚类ID。

换句话说，给定一个具有m个特征（列）的样本，我们需要以某种方式找到每个特征所属的聚类。谁能向我解释这是如何实现的？如果我的假设不正确，那么您可以引导我朝正确的方向前进吗？

谢谢

答案 0 :(得分：0)

你没有。

聚类的目的不是标记新数据点。 K均值在某种程度上是个例外，因为很明显要使用什么规则（最近的中心），但是即使对于k均值，以这种方式标记点的结果也不一定与在其上运行kmeans（X u {x}）相同。旧数据加新点。因此不一致。

对于其他算法（例如层次聚类），此效果更糟。例如，一个新的数据点可能会导致两个群集合并！

您可以做的-似乎是常见的解决方案-是使用聚类输出来训练分类器。然后，该分类器可用于预测聚类标签。一个缓慢但常见的选择是（k = 1-）最近邻分类器。