完整的链接群集

时间:2015-04-16 12:13:48

标签: algorithm machine-learning cluster-analysis hierarchical-clustering

我猜想使用Complete-linkage clustering来自同一群集的两个元素将始终彼此更接近,然后来自另一个群集的其他元素。

用更正式的术语来说:

让$ C $成为一个集群。  $ \ not \存在z \ in C_j $ s.t. $ \ bigtriangleup(x,z)< \ bigtriangleup(x,y)$其中$ x,y \ in C_i $,$ C_i \ neq C_j $和$ C_i,C_j \ in C $。

我还没能证明这个猜想,因此我想知道我是对还是错。如果确实如此,我会非常感谢一个证明的草图。我很确定我可以从那里开始工作。

在旁注(不是我认为它有所不同),我将在一维数据集上应用聚类算法。

非常感谢您的意见。

1 个答案:

答案 0 :(得分:1)

我不确定你的推测是否属实。由于完全连锁聚类的性质,每次聚集两个聚类时,你都是这样做的,因为在这两个聚类之间最远的两个元素仍然相互之间的距离比最远的元素到任何其他集群。

你要证明的是

  

“在另一个集群(集群B)中,永远不会存在与所考虑集群中的任何其他元素(集群A)相比更接近所考虑的集群(集群A)中的某个元素的元素。(即,集群A)群集A中的元素与群集A中的所有其他元素之间的最小距离始终小于群集A中的元素与群集B中的任何元素之间的最小距离“

但是,由于完全链接聚类合并了两个聚类A和B之后,聚类C中仍然存在一个元素,它比聚类AB中的元素更接近聚类AB中的任何其他元素,因为完全链接只是担心最大距离。

反例如:

  

A - 1 - B - 3 - C - 2.5 - d - 2 - 电子

如何解释示例:

  • 观察结果A,B,C,D和E排列成一条直线。
  • 观察A距离观察B 1个单位
  • 观察B距离观察C
  • 3个单位
  • 观察C与观察D相距2.5个单位
  • 观察D距离观察E 2个单位

让我们执行分层聚类:

  1. 首先合并A和B因为距离是1:
  2. 新图片:

      

    AB - 4 - C - 2.5 - d - 2 - 电子

    • 群集AB距离观测C 4个单位(因为A是由于完全连锁聚类而来自C的4个单位),这是来自D的2.5个单位,这是来自E的2个单位

      1. 接下来,D和E合并,因为距离是2

    新图片

      

    AB - 4 - C - 4.5 - DE

    • 群集AB是来自观测C的4个单位(如前所述),它是来自群集DE的4.5个单位,因为由于完全连锁聚类,C是来自E的4.5个单位。

      1. 接下来,C需要合并到AB,因为它的距离是4而DE是4.5:
      

    ABC - 8.5 - DE

    • 群集ABC是来自DE的8.5个单位,因为A是来自E的8.5个单位

    但是,此时我们已经证实了你的猜想。元素C是B的3个单位和A的4个单位(参见原始图表)。但是,元素C只有元素D的2.5个单元,它位于另一个集群内。