machine-learning - 分层聚类

分层聚类

时间：2018-04-24 07:57:33

标签： machine-learning hierarchical-clustering

我已经阅读了一些资源，并且我发现了层次聚类的工作原理。然而，当我将它与k-means聚类进行比较时，在我看来，k-means确实构成了特定数量的聚类，而层次分析则向我展示了如何聚类样本。我的意思是我在层次聚类中没有获得特定数量的聚类。我只得到一个关于如何构建聚类以及样本之间关系的一部分的方案。

因此，我无法理解我可以在哪里使用这种聚类方法。

2 个答案:

答案 0 :(得分：1)

分层聚类（HC）只是另一种基于距离的聚类方法，如k-means。群集的数量可以由cutting the dendrogram represented by HC粗略确定。确定数据集中的集群数对于所有集群方法来说并不是一件容易的事，因为这些方法通常基于您的应用程序。调整HC中的阈值对于研究人员来说可能更明确，更直接，特别是对于非常大的数据集。我认为this question也是相关的。

答案 1 :(得分：1)

在k均值聚类中，k是您需要找到的超参数，以便将数据点划分为聚类，而在层次聚类中（让我们采用一种类型的层次聚类，即团聚），首先要考虑数据集中的所有点作为一个群集，然后根据相似性指标合并两个群集，并重复此操作，直到获得单个群集。我将通过一个示例对此进行解释。

假设最初您的数据集中有13个点（x_1，x_2，....，x_13），所以一开始您将拥有13个聚类，现在在第二步中，您将获得7个聚类（x_1-x_2，x_4-x_5 ，x_6-x_8，x_3-x_7，x_11-x_12，x_10，x_13）之间的相似度。在第三步中，假设您得到了4个簇（x_1-x_2-x_4-x_5，x_6-x_8-x_10，x_3-x_7-x_13，x_11-x_12），您将到达一个步骤，其中数据集中的所有点形成一个聚类，这也是聚类聚类算法的最后一步。因此，在分层集群中，没有超参数，具体取决于您的问题，如果要7个集群，则在第二步停止，如果要4个集群，则在第三步，等等。

分层聚类的实际优势是可以使用树状图可视化结果。如果您事先不知道要寻找的簇数（通常是…），则可以使用树状图来帮助您选择k，而无需创建单独的簇。树状图还可以深入了解数据结构，帮助识别异常值等。分层聚类也是确定性的，而对同一数据运行多次时，具有随机初始化的k-means可以提供不同的结果。

希望这会有所帮助。