Kmeans聚合具有百分比匹配的文本数据

时间：2016-04-07 11:28:34

标签： r match cluster-analysis percentage

我有数百个大字符串，并希望将它们聚类成组（集群）。我发现kmeans是这样做的一种方式。但我的问题是它只需要群集的数量作为参数。但我的要求是将字符串之间的百分比匹配作为参数，并将这些字符串仅集群到不同的集群中，这些集群达到或超过该标准。例如，如果字符串1＆amp; 2匹配＆gt; 90％，然后只有我想要它们在群集中。不匹配的可以放在单个元素簇中。有没有办法在R r Python或任何语言中执行此操作？

1 个答案:

答案 0 :(得分：0)

聚类算法

k均值

顾名思义，k-means将尝试制作k个簇，并将用于簇的中心，即簇中所有值的平均值。然后，您可以更新中心的位置，属性元素到最近的中心，然后重复，直到它不再发生变化。正如您所看到的，您所需要的只是定义中心的数量（以及它们的起点，但通常这是随机的并且重复多次）。

您的分类

您想要的是根据阈值对彼此非常相似的单词进行聚类。你总是可以通过计算元素之间的距离（距离是你的相似性）来做到这一点。伪代码将是：

1) initialize cluster with first word
2) add all words to cluster that are "close enough" to this word
3) pick a word that has not been clustered yet, and initialize a new cluster with it
4) add all words "close enough" to this word
5) repeat 3 and 4 until all words are used