Kmeans聚合具有百分比匹配的文本数据

时间:2016-04-07 11:28:34

标签: r match cluster-analysis percentage

我有数百个大字符串,并希望将它们聚类成组(集群)。我发现kmeans是这样做的一种方式。但我的问题是它只需要群集的数量作为参数。但我的要求是将字符串之间的百分比匹配作为参数,并将这些字符串仅集群到不同的集群中,这些集群达到或超过该标准。例如,如果字符串1& 2匹配> 90%,然后只有我想要它们在群集中。不匹配的可以放在单个元素簇中。有没有办法在R r Python或任何语言中执行此操作?

1 个答案:

答案 0 :(得分:0)

聚类算法

k均值

顾名思义,k-means将尝试制作k个簇,并将用于簇的中心,即簇中所有值的平均值。然后,您可以更新中心的位置,属性元素到最近的中心,然后重复,直到它不再发生变化。 正如您所看到的,您所需要的只是定义中心的数量(以及它们的起点,但通常这是随机的并且重复多次)。

您的分类

您想要的是根据阈值对彼此非常相似的单词进行聚类。 你总是可以通过计算元素之间的距离(距离是你的相似性)来做到这一点。 伪代码将是:

1) initialize cluster with first word
2) add all words to cluster that are "close enough" to this word
3) pick a word that has not been clustered yet, and initialize a new cluster with it
4) add all words "close enough" to this word
5) repeat 3 and 4 until all words are used
相关问题