如何对大约500000个字符串进行聚类

时间:2015-10-18 04:03:52

标签: python string algorithm cluster-analysis

我有大约500000个字符串,我想将它们分组。是否有可以用来做这个的webportal或webservice?

字符串是唯一的。 我需要根据相似性将它们分组。

还有其他方法吗?

1 个答案:

答案 0 :(得分:3)

如果您的意思是将字符串(单词)的lis聚类到相似性组中,您需要告诉您是否需要找到在相同聚类中出现类似编辑(Levenshtein)距离的单词。例如,你会说“算法”和“alogrithm”应该有很高的机会出现在同一个集群中。

现有技术建议使用像

这样的图聚类算法
相关问题