从余弦相似度值聚类

时间:2011-04-30 10:53:46

标签: url nlp cluster-analysis information-retrieval

我从一组URL中提取了单词并计算了每个URL内容之间的余弦相似度。我还将0-1之间的值归一化(使用Min-Max)。现在我需要根据余弦相似度对URL进行聚类找出类似URL的值。哪种聚类算法最适合?。请给我一个动态聚类方法,因为它会很有用,因为我可以根据需要增加URL的数量,而且它会更自然。请纠正我,如果你觉得我正在以错误的方式取得进展。谢谢你的期待。

1 个答案:

答案 0 :(得分:2)

K-means聚类可用于在线学习,您只需先选择聚类数。此外,我认为您不应该对数据进行标准化,因为余弦已经提供了[0:1]范围内的值。您的Min-Max规范化可能会导致信息丢失。