使用k均值确定kdd99数据集的聚类数

时间:2019-05-21 19:40:32

标签: machine-learning k-means anomaly-detection intrusion-detection

在KDD99数据集上执行k均值时,k数的一般约定是什么?我读过的三篇不同的论文有三个完全不同的k(25,20和5)。我想知道对此的一般看法,例如k e.t.c的范围应该是多少?

谢谢

1 个答案:

答案 0 :(得分:0)

K-means聚类算法用于查找未在数据中明确标记的组。 通常,没有确定K确切值的方法,但是可以使用估计的方法来确定它。

  1. 要找到K,请取数据点与其簇质心之间的平均距离。

  2. 肘部方法和内核方法工作更精确,但是簇的数量取决于您的问题。 (推荐的) 一种快速的方法是:-取数据点数除以2的平方根,并将其设置为群集数。