确定DBSCAN算法的输入值

时间:2012-04-14 17:04:45

标签: python cluster-analysis dbscan

我在python中编写代码来实现DBSCAN聚类算法。 我的数据集由14k个用户组成,每个用户由10个功能代表。 我无法决定将Min_samples和epsilon的值作为输入确切保留 我该怎么做? 相似度量是欧几里德距离。(因此决定它变得更加困难。)任何指针?

1 个答案:

答案 0 :(得分:0)

DBSCAN通常很难估计其参数。

您是否考虑过OPTICS算法?在这种情况下,您只需要Min_samples,它对应于最小的簇大小。

否则对于DBSCAN我过去通过反复试验完成它:尝试一些值,看看会发生什么。要遵循的一般规则是,如果您的数据集有噪声,则应该具有更大的值,并且它还与维度数相关(在这种情况下为10)。