K-means用于预测?

时间:2015-10-09 19:35:31

标签: javascript statistics cluster-analysis data-mining k-means

我正在使用K-means算法从二维数据中创建k个簇。

我打算使用群集来预测传入数据点属于哪个群集。我应该如何使用k-means算法进行预测?

注意:我正在使用here

中的k-means JS实现

2 个答案:

答案 0 :(得分:0)

将每个新对象也分配到最近的群集中心。就是这样。

k-means找到您的数据的 Voronoi单元分区。使用此模型的唯一一致的群集分配(除非您希望例如基于新数据更新模型,这可能导致点的重新标记)是通过将每个点分配给它所在的Voronoi单元使用上述规则很容易完成。

请注意,群集不是分类。很少有聚类算法允许您将其模型应用于对新实例进行分类。他们不应该这样使用!群集的目的是更好地了解您的数据。工作流程是集群,然后研究结果,然后可能构建一些新的/与您学到的不同的东西。能够将新对象分类为“应该转到群集3”通常没有帮助,因为这假设A)群集有意义/有用(通常它们不是)和B)它们是干净的(通常是一些对象)不属于集群,他们将被人类分类。

之前已经多次询问过这个问题(使用搜索!):

答案 1 :(得分:-1)

你使用什么叫做概率k-means 算法。哪个在相同的输入数据点上多次运行k-means。在每次运行中,跟踪哪个点最终在哪个集群中。随着通过k-means的运行次数增加,您可以更好地预测属于某个集群的某个点。因此,对于某些数据点 Pi ,您可以通过以下操作找到某些群集 Ci 的概率: P(Pi in Ci) = (# of times in Ci)/(# of times not in Ci) < / strong>即可。对每个群集执行哪种操作,概率最高的群集将是您对数据点 Pi 的预测。或者你可以简单地计算每个群集中点数的次数,并简单地选择最高计数。

注意:确保每次执行k-means时每个群集的标签都是一致的。这是通过使迭代 i 中使用的聚类的质心用作生成的下一个聚类的种子(具有稍微增加的接近最后一个中心的概率)来完成的在迭代 i+1中,或者新迭代可以完全随机化。

使用概率k均值,因为标准k均值可能具有较差的聚类近似。虽然一个主要问题是,为了准确起见,这在计算上很重。因此,这仅适用于1D或2D数据,并且可能对现实世界数据过于沉重。处理这个问题的类似方法是k-means++

更简单,更常见的方法是简单地执行k-means一次,对于新数据点 Pi ,只需获取该点与群集的所有中心点之间的距离,挑选最低的一个。该群集将用作该点的预测。这种方法要快得多,但可能会导致生成的群集出现不准确和近似不正确的情况,特别是如果该点是异常值并且两个最小群集之间的差异很接近。

如果您想要一个例子,我已经在1-D数据集上为灰度色数据 for an old class assignment实现了概率k-means。对你的数据集也可以做同样的事情(只是注意数据集的维度越高,运行的速度就越慢)据说它已经做了一段时间了(基本上代码有点凌乱) ),代码的重要部分从:for(var q=0;q<numOfComputes;q++)开始。