python - K-means算法适合？

我正在编写一个python脚本来分析从设备捕获的一些数据。我想自动完成查找我的数据是否与某个模式匹配的任务。在下面给出的图像中，我想确定在给定的捕获数据集中，如果我可以使用脚本将我的数据分类为3个不同的簇[如图所示]。这些群集的范围未预定义。我想知道的是，如果我在数据中看到三个不同的集群，它们彼此相当分开 - 如果没有，那么我的测试失败了。我只是想弄清楚什么是最好的数据分析算法在这里使用。我正在阅读关于聚类算法的文章，并且将从K-means聚类开始，但是任何人都有更好的想法？

http://imgur.com/I4jMqpk [链接到一组捕获数据的示例 - 注意颜色编码的簇] [1]

更好的想法是从一个好的问题陈述开始。如果您无法严格定义要查找的内容，则无法使用任何方法。如果您可以准确地写下您需要的内容，那么您可以搜索解决方案。聚类方法是非常奇怪的对象，它们总是“成功”，它们总是以某种方式聚类数据，这对于人类来说是完全不可接受的。如果您的数据看起来像是你绘制的（它是2d的情况，点是“密集”点云的一部分）那么最合适的东西就像DBScan / Optics，所以非常简单的方法，这将导致更像“人类” “集群（与k-means相反，它不会将你的数据划分为那些”云“，而是经常拆分它们。）

K-means算法适合？

1 个答案: