clustering-key - 平均能量测量的聚类算法

平均能量测量的聚类算法

时间：2015-05-30 09:56:20

标签： clustering-key

我有一个数据集，其中包含具有以下属性的数据点：

平均每日能量消耗
平均每日生成能量
能源类型
平均每日能量输入电网
每日能源关税

我是集群技术的新手。

所以我的问题是哪种聚类算法最适合这种数据形成聚类？

4 个答案:

答案 0 :(得分：0)

我认为层次聚类是一个不错的选择。看看Clustering Algorithms

答案 1 :(得分：0)

更简单的聚类方法是使用kmeans算法。如果所有属性都是数字，那么这是进行聚类的最简单方法。即使它们不是，你也必须找到一个距离测量的角度或名义属性，但仍然kmeans是一个不错的选择。 Kmeans是一种分区聚类算法...我不会在这种情况下使用层次聚类。但这也取决于你想做什么。你需要评估你是否想要在集群内找到集群，或者它们都必须完全相互分离，而不是彼此包含在一起。

保重。

答案 2 :(得分：0)

1）首先，尝试使用k-means。如果这满足了你的需求。使用不同数量的聚类（由参数k控制）。有很多k-means的实现，如果你有很好的编程技巧，你可以实现自己的版本。

如果数据看起来像圆形/球形，K-means通常很有效。这意味着数据中存在一些高斯性（数据来自高斯分布）。

2）如果k-means不能满足您的期望，那么现在是时候阅读和思考更多了。然后我建议阅读a good survey paper。最常见的技术是在几种编程语言和数据挖掘框架中实现的，其中许多可以免费下载和使用。

3）如果应用最先进的聚类技术还不够，那么现在是设计新技术的时候了。然后你可以自己思考或与机器学习专家联系。

答案 3 :(得分：0)

由于您的大多数数据都是连续的，并且假设能量消耗和生成是正态分布是合理的，我会使用统计方法进行聚类。

如：

这些方法优于基于度量的聚类算法（例如k-means）的优势在于我们可以利用我们处理 averages 的事实，并且我们可以对计算这些平均值的分布。