平均能量测量的聚类算法

时间:2015-05-30 09:56:20

标签: clustering-key

我有一个数据集,其中包含具有以下属性的数据点:

  • 平均每日能量消耗
  • 平均每日生成能量
  • 能源类型
  • 平均每日能量输入电网
  • 每日能源关税

我是集群技术的新手。

所以我的问题是哪种聚类算法最适合这种数据形成聚类?

4 个答案:

答案 0 :(得分:0)

我认为层次聚类是一个不错的选择。看看Clustering Algorithms

答案 1 :(得分:0)

更简单的聚类方法是使用kmeans算法。如果所有属性都是数字,那么这是进行聚类的最简单方法。即使它们不是,你也必须找到一个距离测量的角度或名义属性,但仍然kmeans是一个不错的选择。 Kmeans是一种分区聚类算法...我不会在这种情况下使用层次聚类。但这也取决于你想做什么。你需要评估你是否想要在集群内找到集群,或者它们都必须完全相互分离,而不是彼此包含在一起。

保重。

答案 2 :(得分:0)

1)首先,尝试使用k-means。如果这满足了你的需求。使用不同数量的聚类(由参数k控制)。有很多k-means的实现,如果你有很好的编程技巧,你可以实现自己的版本。

如果数据看起来像圆形/球形,K-means通常很有效。这意味着数据中存在一些高斯性(数据来自高斯分布)。

2)如果k-means不能满足您的期望,那么现在是时候阅读和思考更多了。然后我建议阅读a good survey paper。最常见的技术是在几种编程语言和数据挖掘框架中实现的,其中许多可以免费下载和使用。

3)如果应用最先进的聚类技术还不够,那么现在是设计新技术的时候了。然后你可以自己思考或与机器学习专家联系。

答案 3 :(得分:0)

由于您的大多数数据都是连续的,并且假设能量消耗和生成是正态分布是合理的,我会使用统计方法进行聚类。

如:

这些方法优于基于度量的聚类算法(例如k-means)的优势在于我们可以利用我们处理 averages 的事实,并且我们可以对计算这些平均值的分布。