Mahout的综合控制数据示例

时间:2013-03-04 13:39:14

标签: controls mahout synthetic

Mahout的wiki包含了对合成控制数据(here)使用聚类的示例。

该示例包括数据样本,其中包含数据中6种模式中每种模式的100行数据。我在运行示例代码时的期望是,某些聚类方法会提供更好或更差的聚类,但是它们或多或少会提供对6种模式进行分组的聚类。

这根本不是 - 我在运行示例时看到的内容。作为初学者,这非常令人困惑。此外,由于数据未规范化且循环数据的周期不匹配,因此很难看出这些原始数据如何永远正确聚类。

我错过了什么吗?一个更有经验的Mahout-er能否为这个特定的例子提供一些预期的方向?

我对可以聚集时间序列数据模式的场景非常感兴趣。我已经尝试对数据进行规范化,并使用点对点增量作为聚类的基础,并获得稍微好一些的结果。更有经验的数据分析师是否有建议采用更好的方法?

0 个答案:

没有答案