hadoop - 集群分析Hadoop，Map减少环境

我们目前正在尝试根据我们的用户数据库（几百万个配置文件）创建一些非常基本的personas。目标是在这个阶段找出我们用户的特征，例如他们的样子和他们正在寻找什么，以及创建几个“典型”用户配置文件。

我认为实现这一目标的最佳方法是运行群集分析，以便找出用户之间的相似之处。

然而，重要的障碍是如何到达那里。我们正在Hadoop环境中跟踪我们的数据，并且我被告知这可能通过我们的工具实现。

我已经熟悉了该主题的理论，并且知道它可以在SPSS中完成（很难使用并且仅限于大数据集的样本）。

最大的问题：是否可以在Hadoop环境中执行或不同类型的集群分析，然后像SPSS一样可视化结果？我的理解是，我们需要运行几种类型的分析，以便找到聚类数据的最佳方法，也就是群集的距离测量时。

我没有在互联网上找到任何关于此的信息，所以我想知道这是否可行，没有重大的编程工作（意味着字面上实现例如SPSS中可用的所有标准工具：树形图，不同结果表和聚类图等。）。

任何输入都会有很大的影响。感谢。