我们目前正在尝试根据我们的用户数据库(几百万个配置文件)创建一些非常基本的personas。目标是在这个阶段找出我们用户的特征,例如他们的样子和他们正在寻找什么,以及创建几个“典型”用户配置文件。
我认为实现这一目标的最佳方法是运行群集分析,以便找出用户之间的相似之处。
然而,重要的障碍是如何到达那里。我们正在Hadoop环境中跟踪我们的数据,并且我被告知这可能通过我们的工具实现。
我已经熟悉了该主题的理论,并且知道它可以在SPSS中完成(很难使用并且仅限于大数据集的样本)。
最大的问题:是否可以在Hadoop环境中执行或不同类型的集群分析,然后像SPSS一样可视化结果?我的理解是,我们需要运行几种类型的分析,以便找到聚类数据的最佳方法,也就是群集的距离测量时。
我没有在互联网上找到任何关于此的信息,所以我想知道这是否可行,没有重大的编程工作(意味着字面上实现例如SPSS中可用的所有标准工具:树形图,不同结果表和聚类图等。)。
任何输入都会有很大的影响。感谢。