r - 用户阅读习惯的分类聚类

时间：2016-03-23 19:00:12

标签： r cluster-analysis k-means unsupervised-learning

我有一组数据，其中包含一组用户和他们已阅读的文档历史记录，所有文档都具有与之关联的元数据属性（思考主题，国家/地区，作者）。

我希望根据用户与其所点击的文档相关联的元数据属性的阅读历史对用户进行聚类。这个属性有7个可能的分类值，我想证明一个假设，即用户有一个模式＆＃39;阅读习惯和他们可以分为七组。换句话说，用户通常将基于特定元数据类别中的7个可能值之一来读取文档。

任何人都有任何关于如何做到这一点的建议，特别是在R中，就像特定的包一样？我意识到标准的k-means算法在这种情况下不能很好地工作，因为数据是分类的而不是数字的。

答案 0 :(得分：0)

聚类分析不能用于证明任何事情。

结果对标准化，特征选择和距离度量的选择非常敏感。所以没有结果值得信赖。你得到的大部分结果都是无用的。因此，它与示例证明一样可靠。

它们只应用于探索性分析，即找到您需要使用其他方法进行研究的模式。