查找两个用户配置文件之间的相似性

时间:2015-05-29 17:47:35

标签: machine-learning recommendation-engine user-profile cosine-similarity

我的用户个人资料包含以下属性。 的 U = {年龄,性别,国家,种族} 找到两个用户之间相似性的最佳方法是什么? 例如,我有以下2个用户。 U1 = {25,男,USA,白} U2 = {30,男,UK,黑}

我搜索过并发现余弦相似度很多。这对我的问题或任何其他建议有好处。

1 个答案:

答案 0 :(得分:1)

聚类分析中对象之间的相似度量是一个广泛的主题。

我建议您考虑“分而治之”的方法。将两个用户配置文件之间的相似性视为来自所有属性相似性在进行平均之前,请记住为您的属性相似性使用标准化值。应根据数据和用例确定平均权重。如果您认为其中一个维度在两个配置文件之间匹配时更重要,则它应该在整体结果中具有更多权重。

对于属性距离您可以尝试:age - >简单的欧几里得;性别,种族,国家 - > 0/1。如果您有时间,可以根据地理位置更好地定义两个国家之间的距离。或文化相似性(例如语言,宗教,政治制度,GDP,......)。但是可能用最终平均值的权重进行实验,你的聚类结果分析会给你更多的回报;-)