Mahout火花项目相似性的输出及其指标

时间:2015-12-07 07:28:44

标签: mahout mahout-recommender

Mahout(0.11.1)火花项目相似性的输出如下:
3705021559 3705021558:241.35418715327978 3705021546:163.6168323904276
据我了解,其格式为:
(item)tab(item1:score)tab(item2:score),item1,item2,itemx ... 所谓的指标。

我的问题是如何使用这些指标?

在某些例子中,如 https://www.mapr.com/products/mapr-sandbox-hadoop/tutorials/recommender-tutorialhttps://www.mapr.com/blog/mahout-spark-whats-new-recommenders%E2%80%94part-2
我们索引指标,我们通过查询指标字段获得推荐,然后我们得到推荐。对我来说,它看起来像:我们列出了人们购买的指标列表,我们用指标列表查询Elasticsearch / Solr,我们得到推荐的(类似的)项目。在这种方法中,我们查询指标字段以获得类似的项目。

为什么不简单地说:如果我们知道人们作为列表购买了什么,我们会查询ID字段以获取指标作为结果。换句话说,我们从spark-itemsimilarity获得的输出已经告诉我们哪些项目(指标)与项目相似?

也许我误解了指标的含义,有人请清楚我的问题吗?

1 个答案:

答案 0 :(得分:0)

3705021559 3705021558:241.35418715327978 3705021546:163.6168323904276格式正是(item)tab(item1:score)tab(item2:score)

第一项是与所有其余项目进行比较的项目。所以这就是说,与3705021559相比,3705021558的对数似然比为241.35418715327978,依此类推。

输出与您输入匹配,因此如果3705021558不是项目ID,您可能已在输入中指定了项目的位置。在没有参数的情况下运行spark-itemsimilarity以获得帮助输出。您可以指定输入TSV中item-id的位置,user-id和指标名称所在的位置。

如果您计划在推荐人中使用此功能,请尝试使用Universal Recommender,它具有事件捕获功能和所有集成的推荐服务器。 http://templates.prediction.io/PredictionIO/template-scala-parallel-universal-recommendation