data-mining - 推荐系统的数据集

时间：2013-08-14 11:53:32

标签： data-mining recommendation-engine

我想创建自己的简单推荐系统，关于书籍。但是存在一些问题 - 一个人组织算法训练数据集是不可能的（至少非常困难）。

那么，有没有关于人们投票的信息的免费数据集或测验，哪些书籍和他们喜欢多少？

第二个问题是书的参数。对于一些基于项目的预测，实际上必须使用书籍的评级（例如语言，单词的平均长度，段落中的平均单词数，我已经计算了大约30个这样的参数）和它们的权重（例如，书的语言被评级）在1点，平均字长为0.314）。那么，有没有准备好的信息呢？

事实上，如果我得到第一个问题的答案，我可以找到第二个问题的解决方案，但我确信，需要的信息存在。

此外，我正在阅读推荐系统手册，它提供了完整的信息（带参考），但很难阅读。在这种情况下你能建议一些额外的书吗？

答案 0 :(得分：9)

你可以查看Books.txt.gz; https://snap.stanford.edu/data/web-Amazon.html 其中包括亚马逊的书籍评级。它还有产品标题，价格，评论摘要等。

此外，书籍交叉数据集可能也很有用 http://grouplens.org/datasets/book-crossing/

我猜你的第二个问题是一个特征选择问题，每个数据集的权重会有所不同。

本课程在课程中提供了推荐系统的简要信息，并且还有一个阅读部分。不幸的是，测验不再可用

编辑：另一个书籍数据集。

Goodbooks：

答案 1 :(得分：0)

此数据集是关于电影而不是书籍，但您可能会发现Netflix Prize数据集可用作测试推荐算法的方法。两个数据集的基本问题是相同的：需要带外功能，必须结合不同权重的功能等。

至于要阅读的额外书籍，我建议使用“Programming Collective Intelligence”。我发现它写得很清楚，非常有帮助。它还包括所有示例算法的代码。