处理推荐系统的大规模动态数据的最有效方法是什么?

时间:2013-04-21 18:53:51

标签: database database-design database-schema recommendation-engine large-data

我们正在考虑基于大规模数据的推荐系统,同时也在寻找一种专业的方法来保持动态数据库结构以更快的方式工作。我们考虑一些替代方法。一种是保留在普通的SQL数据库中,但与使用普通文件结构相比,它会更慢。其次是使用nosql图形模型DB,但它与我们使用的算法不兼容,因为我们不断将数据拉入矩阵。我们认为最终方法是使用普通文件来保存数据,但由于没有查询方法或编辑器,因此更难跟踪并观察更改。因此,有不同的方法和利弊。你的选择是什么?为什么?

1 个答案:

答案 0 :(得分:0)

我不确定为什么你这么多次提到“文件”和“文件结构”,所以也许我错过了一些东西,但是为了有效的数据处理,你显然不希望将东西存储在文件中。读取/写入磁盘数据的成本很高,而且很难在文件系统中查找高效灵活的文件。

我想我会从一个已经提出建议的产品开始:

http://mahout.apache.org/

您可以从各种算法中选择运行数据以生成建议。

如果你想自己做,也许混合方法可行吗?您仍然可以使用图形数据库来表示关系,但是每个节点/顶点可以是指向文档数据库或关系数据库的指针,其中存在更“完整”的数据表示。