mapreduce - map reduce用于连接数据集？

时间：2012-08-18 11:09:57

标签： mapreduce

我有三种不同的解决方案，我用document_ids存储文档（搜索引擎，nosql数据库和自行开发的语义索引应用程序）。

我正在针对所有不同的解决方案运行查询，并希望使用类似于SQL JOIN的东西来合并它们。这意味着我有时可能需要在document_id上加入3个或更多不同的数据集。

你知道在Hadoop上使用Map Reduce或类似的东西是解决这个问题的最佳方法吗？这些数据集可以包含1 document_id到100 000的任何位置。

Thanx你的时间！

答案 0 :(得分：0)

对于像这样的小型数据集 - 几乎任何东西都可行。特别是 - 我建议使用内存系统，因为所有数据都可以很容易地放入内存中。 GridGain就是这样一个解决方案（完整的In-Memory MapReduce，SQL等支持许多其他东西）。

答案 1 :(得分：0)

如果在加入文档之前需要在文档处理期间应用大量CPU，Hadoop是很好的。在相同的作业处理文档中（在MAP函数中），您可以使用混洗过程作为连接引擎相对容易。
与此同时，100K项目的简单连接不应该需要更多适度的RDBMS。