hadoop - 处理大数据中的复杂连接

OLTP系统已规范化并包含数百个表。在设计报告时，我们可能需要加入大量表格。例如，我需要加入四到五个表才能获得客户的电子邮件地址。（感谢我们使用的电信模型）

我正在尝试在hdfs（或者s3）中设计数据仓库。

为了将电子邮件地址和自定义ID写入配置单元中的表格：我需要使用sqoop import命令将五个表中的整个数据提取到hdfs中。然后我需要在hive中加入这些表。因此，这个过程可能需要很长时间才能收到电子邮件信息。

或者我可以使用sqoop query命令导入数据。这似乎更容易，并且在hdfs中占用的空间更少，但查询执行时间在这种情况下至关重要。

在类似情况下你有什么选择？你有其他方法吗？

谢谢