hadoop - 为我的Hadoop infra structe

我计划在Hadoop中构建一个新系统，它从外部环境中提取数据，然后进行一些转换并构建最终产品。

外部数据（如果我们可以假设它来自oracle / mysql / postgre-sql数据库，可以有n数据库架构）来到hadoop系统应该总是实时的（应插入新数据）并且更新的数据应该更新），最多可能延迟一小时（我们可以每小时轮询/推送）。

我们还可以假设我的数据库模式中存在的数据是n表，我可能只需要存在于源中的n表中的m表。并且每个表的数据大小以GB / TB为单位。所以我不能用全表更换。我应该总是将增量（更新/插入）推送/拉入hadoop系统。

Hive可以通过将我的数据划分为日期分区来支持，并且可以更快地查询，但不支持更新，因此我必须始终进行全表替换，这不可扩展。

我的最终目标是＆＃34;将实时数据导入hadoop系统，读取查询性能，更新性能＆＃34;。

您对我的用例的技术建议非常有用。