hadoop - 蜂巢-是否适合建立数据仓库？

蜂巢-是否适合建立数据仓库？

时间：2019-01-17 17:15:47

标签： hadoop hive data-warehouse

因此，像大多数企业公司一样，我们在Hadoop中建立了一个数据仓库，Hive支持了用户查询，现在经过几个月并进行了用户验收测试之后，每个人都对它不像是标准感到惊讶（Oracle / Netezza）数据库，供最终用户用于临时数据分析。虽然我知道这可能是做项目的非常愚蠢的方式（在构建产品之前我们应该研究用例和最适合的技术），并且我知道Hadoop与单节点机器的不同之处的基本技术方面...我仍然想了解在任何情况下使用Hadoop / Hive对数据仓库是否有意义？例如，

在查询性能上是否总是需要权衡取舍，还是可以通过配置更改，硬件水平缩放来优化它们？
它能和Netezza这样的东西一样快吗？Netezza使用非商品硬件，但功能类似，但功能却如此？
Hadoop的优势在哪里？与之相比，它绝对击败其他一切吗？

3 个答案:

答案 0 :(得分：2)

我认为Hive MetaStore 比HiveServer2本身更有用。

MetaStore是Presto和Spark用来获取数据的方法，它比MapReduce快得多，但可能不及经过优化的Tez查询的速度快，例如，Hive v2.x +中的LLAP正在得到改进。

最后，只有在摄取管道实际上以ORC或Parquet的列格式存储数据时，Hive才真正有用。从那里，合理的查询引擎可以相当快地扫描数据，而Hive恰好被认为是该访问模式的事实上的实现，而Impala或Presto通常更多地用于临时访问。

话虽如此，Hive（以及Hadoop上的其他SQL）不是用于“构建”，而是用于“分析”

我不知道您所说的“标准”是什么意思-Hive支持任何ODBC / JDBC连接，因此就好像您没有进入CLI进行所有访问一样，并且HUE或Zeppelin成为了进行SQL分析的非常好的笔记本蜂巢。

答案 1 :(得分：0)

要回答您的问题，

在查询性能上是否总是需要权衡取舍，还是可以通过配置更改，硬件水平缩放来优化它们？

如果您仅使用Hadoop中的配置单元工具进行Adhoc查询，那么这不是临时查询和数据分析的正确选择。我们会根据您的用例探索更好的选择，并从Hive LLAP，HBase，Spark，SparkSQL，Spark Streaming，Apache storm，Imapala，Apache Drill和Prestodb等中进行技术选择。

它能和Netezza这样的东西一样快吗？Netezza使用非商品硬件，但功能类似，但功能却如此？

如今，这是组织中大多数人正在使用的更好的工具，但是您必须根据用例从Hadoop技术堆栈中选择技术工具，并在研究了正确的技术之后进行选择。

Hadoop的优势在哪里？与之相比，它绝对击败其他一切吗？

Hadoop最适合在大型组织中实施数据湖平台，在大型组织中，数据分散在多个系统中，并且使用Hadoop数据湖，您可以将数据放在中心位置。可以将其用作数据分析平台，以存储一段时间内累积的组织数据。也可以用于数据流数据处理以实时获取结果。

希望这会有所帮助。

答案 2 :(得分：-1)

嗯，在HDFS或Hadoop生态系统中存储大数据有很多好处。举个最重要的名字，有人可以存储和处理大量数据，而且配置非常简单。