蜂巢-是否适合建立数据仓库?

时间:2019-01-17 17:15:47

标签: hadoop hive data-warehouse

因此,像大多数企业公司一样,我们在Hadoop中建立了一个数据仓库,Hive支持了用户查询,现在经过几个月并进行了用户验收测试之后,每个人都对它不像是标准感到惊讶(Oracle / Netezza)数据库,供最终用户用于临时数据分析。 虽然我知道这可能是做项目的非常愚蠢的方式(在构建产品之前我们应该研究用例和最适合的技术),并且我知道Hadoop与单节点机器的不同之处的基本技术方面...我仍然想了解在任何情况下使用Hadoop / Hive对数据仓库是否有意义? 例如,

  • 在查询性能上是否总是需要权衡取舍,还是可以通过配置更改,硬件水平缩放来优化它们?
  • 它能和Netezza这样的东西一样快吗?Netezza使用非商品硬件,但功能类似,但功能却如此?
  • Hadoop的优势在哪里?与之相比,它绝对击败其他一切吗?

3 个答案:

答案 0 :(得分:2)

我认为Hive MetaStore 比HiveServer2本身更有用。

MetaStore是Presto和Spark用来获取数据的方法,它比MapReduce快得多,但可能不及经过优化的Tez查询的速度快,例如,Hive v2.x +中的LLAP正在得到改进。

最后,只有在摄取管道实际上以ORC或Parquet的列格式存储数据时,Hive才真正有用。从那里,合理的查询引擎可以相当快地扫描数据,而Hive恰好被认为是该访问模式的事实上的实现,而Impala或Presto通常更多地用于临时访问。

话虽如此,Hive(以及Hadoop上的其他SQL)不是用于“构建”,而是用于“分析”

我不知道您所说的“标准”是什么意思-Hive支持任何ODBC / JDBC连接,因此就好像您没有进入CLI进行所有访问一样,并且HUE或Zeppelin成为了进行SQL分析的非常好的笔记本蜂巢。

答案 1 :(得分:0)

要回答您的问题,

  
      
  1. 在查询性能上是否总是需要权衡取舍,还是可以通过配置更改,硬件水平缩放来优化它们?
  2.   

如果您仅使用Hadoop中的配置单元工具进行Adhoc查询,那么这不是临时查询和数据分析的正确选择。我们会根据您的用例探索更好的选择,并从Hive LLAP,HBase,Spark,SparkSQL,Spark Streaming,Apache storm,Imapala,Apache Drill和Prestodb等中进行技术选择。

  
      
  1. 它能和Netezza这样的东西一样快吗?Netezza使用非商品硬件,但功能类似,但功能却如此?
  2.   

如今,这是组织中大多数人正在使用的更好的工具,但是您必须根据用例从Hadoop技术堆栈中选择技术工具,并在研究了正确的技术之后进行选择。

  
      
  1. Hadoop的优势在哪里?与之相比,它绝对击败其他一切吗?
  2.   

Hadoop最适合在大型组织中实施数据湖平台,在大型组织中,数据分散在多个系统中,并且使用Hadoop数据湖,您可以将数据放在中心位置。可以将其用作数据分析平台,以存储一段时间内累积的组织数据。也可以用于数据流数据处理以实时获取结果。

希望这会有所帮助。

答案 2 :(得分:-1)

嗯,在HDFS或Hadoop生态系统中存储大数据有很多好处。举个最重要的名字,有人可以存储和处理大量数据,而且配置非常简单。