When should I use Greenplum Database versus HAWQ?

时间:2016-05-17 11:12:55

标签: greenplum hawq

We are having use case for retail industry data. We are into making of EDW.

We are currently doing reporting from HAWQ.But We wanted to shift our MPP database from Hawq into Greenplum. Basically,We would like to make changes into current data pipeline.

Our confusion points about gpdb :

  • HOW gpdb layer going to affect our existing data pipeline. Here data pipeline is external system --> talend -->hadoop-hawq-->tableau. We want to transform our data pipeline as external system --> talend -->hadoop-hawq-->greenplum -->tableau.
  • How Greenplum is physically or logically going to help in SQL transformation and reporting.

  • Which file format should i opt for storing the files in GPDB while
    HAWQ we are storing files in plain text format.What are the supported format is good for writing in gpdb like avro,parquet etc.

  • How is data file processed from GPDB . so, that it also bring faster reporting and predictive analysis.

  • Is there any way to push data from HAWQ into Greenplum? We are
    looking for guidance how to take shift our reporting use case from
    HAWQ INTO Greenplum.

Any help on it would be much appreciated?

1 个答案:

答案 0 :(得分:3)

这个查询有点像问,“我应该什么时候使用扳手?”答案也是主观的,因为Greenplum可以用于许多不同的事情。但是,我会尽力给出我的意见,因为你问过。

  

gpdb层如何影响我们现有的数据管道。这里的数据管道是外部系统 - > talend - > hadoop-hawq - >画面。我们希望将我们的数据管道转换为外部系统 - > talend - > hadoop-hawq - > greenplum - >画面。

有很多方法可以实现数据管道,首先将数据加载到Hadoop然后将其加载到Greenplum是非常常见且运行良好的目标。您可以使用Greenplum中的外部表直接从HDFS并行读取数据。因此,可以使用简单的INSERT语句实现从Hadoop集群到Greenplum的数据移动。

INSERT INTO greenplum_customer SELECT * FROM hdfs_customer_file;
  

Greenplum在物理上或逻辑上如何帮助进行SQL转换和报告。

隔离一个。通过Greenplum的单独群集,您可以为客户提供分析,而不会影响Hadoop活动的性能,反之亦然。此隔离还可以提供额外的安全层。

  

我应该选择在GPDB中存储文件的文件格式   HAWQ我们以纯文本格式存储文件。支持的格式有利于在gpdb中编写,如avro,parquet等。

根据您的建议使用您的数据管道,我将根据性能在Greenplum中做出数据格式决策。这么大的表,对表进行分区,并使用quicklz压缩使其面向列。对于较小的表,只需使其追加优化即可。对于具有大量更新或删除的表,请将其保留为默认堆。

  

如何从GPDB处理数据文件。所以,它也带来了更快的报告和预测分析。

Greenplum是一个MPP数据库。存储是“无共享”,这意味着每个节点都具有其他节点没有的唯一数据(不包括镜像以实现高可用性)。段的数据将始终位于本地磁盘上。

在HAWQ中,因为它使用HDFS,所以该段的数据不必是本地的。第1天,当您将数据写入HDFS时,它是本地的,但在失败的节点,扩展等之后,HAWQ可能必须从其他节点获取数据。由于Hadoop的工作原理,这使得Greenplum的性能比HAWQ更具可预测性。

  

有没有办法将数据从HAWQ推送到Greenplum?我们是   寻找指导如何转移我们的报告用例   HAWQ INTO Greenplum。

推,不,但拉,是的。如上所述,您可以在Greenplum中创建一个外部表来从HDFS中选择数据。您还可以在Greenplum中创建可写外部表以将数据推送到HDFS。