google-bigquery - 将大查询数据导出到内部Hadoop集群中

时间：2015-02-18 21:47:07

标签： google-bigquery

我们在Big查询中有GA数据，我的一些用户希望将其加入到Hadoop中的内部数据中，我们无法移动到Big Query。

请告诉我这是最好的方法。

答案 0 :(得分：1)

从BigQuery到Hadoop的最简单方法是使用官方的Google BigQuery Connector for Hadoop

此连接器定义BigQueryInputFormat类。

（它使用Google云端存储作为BigQuery数据和Hadoop消费的分割之间的媒介）

答案 1 :(得分：1)

你可以像Felipe Hoffa建议的那样遵循Hadoop连接器的路线。或者构建自己的应用程序，将数据从BigQuery传输到你的Hadoop集群。在这两种方式中，您都可以使用Pig，Hive等在hadoop集群上进行必要的连接。

如果您想尝试应用程序方法，请告诉我您的应用程序可能需要遵循的流程：

如果您需要更多细节或说明，请与我们联系。我沿着这条路走下去，因为我发现连接器替代方案有点过于复杂。但这是一种因人而异的主观意见。