如何选择合适的大数据提取工具?

时间:2018-03-03 16:36:19

标签: etl sqoop flume data-ingestion

我是大数据新手,我想问一下,我该如何选择合适的数据提取工具?

我找到了一个流行的大数据提取工具列表:https://www.predictiveanalyticstoday.com/data-ingestion-tools/但是每个人听起来都像我一样......当我有这么大的选择时,我怎么选择?我不想只选择一些因为它很受欢迎...我尝试过Sqoop和Flume,我可以看到它们之间的区别(批量与流)。但是还有更多工具......

1 个答案:

答案 0 :(得分:1)

我认为摄取工具的选择可能取决于以下因素:

  1. 数据来源
  2. 目标
  3. 转换(在摄取阶段,如果有的话,简单或复杂) 等
  4. 您分享的链接中提到的某些工具也应具有重叠功能。

    我一直致力于创建数据管道,我们选择Flume作为我们的要求,因为在我们的情况下,源是以压缩格式发送数据(Chunked Transfer Encoding),我找不到任何工具带有这个连接器。所以,我最终为此目的定制了Flume(即编写自定义源代码)。

    此外,我的案例中的转换是一个简单的过滤,因此Flume的可选拦截器组件在此处起作用。

    最后,我必须将数据发送到Kafka集群,以便Flume中的Kafka Sink / Kafka Channel组件满足此要求。

    作为一个简单的Java进程,它帮助我们在基础架构方面保持简单,即只部署一个虚拟机就足够了。

    您可能会在搜索中遇到this link,但我还是想分享它。它讨论了一些你可能会觉得有用的设计模式(我们最终使用了Flume / Kafka aka Flafka模式)。

    可能值得深入了解您的要求是什么。

    我希望这会有所帮助。

相关问题