Hadoop实时实施

时间:2015-10-29 14:15:12

标签: hadoop hive hbase apache-pig sqoop

我想知道Hadoop组件是如何实时使用的。

这是我的问题:

数据导入/导出:

  1. 我知道Sqoop中可用的选项,但想知道Sqoop如何在实时实现中使用(共同) 如果我正确

    1.1 sqoop命令放在shell脚本中,并从调度程序/事件触发器调用。我可以有实时代码示例,特别是在shell脚本中动态地将参数传递给Sqoop(例如表名)。

    1.2相信也可以使用Ooozie工作流程。任何例子

    1. 猪命令通常是如何实时调用的?通过java程序? 任何实时代码示例都会有很大帮助 如果我是正确的,在将数据加载到实际的hdfs路径或作为hive表之前,Pig通常用于对临时数据进行数据质量检查/清理。 我们可以在shell脚本(实时项目)中看到猪脚本
    2. 如果我错过任何

      ,请更正或添加

      蜂房

      我们将在实时场景中看到Hive命令? 在shell脚本或java api中调用报告?

      HBase的 Hbase命令通常称为Java等语言的api调用。 我对么?

      抱歉有太多问题。我没有看到任何关于如何在实时场景中使用这些组件的文章/博客。

      提前致谢。

1 个答案:

答案 0 :(得分:0)

您没有看到关于在实时场景中使用这些组件的文章的原因是因为这些组件不是面向实时的,而是面向批处理的。

Scoop :未实时使用 - 它是面向批处理的。 我会使用像Flume这样的东西来摄取数据。

Pig,Hive :同样,还没有实时准备好。两者都是面向批处理的每个查询/脚本的设置时间可能需要几十秒。 你可以用Spark Streaming(它甚至支持Flume)替换它们。

HBase :它是HDFS之上的NoSQL数据库。可以实时使用。快速插入。它可以用于火花。

如果您想使用这些系统来帮助实时应用,请使用流媒体/实时技术,考虑像Lambda architecture这样的具有批处理层(使用配置单元,猪和什么不是)和速度层的内容

问候。

相关问题