是真的Hadoop框架不适合实时操作吗?

时间:2015-01-26 03:40:48

标签: hadoop frameworks mapreduce hbase hdfs

我在博客中看过它并说明了

  

Hadoop是以批量处理为中心的理想选择,用于发现,探索和分析大量不适合表格的多结构数据,不适合实时操作。

所以,任何人都可以通过对此进行更好的解释来帮助我,就像它不适合实时操作一样。 TQ

2 个答案:

答案 0 :(得分:3)

对于实时处理,你有HBase,它是Hadoop生态系统的一部分:

<强> http://hbase.apache.org/

  

Apache HBase是Hadoop数据库,是一个分布式,可扩展的大型数据库   数据存储。

     

我何时使用Apache HBase?

     

当您需要随机,实时读/写访问权限时,请使用Apache HBase   你的大数据。该项目的目标是托管非常大的表    - 数十亿行数百万列 - 在商品硬件集群上。 Apache HBase是一个开源的,分布式的,   版本化的非关系数据库模仿Google的Bigtable:A   Chang等人的结构化数据分布式存储系统。就像   Bigtable利用了Google提供的分布式数据存储   文件系统,Apache HBase提供类似Bigtable的功能   Hadoop和HDFS。

     

功能

     
      
  • 线性和模块化可扩展性。
  •   
  • 列表项
  •   
  • 严格一致的读写。
  •   
  • 表格的自动和可配置分片
  •   
  • RegionServers之间的自动故障转移支持。
  •   
  • 使用Apache HBase表支持Hadoop MapReduce作业的便捷基类。
  •   
  • 易于使用Java API进行客户端访问。
  •   
  • 阻止缓存和布隆过滤器以进行实时查询。
  •   
  • 通过服务器端过滤器
  • 查询谓词下推   
  • Thrift网关和支持XML,Protobuf和二进制数据编码选项的REST-ful Web服务
  •   
  • 可扩展的基于jruby的(JIRB)外壳
  •   
  • 支持通过Hadoop指标子系统将指标导出到文件或Ganglia;或通过JMX
  •   

它还支持原子计数器,这是HBase最强大的一点,可以帮助您减少大型分析工作的需要(使用仔细和计划的行键和模式设计)。

答案 1 :(得分:2)

Hadoop MapReduce不适合实时处理。

但现在,情况正在发生变化。例如,StormSpark提供近乎实时的处理能力。

Spark在内存计算中使用以加快处理速度。它使用RDD(Resilient Distributed Dataset)作为内存抽象。

Storm使用DAG的喷口(源)和螺栓(接收器)。这称为拓扑,拓扑继续运行。即,它从口径中获取数据并提供给bolt.Bolts可以将这些数据写入数据库或使其可供用户使用。这减少了处理时间。