hadoop - HDFS，Hadoop中的低延迟数据访问 - Thinbug

HDFS，Hadoop中的低延迟数据访问

时间：2017-04-25 09:33:18

标签： hadoop dataset hdfs

我正在阅读有关Big Data和Hadoop的教程，我在HDFS上找到了这两点

流式数据访问：读取整个数据集的时间比读取第一个数据集的延迟时间更重要。 HDFS基于一次写入和多次读取模式构建。

＆安培;

低延迟数据访问：需要极少时间访问第一个数据的应用程序不应使用HDFS，因为它会重视整个数据而不是获取第一个记录的时间。

我很困惑，因为第一个说读取整个数据集的时间更重要第二个说 ...不应该使用HDFS，因为它重视整个数据< / em>的

我不明白所期待的是什么？我是Hadoop的新手。

1 个答案:

答案 0 :(得分：0)

流式数据访问：

HDFS基于“一次写入，多次读取”的原则。主要重点是以最快的方式读取完整的数据集比花时间从数据集中获取单个记录更重要。

根据Hadoop：权威指南

MapReduce基本上是一个批处理系统，不适合交互式分析。您无法运行查询并在几秒或更短的时间内恢复结果。查询通常需要几分钟或更长时间，因此最适合离线使用，在处理循环中没有人坐等待结果。

MapReduce非常适合需要以批处理方式分析整个数据集的问题。 RDBMS适用于点查询或更新，其中数据集已编制索引以提供相对少量数据的低延迟检索和更新时间。 MapReduce适合数据写入一次并多次读取的应用程序，而关系数据库适用于不断更新的数据集。

延迟：请参阅下面的What is low latency access of data?

相关问题

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？