将新文件添加到正在运行的hadoop集群

时间:2015-06-29 05:55:49

标签: hadoop mapreduce hdfs

考虑您有10GB数据,并且您希望使用Hadoop通过MapReduce程序处理它们。而不是在开始时将所有10GB复制到HDFS然后运行程序,我想复制1GB并开始工作并在此期间逐渐添加剩余的9GB。我想知道Hadoop是否可行。

谢谢, 莫尔塔扎

1 个答案:

答案 0 :(得分:3)

不幸的是,MapReduce无法做到这一点。启动MapReduce作业时,部分设置过程是确定输入的块位置。如果输入仅部分存在,则设置过程将仅对这些块起作用,并且不会动态添加输入。

如果您正在寻找流处理器,请查看Apache Storm https://storm.apache.org/或Apache Spark https://spark.apache.org/