hadoop - 将新文件添加到正在运行的hadoop集群 - Thinbug

将新文件添加到正在运行的hadoop集群

时间：2015-06-29 05:55:49

标签： hadoop mapreduce hdfs

考虑您有10GB数据，并且您希望使用Hadoop通过MapReduce程序处理它们。而不是在开始时将所有10GB复制到HDFS然后运行程序，我想复制1GB并开始工作并在此期间逐渐添加剩余的9GB。我想知道Hadoop是否可行。

谢谢，莫尔塔扎

1 个答案:

答案 0 :(得分：3)

不幸的是，MapReduce无法做到这一点。启动MapReduce作业时，部分设置过程是确定输入的块位置。如果输入仅部分存在，则设置过程将仅对这些块起作用，并且不会动态添加输入。

如果您正在寻找流处理器，请查看Apache Storm https://storm.apache.org/或Apache Spark https://spark.apache.org/