将输出写入不同的文件夹hadoop

时间:2012-07-14 03:48:20

标签: hadoop mapreduce

  1. 我想从同一个reducer中将两种不同类型的输出写入两个不同的目录。
  2. 我可以在hadoop中使用多输出功能来写入不同的文件,但它们都会转到同一输出文件夹。

    我想将同一个reduce中的每个文件写入不同的文件夹。

    有没有办法做到这一点?

    如果我尝试将例如“hello / testfile”作为第二个参数,它会显示invaid参数。所以我无法写入不同的文件夹。

    1. 如果无法满足上述情况,映射器是否可以只读取输入文件夹中的特定文件?
    2. 请帮帮我。

      提前致谢!


      感谢您的回复。我可以使用上面的方法成功读取文件。但在分布式模式下,我无法这样做。在减速机中,我有 设置:

      mos.getCollector("data", reporter).collect(new Text(str_key), new Text(str_val));

      (使用多个输出,并在Job Conf中: 我尝试使用

      FileInputFormat.setInputPaths(conf2, "/home/users/mlakshm/opchk285/data-r-00000*");

      以及

      FileInputFormat.setInputPaths(conf2, "/home/users/mlakshm/opchk285/data*");

      但是,它会出现以下错误:

      cause:org.apache.hadoop.mapred.InvalidInputException: Input Pattern hdfs://mentat.cluster:54310/home/users/mlakshm/opchk295/data-r-00000* matches 0 files
      

4 个答案:

答案 0 :(得分:2)

问题1:将输出文件写入不同的目录 - 您可以使用以下方法执行此操作:

<强> 1。使用MultipleOutputs类:

很棒,您可以使用MultipleOutputs创建多个命名输出文件。如您所知,我们需要在您的驱动程序代码中添加它。

MultipleOutputs.addNamedOutput(job, "OutputFileName", OutputFormatClass, keyClass, valueClass);

API提供了两个重载的 write 方法来实现这一目标。

multipleOutputs.write("OutputFileName", new Text(Key), new Text(Value));

现在,要将输出文件写入单独的输出目录,您需要使用重载的write方法,并为基本输出路径添加额外的参数。

multipleOutputs.write("OutputFileName", new Text(key), new Text(value), baseOutputPath);

请记住在每个实现中更改baseOutputPath。

<强> 2。在驱动程序类中重命名/移动文件:

这可能是将输出写入多个目录的最简单方法。使用multipleOutputs并将所有输出文件写入单个输出目录。但每个类别的文件名需要不同。

假设您要创建3组不同的输出文件,第一步是在驱动程序中注册命名输出文件:

MultipleOutputs.addNamedOutput(job, "set1", OutputFormatClass, keyClass, valueClass);
MultipleOutputs.addNamedOutput(job, "set2", OutputFormatClass, keyClass, valueClass);
MultipleOutputs.addNamedOutput(job, "set3", OutputFormatClass, keyClass, valueClass);

此外,在驱动程序代码中创建所需的不同输出目录或目录结构,以及实际的输出目录:

Path set1Path = new Path("/hdfsRoot/outputs/set1");
Path set2Path = new Path("/hdfsRoot/outputs/set2");
Path set3Path = new Path("/hdfsRoot/outputs/set3");

最后一个重要步骤是根据名称重命名输出文件。如果工作成功;

FileSystem fileSystem = FileSystem.get(new Configuration);
if (jobStatus == 0) {

        // Get the output files from the actual output path 
        FileStatus outputfs[] = fileSystem.listStatus(outputPath);

        // Iterate over all the files in the output path
        for (int fileCounter = 0; fileCounter < outputfs.length; fileCounter++) {

            // Based on each fileName rename the path.
            if (outputfs[fileCounter].getPath().getName().contains("set1")) {
                fileSystem.rename(outputfs[fileCounter].getPath(), new Path(set1Path+"/"+anyNewFileName));
            } else if (outputfs[fileCounter].getPath().getName().contains("set2")) {
                fileSystem.rename(outputfs[fileCounter].getPath(), new Path(set2Path+"/"+anyNewFileName));
            } else if (outputfs[fileCounter].getPath().getName().contains("set3")) {
                fileSystem.rename(outputfs[fileCounter].getPath(), new Path(set3Path+"/"+anyNewFileName));
            }
        }
    }

注意:这不会给作业增加任何重大开销,因为我们只是将文件从一个目录移动到另一个目录。选择任何特定方法取决于实施的性质。

总之,这种方法基本上将使用不同名称的所有输出文件写入同一输出目录,并且当作业成功完成时,我们重命名基本输出路径并将文件移动到不同的输出目录。

问题2:从输入文件夹中读取特定文件:

您绝对可以使用 MultipleInputs 类从目录中读取特定的输入文件。

根据您的输入路径/文件名,您可以将输入文件传递给相应的Mapper实现。

案例1:如果所有输入文件都在一个目录中:

FileStatus inputfs[] = fileSystem.listStatus(inputPath);
for (int fileCounter = 0; fileCounter < inputfs.length; fileCounter++) {
    if (inputfs[fileCounter].getPath().getName().contains("set1")) {
        MultipleInputs.addInputPath(job, inputfs[fileCounter].getPath(), TextInputFormat.class, Set1Mapper.class);
    } else if (inputfs[fileCounter].getPath().getName().contains("set2")) {
        MultipleInputs.addInputPath(job, inputfs[fileCounter].getPath(), TextInputFormat.class, Set2Mapper.class);
    } else if (inputfs[fileCounter].getPath().getName().contains("set3")) {
        MultipleInputs.addInputPath(job, inputfs[fileCounter].getPath(), TextInputFormat.class, Set3Mapper.class);
    }   
}

案例2:如果所有输入文件都不在一个目录中:

即使输入文件位于不同的目录中,我们基本上也可以使用相同的方法。迭代基本输入路径并检查文件路径名以获得匹配条件。

或者,如果文件位于完全不同的位置,最简单的方法是单独添加到多个输入。

MultipleInputs.addInputPath(job, Set1_Path, TextInputFormat.class, Set1Mapper.class);
MultipleInputs.addInputPath(job, Set2_Path, TextInputFormat.class, Set2Mapper.class);
MultipleInputs.addInputPath(job, Set3_Path, TextInputFormat.class, Set3Mapper.class);

希望这有帮助!谢谢。

答案 1 :(得分:1)

将MultipleOutputs代码复制到您的代码库中,并放宽对允许字符的限制。无论如何,我看不出任何有效的限制理由。

答案 2 :(得分:1)

是的,您可以指定输入格式仅处理某些文件:

FileInputFormat.setInputPaths(job, "/path/to/folder/testfile*");

如果您确实修改了代码,请记住在成功完成作业时应将_SUCCESS文件写入两个文件夹 - 虽然这不是必需的,但是有人可以确定该文件夹中的输出是否完整,而不是因为错误而被“截断”。

答案 3 :(得分:0)

是的,你可以这样做。您需要做的就是为减速器中的特定键/值对生成文件名。

如果覆盖某个方法,则可以根据所获得的键/值对返回文件名,依此类推。这是一个链接,告诉你如何做到这一点。

https://www.google.co.in/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0CFMQFjAA&url=https%3A%2F%2Fsites.google.com%2Fsite%2Fhadoopandhive%2Fhome%2Fhow-to-write-output-to-multiple-named-files-in-hadoop-using-multipletextoutputformat&ei=y7YBULarN8iIrAf4iPSOBg&usg=AFQjCNHbd8sRwlY1-My2gNYI0yqw4254YQ