hadoop distcp无法正常工作,MR工作处于接受状态

时间:2015-03-06 18:44:14

标签: hadoop mapreduce hbase distcp

我正在尝试将数据从CDH4复制到CDH5群集。当我从CDH5提交distcp作业时,MR作业进入接受状态并停留在那里(我已多次尝试,它在那里停留超过15小时)。我要复制的数据少于10MB。

以下是我正在使用的设置和步骤。

来源:CDH4,例如NodeName = cloudera4 目的地:CDH5,例如NodeName = Cloudera1

CDH5上使用的命令: hadoop distcp hftp:// Cloudera4:50070 / hdfs:// Cloudera1 /

以下是控制台输出:

[root@Cloudera1-RD opt]# sudo -u hdfs hadoop distcp hftp://Cloudera4:50070/ hdfs://Cloudera1/

    15/03/05 10:51:23 INFO tools.DistCp: Input Options: DistCpOptions{atomicCommit=false, syncFolder=false, deleteMissing=false, ignoreFailures=false, maxMaps=20, sslConfigurationFile='null', copyStrategy='uniformsize', sourceFileListing=null, sourcePaths=[hftp://Cloudera4:50070/], targetPath=hdfs://Cloudera1/, targetPathExists=true, preserveRawXattrs=false}
    15/03/05 10:51:23 INFO client.RMProxy: Connecting to ResourceManager at Cloudera1:8032
    15/03/05 10:51:27 INFO Configuration.deprecation: io.sort.mb is deprecated. Instead, use mapreduce.task.io.sort.mb
    15/03/05 10:51:27 INFO Configuration.deprecation: io.sort.factor is deprecated. Instead, use mapreduce.task.io.sort.factor
    15/03/05 10:51:28 INFO client.RMProxy: Connecting to ResourceManager at Cloudera1:8032
    15/03/05 10:51:29 INFO mapreduce.JobSubmitter: number of splits:18
    15/03/05 10:51:29 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1425491750932_0010
    15/03/05 10:51:30 INFO impl.YarnClientImpl: Submitted application application_1425491750932_0010
    15/03/05 10:51:30 INFO mapreduce.Job: The url to track the job: http://Cloudera1:8088/proxy/application_1425491750932_0010/
    15/03/05 10:51:30 INFO tools.DistCp: DistCp job-id: job_1425491750932_0010
    15/03/05 10:51:30 INFO mapreduce.Job: Running job: job_1425491750932_0010

此MR作业永远处于“已接受”状态。

我现在很多天都坚持这个。 我非常感谢你的帮助。

1 个答案:

答案 0 :(得分:0)

您的code的问题是不要以 hdfs用户的身份运行distcp。默认情况下,该用户已列入MapReduce作业的黑名单。

引用链接并运行distcp

相关问题