我正在尝试将数据从CDH4复制到CDH5群集。当我从CDH5提交distcp作业时,MR作业进入接受状态并停留在那里(我已多次尝试,它在那里停留超过15小时)。我要复制的数据少于10MB。
以下是我正在使用的设置和步骤。
来源:CDH4,例如NodeName = cloudera4 目的地:CDH5,例如NodeName = Cloudera1
CDH5上使用的命令: hadoop distcp hftp:// Cloudera4:50070 / hdfs:// Cloudera1 /
以下是控制台输出:
[root@Cloudera1-RD opt]# sudo -u hdfs hadoop distcp hftp://Cloudera4:50070/ hdfs://Cloudera1/
15/03/05 10:51:23 INFO tools.DistCp: Input Options: DistCpOptions{atomicCommit=false, syncFolder=false, deleteMissing=false, ignoreFailures=false, maxMaps=20, sslConfigurationFile='null', copyStrategy='uniformsize', sourceFileListing=null, sourcePaths=[hftp://Cloudera4:50070/], targetPath=hdfs://Cloudera1/, targetPathExists=true, preserveRawXattrs=false}
15/03/05 10:51:23 INFO client.RMProxy: Connecting to ResourceManager at Cloudera1:8032
15/03/05 10:51:27 INFO Configuration.deprecation: io.sort.mb is deprecated. Instead, use mapreduce.task.io.sort.mb
15/03/05 10:51:27 INFO Configuration.deprecation: io.sort.factor is deprecated. Instead, use mapreduce.task.io.sort.factor
15/03/05 10:51:28 INFO client.RMProxy: Connecting to ResourceManager at Cloudera1:8032
15/03/05 10:51:29 INFO mapreduce.JobSubmitter: number of splits:18
15/03/05 10:51:29 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1425491750932_0010
15/03/05 10:51:30 INFO impl.YarnClientImpl: Submitted application application_1425491750932_0010
15/03/05 10:51:30 INFO mapreduce.Job: The url to track the job: http://Cloudera1:8088/proxy/application_1425491750932_0010/
15/03/05 10:51:30 INFO tools.DistCp: DistCp job-id: job_1425491750932_0010
15/03/05 10:51:30 INFO mapreduce.Job: Running job: job_1425491750932_0010
此MR作业永远处于“已接受”状态。
我现在很多天都坚持这个。 我非常感谢你的帮助。