运行Spark作业

时间:2017-09-27 13:45:46

标签: hadoop apache-spark pyspark hdfs

我正在通过pyspark运行一个spark作业,它始终返回错误:

Diagnostics: org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-908041201-10.122.103.38-1485808002236:blk_1073741831_1007 file=/hdp/apps/2.5.3.0-37/spark/spark-hdp-assembly.jar

错误始终在同一个块上,即BP-908041201-10.122.103.38-1485808002236:blk_1073741831_1007

当我查看hadoop跟踪网址时,消息显示为:

Application application_1505726128034_2371 failed 2 times due to AM Container 
for appattempt_1505726128034_2371_000002 exited with exitCode: -1000

我只能假设有一些损坏的数据?如何通过hadoop命令行查看数据/块,并确切地查看这个可能已损坏的块上的数据。

不幸的是,在查看基于Web的日志时,似乎没有关于特定故障节点的更详细日志。

此外 - 在pyspark中有一种方法可以忽略任何已损坏的'阻止并简单地忽略它无法完全读取的任何文件/块?

由于

0 个答案:

没有答案