Spark客户端重新连接到YARN群集

时间:2015-01-15 11:43:23

标签: apache-spark yarn

来自官方的spark文档(http://spark.apache.org/docs/1.2.0/running-on-yarn.html):

  

在纱线群集模式下,Spark驱动程序在应用程序主进程内部运行,该进程由群集上的YARN管理,客户端可以在启动应用程序后消失。

有没有办法让客户稍后重新连接回驱动程序以收集结果?

2 个答案:

答案 0 :(得分:0)

我不知道的简单方法。

从广义上讲,纱线群集模式对于生产作业是有意义的,而纱线客户端模式对于您希望立即查看应用程序输出的交互式和调试用途是有意义的。

在生产作业中,最简单的可能是让你的驱动程序将结果发送到某个地方(例如将它们写入HDFS,记录......)。

答案 1 :(得分:0)

通常您可以使用

检查日志
yarn logs -applicationId <app ID>

检查https://spark.apache.org/docs/2.2.0/running-on-yarn.html

  

如果启用了日志聚合(使用yarn.log-aggregation-enable   config),容器日志被复制到HDFS并在本地删除   机。可以从群集中的任何位置查看这些日志   纱线日志命令。

yarn logs -applicationId <app ID>
     

将打印出来自所有容器的所有日志文件的内容   给定的申请