hadoop - 如何处理挂在上一个任务上的Spark Job？

我正在使用https://github.com/alitouka/spark_dbscan，并且为了确定参数，我正在使用它们提供的实用程序类，org.alitouka.spark.dbscan.exploratoryAnalysis.DistanceToNearestNeighborDriver。

我在一个10节点集群上，一台机器有8个内核和32G内存，9台机器有6个内核和16G内存。

我有442M的数据，这似乎是个玩笑，但是工作在最后阶段停滞不前。

它在调度程序延迟中停留了10个小时过夜，我在过去几天尝试了很多事情，但似乎没有任何帮助。

我试过了：

Spark版本是1.4.1

日志中充满了标准的公平，没有任何例外，甚至是有趣的[INFO]行。

Hadoop是：HDP 2.3.2.0-2950

以下是我的版本的主要内容和一个堆栈跟踪的gist（pastebin）：https://gist.github.com/isaacsanders/2e59131758469097651b