在本地模式下运行Spark应用程序的资源消耗

时间:2019-01-13 11:15:10

标签: apache-spark hadoop cloudera-cdh

客户端的大数据支持告诉我要将应用程序的部署模式从 client 更改为 cluster 。其背后的想法是,在本地模式下运行的一个应用程序可能会占用计算机上过多的资源。

我无法在Spark文档中找到有关该资源消耗的任何参考,由于要正确运行许多* .json和* .sql,我的工作已完全重新设计为在本地运行。我对Spark文档的了解是,驱动程序将所有任务分派给集群,并且仅协调其序列和状态,因此,我无需担心资源消耗。

对吗?有人可以给我一些文档,让我可以了解更多吗?

我的环境正在运行Spark 2.1.1。

1 个答案:

答案 0 :(得分:0)

您可以在Apache Spark: Differences between client and cluster deploy modes中找到详细信息。但是,据我所知,他们可能会说的是,在客户端模式下,您可能正在消耗非Spark集群计算机的资源。使用群集模式时,您将完全处于Spark群集中,并且不会消耗任何外部资源。