Spark Local和Standalone模式之间的确切区别是什么?

时间:2018-04-22 08:05:57

标签: apache-spark deployment bigdata sparkcore

有人能提到这些因素的区别

  • 节点数/机器数
  • 内存
  • 设置
  • 部署
  • 每种模式的优点
  • 什么时候应该使用
  • 尽可能的例子

此外,如果我在单台笔记本电脑上本地运行spark,那么是Local模式还是Standalone?

1 个答案:

答案 0 :(得分:6)

独立和本地之间存在巨大差异。

本地 - 表示它在您的电脑上在本地运行,即未分发。

独立 - 意味着spark将处理资源管理。

独立,为此我会给你一些背景知识,这样你就可以更好地理解它的含义。 Spark是一个分布式应用程序,它消耗资源,即内存cpu等...... 假设您同时运行2个spark应用程序,这可能会在分配资源时导致错误。例如,第一个作业可能会占用所有内存而第二个作业会失败,因为他没有记忆。

要解决此问题,您需要使用一些资源管理器,以确保您的作业可以在没有任何资源问题的情况下运行。

Standalone,表示spark将处理群集上资源的管理。还有其他资源管理工具,如 Yarn Mesos 。 总体而言,您有3个选项来管理群集上的资源: Mesos 纱线独立

我还要提到,在真正的Hadoop集群上,spark并不是集群上运行的唯一应用程序,这意味着它不是资源的唯一消费者。您还可以运行 HBase TEZ IMPALA 。纱线可以帮助您为所有这些应用程序分配资源。