Spark独立集群:配置分布式文件系统

时间:2018-07-13 19:47:14

标签: apache-spark hadoop

我刚刚从Spark本地设置迁移到Spark独立集群。显然,加载和保存文件不再有效。

我了解我需要使用Hadoop来保存和加载文件。 我的Spark安装是spark-2.2.1-bin-hadoop2.7

问题1: 我是否仍然需要单独下载,安装和配置Hadoop以与我的独立Spark集群一起使用?

问题2: 使用Hadoop运行和使用Yarn运行有什么区别? ...而且哪个更容易安装和配置(假设数据负载很小)?

1 个答案:

答案 0 :(得分:1)

A1。对。您提到的软件包仅包含指定版本的hadoop客户端,如果要使用hdfs,仍然需要安装hadoop。

A2。与纱线一起运行意味着您正在使用Spark的资源管理器作为纱线。 (http://spark.apache.org/docs/latest/job-scheduling.html#scheduling-across-applications)因此,在不需要DFS的情况下(例如,仅运行Spark Streaming应用程序时),您仍然可以安装Hadoop,但只能运行yarn进程以使用其资源管理功能。