apache-spark - Spark独立集群：配置分布式文件系统

Spark独立集群：配置分布式文件系统

时间：2018-07-13 19:47:14

标签： apache-spark hadoop

我刚刚从Spark本地设置迁移到Spark独立集群。显然，加载和保存文件不再有效。

我了解我需要使用Hadoop来保存和加载文件。我的Spark安装是spark-2.2.1-bin-hadoop2.7

问题1： 我是否仍然需要单独下载，安装和配置Hadoop以与我的独立Spark集群一起使用？

问题2： 使用Hadoop运行和使用Yarn运行有什么区别？ ...而且哪个更容易安装和配置（假设数据负载很小）？

1 个答案:

答案 0 :(得分：1)

A1。对。您提到的软件包仅包含指定版本的hadoop客户端，如果要使用hdfs，仍然需要安装hadoop。

A2。与纱线一起运行意味着您正在使用Spark的资源管理器作为纱线。（http://spark.apache.org/docs/latest/job-scheduling.html#scheduling-across-applications）因此，在不需要DFS的情况下（例如，仅运行Spark Streaming应用程序时），您仍然可以安装Hadoop，但只能运行yarn进程以使用其资源管理功能。