apache-spark - 如何在提交Spark应用程序时指定从HDFS读取数据的位置？

tl; dr 存储要由Hadoop HDFS和Spark执行程序上的Spark应用程序处理的文件将被告知如何访问它们。

本文档是使用Hadoop分布式文件系统（HDFS）的用户的起点，既可以作为Hadoop集群的一部分，也可以作为独立的通用分布式文件系统。

HDFS群集主要由管理文件系统元数据的NameNode和存储实际数据的DataNode组成。

因此，HDFS是一个仅仅文件系统，您可以使用它来存储文件并在分布式应用程序中使用它们，包括。一个Spark应用程序。

令我惊讶的是，只有在HDFS Architecture中才能找到HDFS URI，即hdfs://localhost:8020/user/hadoop/delete/test1，它是属于用户{delete/test1的资源hadoop的HDFS URL。 1}}。

以hdfs开头的网址指向HDFS，上述示例中的网址由localhost:8020的NameNode管理。

这意味着HDFS不需要Hadoop YARN，但通常一起使用，因为它们结合在一起并且很容易一起使用。

我是否需要手动将数据放在我的从属节点上？如何从客户端提交应用程序时指定从何处读取数据？

Spark支持Hadoop HDFS，无论是否有Hadoop YARN。 cluster manager（又名主网址）是HDFS的正交关注点。

将其包装起来，只需使用hdfs://hostname:port/path/to/directory来访问HDFS上的文件。