Question

我有两个节点，我们叫A（192.168.2.100）和B（192.168.2.200）。 A代表大师和工人。在节点

中

./bin/spark-class org.apache.spark.deploy.worker
./bin/spark-class org.apache.spark.deploy.master

B代表woker

./bin/spark-class org.apache.spark.deploy.worker

我的应用需要加载cav文件来处理在节点A中，

./spark-submit --class "myApp" --master spark://192.168.2.100:7077 /spark/app.jar

但是“在B中需要csv文件”会出错。有没有办法将此文件共享给节点B？真的，我需要使用mesos纱来做到这一点吗？

Answer 1

如下图所示：您要处理的所有数据文件都应该可以从所有工作人员访问[并确保您的工作人员可以访问您的驱动程序]

所以在这里，您需要将数据文件放到工作人员可以读取数据的位置，在大多数情况下，我们将数据文件放入HDFS。

Answer 2

如前所述，该文件必须在每个节点上都可用。因此，您要么拥有多个副本，每个节点一个，要么使用外部hadoop数据源（HDFS，Cassandra，Amazon s3）。还有另一个更简单的解决方您可以使用NFS并将远程驱动器/分区/位置安装到每个节点。这样您就不需要拥有多个副本，也无需了解外部存储。如果您希望在ssh上拥有安全的挂载点，甚至可以使用sshfs。

spark独立模式下的csv数据处理

2 个答案: