hadoop - 使用Spark独立和HDFS的数据位置 - Thinbug

使用Spark独立和HDFS的数据位置

时间：2016-11-29 13:43:59

标签： hadoop apache-spark hdfs

我有一个Job需要访问HDFS上的镶木地板文件，我想尽量减少网络活动。到目前为止，我已经在相同的节点上启动了HDFS Datanodes和Spark Workers，但是当我启动我的工作时，数据局部始终处于ANY，它应该是NODE_LOCAL，因为数据是在所有节点之间分配的。

我是否应该配置任何选项来告诉Spark启动数据所在的任务？

1 个答案:

答案 0 :(得分：3)

您要查找的媒体资源是strtok。如果你增加它的值，它将更多地在本地执行作业，因为火花不会将数据发送给其他工作人员，因为数据所在的工作正忙。但是，将值设置为高可能会导致执行时间延长，导致您无法有效地使用工作程序。

另请看这里： http://spark.apache.org/docs/latest/configuration.html