使用Spark独立和HDFS的数据位置

时间:2016-11-29 13:43:59

标签: hadoop apache-spark hdfs

我有一个Job需要访问HDFS上的镶木地板文件,我想尽量减少网络活动。到目前为止,我已经在相同的节点上启动了HDFS Datanodes和Spark Workers,但是当我启动我的工作时,数据局部始终处于ANY,它应该是NODE_LOCAL,因为数据是在所有节点之间分配的。

我是否应该配置任何选项来告诉Spark启动数据所在的任务?

1 个答案:

答案 0 :(得分:3)

您要查找的媒体资源是strtok。如果你增加它的值,它将更多地在本地执行作业,因为火花不会将数据发送给其他工作人员,因为数据所在的工作正忙。但是,将值设置为高可能会导致执行时间延长,导致您无法有效地使用工作程序。

另请看这里: http://spark.apache.org/docs/latest/configuration.html

相关问题