Spark基准设置

时间:2017-07-07 08:19:56

标签: apache-spark benchmarking

我想对Spark进行基准测试,其中包括:

拥有10TB的未压缩数据,其中每一行都采用以下格式:float; float; string。

这项工作基本上会做:

  • 在要拆分的行上映射
  • 过滤字符串
  • reduceByKey其中key基于两个浮点数。
  • 将结果存储在HDFS中

问题是:   - 我应该有多少磁盘空间   - 多少记忆力   - 作业的参数是什么(#exec,#core,#mem)和yarn-site.conf

目前我在10个节点上拥有15To存储空间(16个核心,16GB,1.5个存储空间)并且它失败了:

  

错误client.TransportClient:无法将RPC 6631382768729976966发送到benchophadoopslaves1 / A.B.C.D:43365:java.nio.channels.ClosedChannelException   java.nio.channels.ClosedChannelException   17/07/06 17:05:42

     

WARN netty.NettyRpcEndpointRef:错误发送消息[message = Heartbeat(41,[Lscala.Tuple2; @ 4f4d418,BlockManagerId(41,benchophadoopslaves1,34521))] 3次尝试   java.io.IOException:无法将RPC 6631382768729976966发送到benchophadoopslaves1 / A.B.C.D:4336:java.nio.channels.ClosedChannelException           在org.apache.spark.network.client.TransportClient $ 3.operationComplete(TransportClient.java:239)           在org.apache.spark.network.client.TransportClient $ 3.operationComplete(TransportClient.java:226)           在io.netty.util.concurrent.DefaultPromise.notifyListener0(DefaultPromise.java:680)

1 个答案:

答案 0 :(得分:0)

一位朋友给了我一个提示:给司机10GB。它的工作原理