Spark使用的核心数

时间:2017-03-02 19:21:08

标签: apache-spark

我有一个非常简单的火花工作,读取百万电影评级,并告诉评级和评级的次数。 该作业在spark集群上运行,运行正常。

对我用来运行作业的参数有几个问题?

  1. 我有2个节点在运行。 节点-1 = 24GB RAM& 8 VCPU。 Node-2 = 8GB RAM& 2 VCPU&#39:s。
  2. 所以我总共拥有32GB内存和10个VCPU。

    spark-submit命令。

    spark-submit --master spark://hadoop-master:7077 --executor-memory 4g --num-executors 4 --executor-cores 4 /home/hduser/ratings-counter.py
    

    当我运行上述命令时,spark使用哪个内核,是来自node-1还是node-2,还是随机分配?

    2.如果我不使用执行器的数量,那么spark使用的默认执行器是什么?

    from pyspark import SparkConf, SparkContext
    import collections
    
    
    conf = SparkConf().setMaster("hadoop-master").setAppName("RatingsHistogram")
    sc = SparkContext(conf = conf)
    
    lines = sc.textFile("hdfs://hadoop-master:8020/user/hduser/gutenberg/ml-10M100K/ratings.dat")
    ratings = lines.map(lambda x: x.split('::')[2])
    result = ratings.countByValue()
    
    sortedResults = collections.OrderedDict(sorted(result.items()))
    for key, value in sortedResults.items():
        print("%s %i" % (key, value))
    

1 个答案:

答案 0 :(得分:0)

  

是来自node-1还是node-2,还是随机分配?

这实际上取决于您初始化的工人数量。因为在你的spark-submit cmd中你总共指定了4个执行程序,每个执行程序将从Spark Worker的总内存和内核中分配4GB的内存和4个内核。查看每个执行程序启动的节点的一个简单方法是检查Spark的主UI(默认端口是8080)并从那里选择正在运行的应用程序。然后,您可以在应用程序的UI中检查执行程序选项卡。

  

如果我不使用执行程序的数量,那么spark使用的默认执行程序是什么?

通常,它会为每个worker实例初始化一个执行程序,并使用所有worker的资源。