标签: amazon-web-services apache-spark apache-spark-mllib amazon-emr
我正在AWS EMR中运行spark应用程序。该应用程序涉及在300000列上执行mllib函数(columnSimilarities)和交叉连接操作。当我运行它时,我在当前的群集配置中出现Out-Of-Memory错误。我怀疑的是,我是否应该增加节点数或升级实例类型并保持节点数不相同。另外,我们如何决定主节点的内存大小。谢谢。