apache-spark - 我的Spark程序中有很多阶段

我的Spark程序中有很多阶段

时间：2018-08-17 15:13:07

标签： apache-spark amazon-s3 apache-spark-sql spark-streaming

当我的spark程序执行时，它正在创建1000个阶段。但是，我看到推荐的只是200。最后，我有两个动作可将数据写入S3，然后再使用非持久性数据帧。现在，当我的spark程序将数据写入S3时，它仍然运行了将近30分钟。为什么会这样呢？是因为我保留了大量数据帧吗？

P.S->我正在运行程序，仅用于5条输入记录。

1 个答案:

答案 0 :(得分：0)

集群可能需要更长的时间才能将数据追加到现有数据集中，特别是所有Spark作业都已完成，但是您的命令尚未完成，这是因为驱动程序节点正在从临时作业中移动任务的输出文件目录到最终目标的一对一，这对于云存储来说很慢。尝试将配置 mapreduce.fileoutputcommitter.algorithm.version 设置为2。

通过生成中间阶段执行大型C程序
节目跳过阶段
处理RDD时的阶段数
Spark DAG阶段数
Spark ML Logistic回归问题创建了大量阶段
Spark镶木地板分区：大量文件
如何知道（广播）连接查询中的Spark作业和阶段的数量？
我的Spark程序中有很多阶段
训练大量模型
探索Spark执行计划，阶段数等

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？