数据库中的Spark Store作业进度详细信息

时间:2018-11-17 09:47:25

标签: scala apache-spark apache-spark-sql

我有一个spark作业,该作业会每小时提交一次,以执行某项作业,因此,每当完成某些操作(例如,完成过滤和写入操作)后,我现在都需要将该作业的完成状态存储到某个数据库中。 / p>

获得作业进度(从Spark阶段)并存储其进度,完成或错误(如果有)的最佳方法是什么?

我曾考虑过使用Hbase或其他一些没有SQL的方法,但是对于这种简单的信息,Hbase或其他DB会产生开销,而且看起来好像不支持带有spark的SQLite,所以什么是存储此信息的最佳方法? /> 我需要将以下信息放入db

  1. 当前作业的运行,进度,输入/输出路径等
  2. 工作完成,未完成状态等

0 个答案:

没有答案