我想在正在运行的 Spark 作业中获取集群链接(或手动组合链接的集群 ID)。
这将用于在警报消息中打印链接,使工程师更容易访问日志。
是否可以在 Databricks 中运行的 Spark 作业中实现这一点?
答案 0 :(得分:2)
Databricks 集群启动时,添加了许多 Spark 配置属性。它们中的大多数名称都以 spark.databricks.
开头 - 您可以在 Spark UI 的 Environment
选项卡中找到所有这些。
集群 ID 可作为 spark.databricks.clusterUsageTags.clusterId
属性使用,您可以通过以下方式获取:
spark.conf.get("spark.databricks.clusterUsageTags.clusterId")
您可以通过 dbutils.notebook.getContext().apiUrl.get
调用(对于 Scala)或 dbutils.notebook.entry_point.getDbutils().notebook().getContext().apiUrl().get()
(对于 Python)获取工作区主机名