Google Dataproc上的Spark UI在哪里?

时间:2015-10-18 00:35:42

标签: apache-spark google-cloud-dataproc

我应该使用哪个端口来访问Google Dataproc上的Spark UI?

我尝试使用netstat -pln找到端口4040和7077以及其他一些端口

正确配置了防火墙。

3 个答案:

答案 0 :(得分:21)

Dataproc在YARN之上运行Spark,因此您无法找到典型的" Spark独立版"端口;相反,当运行Spark作业时,您可以访问端口8088,它将显示YARN ResourceManager的主页面。可以通过该页面上的Application Master链接访问任何正在运行的Spark作业。 Spark Application Master的页面与熟悉的Spark-standalone登录页面相同,您通常可以在端口8080上找到默认的Spark设置。

由于工作人员通过内部网络办理登机手续,YARN的链接将使用群集内部主机名(主机名应包含您的Dataproc群集名称作为前缀),但这意味着如果您要从外部网络,链接可能不起作用;如果您使用基于防火墙的方法,则必须使用外部IP地址替换主机名。

更简单的体验是使用SOCKS代理方法,如下所述:https://cloud.google.com/dataproc/cluster-web-interfaces

在这种情况下,只需使用gcloud compute ssh运行轻量级本地socks代理,然后打开指向该浏览器的浏览器就可以正常点击所有YARN链接。

答案 1 :(得分:2)

following the instructions in Dennis's answer时,我发现无法连接到端口8080或8088以获取数据图像v1.0。

主节点上的开放端口建议使用18080,我在the documentation之后执行端口18080和voilá:访问webui。

答案 2 :(得分:0)

由于我在DataProc群集中有公共地址,所以我在Cloud Console中从公司子网到DataProc实例端口 8088 (YARN RM)和 8042 ( NM Webapp地址)。