mesos奴隶未与mesos masters

时间:2015-08-10 20:53:35

标签: mesos

我有一个设置,我使用两个mesos大师和两个mesos slasves。在完成所有必需的配置之后,我可以看到两个mesos主站是由动物园管理员维护的群集的一部分,并且它们在一个时间间隔内切换。所以我相信我的mesos主配置是成功的。

现在我已经设置了两个mesos奴隶,当我启动mesos-slave服务时,我期待mesos奴隶将可用于mesos masters web UI页面。但我在奴隶标签中看不到任何一个。

我已按照提及here

的文件进行操作

我不确定会出现什么问题。我已经验证了主设备和从设备的IP地址,并且配置正确。

我不知道哪个部分需要检查以进行故障排除。

3 个答案:

答案 0 :(得分:2)

请问您是否可以验证从站与主站之间是否存在连接?查看主日志和从属日志以查看正在进行的操作可能是个好主意。

答案 1 :(得分:2)

如果您在AWS或类似服务上设置Mesos群集,则可能需要确保所需端口已打开。从我在AWS上执行的设置,我记得下面的端口,但您可能需要验证:

  • Zookeeper - 2181
  • Mesos Master - 5050
  • Mesos Slave - 5051

您可以在上述端口上使用从主服务器到从服务器的telnet,反之亦然,以确保防火墙不是问题。另外,请确保正确设置了仲裁值。

  

我有一个设置,我使用两个mesos主人和两个mesos slasves。

建议使用一个或多个主节点。您可能希望添加或减少一个主节点。我目前无法找到此建议的链接,但我会在找到后添加一个。

  

动物园管理员,他们正在按时间间隔切换

如果他们按特定时间间隔切换,则配​​置可能不正确。仅当现有的主要主节点由于某种原因发生故障时才切换主要主角色。否则,这不会自行切换。

除此之外,从主节点和从节点提供日志会有所帮助。对于主节点和从节点,我的CentOS 7系统上的日志分别为/var/log/mesos/mesos-master.INFO/var/log/mesos/mesos-slave.INFO。您问题中这些文件的摘录会有所帮助。

答案 2 :(得分:0)

我遇到过可能导致这种情况的情景:

  • 奴隶在开始后不久就终止了。有时在软件包升级或VM资源更改后(例如,您在云实例上扩展CPU)会发生这种情况。您将在mesos-slave日志中看到关于此的日志行,告诉您删除目录。通常解决方案是删除$WORK_DIR/meta。如果您不需要恢复任何执行程序,则可以删除整个WORK_DIR。然后启动mesos-slave。
  • Slave无法连接到ZK以确定master。如果您为主发现提供ZK条目(您应该/etc/mesos/zk)而不是直接提供主选项,则会发生这种情况。确保mesos-slave - > zookeeper connectivity。
  • 与上述类似,/etc/mesos/zk条目(或至少是zookeeper节点)在您的群集中不相同。
  • 确保mesos-master(s)< - > mesos-slave(s)connectivity