Mesos从节点无法重启

时间:2015-11-27 05:29:02

标签: mesos mesosphere

我使用Mesosphere的CloudFormation模板设置了Mesos集群。集群发布后,情况很好。

我最近注意到Mesos仪表板中没有列出任何从属节点。 EC2控制台显示从站正在运行&通过健康检查。我重新启动了群集上的节点,但这没有帮助。 我ssh'ed到其中一个奴隶并注意到mesos-slave服务没有运行。已执行sudo systemctl status dcos-mesos-slave.service但无法启动该服务。

查看/var/log/mesos/tail -f mesos-slave.xxx.invalid-user.log.ERROR.20151127-051324.31267并看到以下内容......

F1127 05:13:24.242182 31270 slave.cpp:4079] CHECK_SOME(state::checkpoint(path, bootId.get())): Failed to create temporary file: No space left on device

df -hfree的输出显示还有足够的磁盘空间。

这让我想知道,为什么抱怨没有磁盘空间?

2 个答案:

答案 0 :(得分:1)

好的我明白了。

当长时间运行Mesos或频繁加载时,/tmp文件夹不会留下任何磁盘空间,因为Mesos使用/tmp/mesos/作为work_dir。你看,文件系统只能容纳一定数量的文件引用(inode)。在我的例子中,奴隶从/var/lib/docker/tmp中的图像抽取中收集大量文件块。

要解决此问题:

1)删除/tmp

下的文件

2)设置不同的work_dir位置

答案 1 :(得分:0)

最好运行

http://my_ip/public_html/apple-touch-icon-144x144-precomposed.png

这样你就可以通过删除未使用的泊坞窗图像来释放空间