为什么Kubernetes工作节点成为NodeNotReady?

时间:2017-02-20 13:53:16

标签: amazon-web-services kubernetes coreos

由于未知原因,工作站节点意外地从主服务器群集中删除。

群集具有以下设置:

  • AWS
  • 配置了多个
  • 群集主人,群集(跨AZ)
  • 法兰绒网络
  • 使用CoreOS kube-aws
  • 进行预配置

发生了未知来源事件,其中在几秒钟内,所有工作节点都从主设备中删除。我们可以找到的唯一相关日志条目是 kube-controller-manager

I0217 14:19:11.432691 1 event.go:217] Event(api.ObjectReference{Kind:"Node", Namespace:"", Name:"ip-XX-XX-XX-XX.ec2.internal", UID:"XXX", APIVersion:"", ResourceVersion:"", FieldPath:""}): type: 'Normal' reason: 'NodeNotReady' Node ip-XX-XX-XX-XX.ec2.internal status is now: NodeNotReady

大约10分钟后,节点恢复“准备就绪”。

我们尚未找到节点转换为NodeNotReady的原因。

到目前为止,我们已查看各种系统组件的日志,包括:

  • 绒布
  • kubelet
  • ETCD
  • 控制器的管理器

一个值得注意的项目是群集的活动主服务器当前与节点位于不同的AZ中。这个应该可以,但可能是网络连接问题的根源。话虽如此,我们没有看到日志/监测AZ之间连接问题的迹象。

检查kubelet日志时,没有明确的日志记录事件,节点将其状态更改为“未准备好或其他情况。此外,没有明确指示任何致命事件。

可能值得注意的一个项目是在停电后记录所有kubelet:

Error updating node status, will retry: error getting node "ip-XX-XX-XX-XX.ec2.internal": Get https://master/api/v1/nodes?fieldSelector=metadata.name%3Dip-XX-XX-XX-XX.ec2.internal&resourceVersion=0: read tcp 10.X.X.X:52534->10.Y.Y.Y:443: read: no route to host".

请再次注意,这些日志消息是在节点重新加入群集后记录的(群集崩溃和节点重新加入之间有一个明确的~10分钟窗口)。

0 个答案:

没有答案