Question

由于未知原因，工作站节点意外地从主服务器群集中删除。

群集具有以下设置：

AWS
配置了多个
群集主人，群集（跨AZ）
法兰绒网络
使用CoreOS kube-aws

发生了未知来源事件，其中在几秒钟内，所有工作节点都从主设备中删除。我们可以找到的唯一相关日志条目是 kube-controller-manager ：

I0217 14:19:11.432691 1 event.go:217] Event(api.ObjectReference{Kind:"Node", Namespace:"", Name:"ip-XX-XX-XX-XX.ec2.internal", UID:"XXX", APIVersion:"", ResourceVersion:"", FieldPath:""}): type: 'Normal' reason: 'NodeNotReady' Node ip-XX-XX-XX-XX.ec2.internal status is now: NodeNotReady

大约10分钟后，节点恢复“准备就绪”。

我们尚未找到节点转换为NodeNotReady的原因。

到目前为止，我们已查看各种系统组件的日志，包括：

绒布
kubelet
ETCD
控制器的管理器

一个值得注意的项目是群集的活动主服务器当前与节点位于不同的AZ中。这个应该可以，但可能是网络连接问题的根源。话虽如此，我们没有看到日志/监测AZ之间连接问题的迹象。

检查kubelet日志时，没有明确的日志记录事件，节点将其状态更改为“未准备好或其他情况。此外，没有明确指示任何致命事件。

可能值得注意的一个项目是在停电后记录所有kubelet：

Error updating node status, will retry: error getting node "ip-XX-XX-XX-XX.ec2.internal": Get https://master/api/v1/nodes?fieldSelector=metadata.name%3Dip-XX-XX-XX-XX.ec2.internal&resourceVersion=0: read tcp 10.X.X.X:52534->10.Y.Y.Y:443: read: no route to host".

请再次注意，这些日志消息是在节点重新加入群集后记录的（群集崩溃和节点重新加入之间有一个明确的~10分钟窗口）。

为什么Kubernetes工作节点成为NodeNotReady？

0 个答案: