k8s故障排查与自动治愈
DNS妨碍:6个DNS Pod中的2个呈现无法理会外部DNS名称的环境。效果是大量线上营业因域名理会。 CNI妨碍:少数几个节点的容器收集和外部断开,节点会见自身的Pod IP没有题目,可是其余节点无法会见妨碍节点的Pod IP。这种环境下,Pod本机的康健搜查无效,导致妨碍实例一连存在,必然比例的营业哀求失败。 kubenurse会对ingress、dns、apiserver、kube-proxy举办收集探测。 行使KubeNurse举办集群收集监控 节点妨碍 硬件错误: CPU/Memory/磁盘妨碍 kernel题目: kernel deadlock/corrupted file systems 容器运行时错误: Docker假死 基本办法办事情障: NTP妨碍 node-problem-detector 来源: 在kubernetes集群上,凡是我们只是牵制集群自己以及容器的不变运行。可是这些不变性都是强依靠节点node的不变的。然则node的打点,在kubernetes是较量弱的,由于也许对付kubernetes的初始计划来说,这些应该是IaaS的事。可是跟着kubernetes的成长,它越来酿成了一个操纵体系,它打点的内容将越来越多,以是对付node的打点也将纳入kuberntes里打点。以是延长出了node problem detector这个项目。 Kubernetes支持两种上报机制: 1、NodeCondition(节点状况): 这是指永世性的错误,它将造成pod无法在这个节点运行。这个节点状况只有在节点重启后才会被重置 2、Event(变乱): 影响节点的姑且性题目,可是它是对付体系诊断是故意义的。NPD就是操作kubernetes的上报机制,通过检测体系的日记(譬喻centos中journal),把错误的信息上报到kuberntes的node上。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |