某天发现测试环境节点忽然变为NotRead 导致服务异常:@(内伤)
现象是这样的
describe查看是这样的
初步感觉是节点有问题了 一般出现节点NotReady无非是 节点CPU 内存 磁盘 和网络出问题了
结果这样一排查 发现都没问题:@(喷血)
下面只能看下kubelet和docker的状态和日志
kubelet
systemctl status kubelet
● kubelet.service - Kubernetes Kubelet
Loaded: loaded (/etc/systemd/system/kubelet.service; enabled; vendor preset: disabled)
Active: active (running) since Mon 2022-02-14 11:04:52 CST; 3min 28s ago
Docs: https://github.com/GoogleCloudPlatform/kubernetes
Process: 24722 ExecStartPre=/bin/mkdir -p /sys/fs/cgroup/systemd/system.slice (code=exited, status=0/SUCCESS)
Process: 24719 ExecStartPre=/bin/mkdir -p /sys/fs/cgroup/pids/system.slice (code=exited, status=0/SUCCESS)
Process: 24716 ExecStartPre=/bin/mkdir -p /sys/fs/cgroup/memory/system.slice (code=exited, status=0/SUCCESS)
Process: 24713 ExecStartPre=/bin/mkdir -p /sys/fs/cgroup/hugetlb/system.slice (code=exited, status=0/SUCCESS)
Process: 24710 ExecStartPre=/bin/mkdir -p /sys/fs/cgroup/cpuset/system.slice (code=exited, status=0/SUCCESS)
Process: 24707 ExecStartPre=/bin/mkdir -p /sys/fs/cgroup/cpuacct/system.slice (code=exited, status=0/SUCCESS)
docker
systemctl status docker
● docker.service - Docker Application Container Engine
Loaded: loaded (/etc/systemd/system/docker.service; enabled; vendor preset: disabled)
Active: active (running) since Mon 2022-02-14 11:04:42 CST; 6s ago
Docs: http://docs.docker.io
Process: 24482 ExecStartPost=/sbin/iptables -I FORWARD -s 0.0.0.0/0 -j ACCEPT (code=exited, status=0/SUCCESS)
Main PID: 24480 (dockerd)
Tasks: 123
Memory: 946.6M
CGroup: /system.slice/docker.service
两个状态都是running状态 只能看下日志信息了
查看kubelet日志信息
可以看到kubelet连接docker有问题 一直在重启
只能在看下docker日志信息了
看这个报错在网上搜索没什么发现 于是我好奇docker ps了下 发现一直卡死没有输出
这就很奇怪 docker服务正常 不应该没有输出呀 于是又是一番百度找到一个类似的
https://www.bianchengquan.com/article/155669.html
发现应该是docker版本过低触发的版本不兼容 临时先kill掉runc进程后重启kubelet和docker就恢复了 后面还是要时常关注服务的版本