about现场反馈客户环境上业务不正常,根据调用链去看某个业务A日志,发现无法请求另一个业务B,把业务 A 的探针取消了,加上
12tty: truecommand: ["bash"]
起来后进去 curl 了下 B 对应的 svcIP 接口是能通的。然后手动起业务进程,再开个窗口 exec 进去 curl 发现就不通了,k8s node数量是只有一个,并且只有这一个 pod 有问题。后面排查到是用户的安全软件导致的。软件名是
1234567$ ps aux | grep agentroot 6349 0.3 0.1 21046316 116820 ?...
前提详情在 3.x 的内核上,cgroup 的 kmem account 特性有内存泄露问题。kubelet 和 runc 都需要修复。
网上有言论说升级 Linux 内核至 kernel-3.10.0-1075.el7 及以上就可以修复这个问题,详细可见 slab leak causing a crash when using kmem control group。但是我测试了下面的都不行:
CentOS7.4
CentOS7.6
CentOS7.7的 3.10.0-1062.el7.x86_64
CentOS Linux release 7.8.2003 (Core) - 3.1...
由来2025/03/27 又遇到了,设置的 MACAddress= 才让生成的 flannel.1 地址不固定
12345678910111213141516171819rootgdggphis281527:~H cat /etc/os-releasePRETTY NAME="Ubuntu 22.04.4 LTS"NaME="Ubuntu"VERSION_ID="22.04"VERSION="22.04.4 LTs (Jammy Jellyfish)"VERSION_CODENAME-Ja...
由来这些天陆续发现很多客户是统信的系统,部署我们业务后无法访问
环境信息我自己环境和客户的环境都遇到了无法访问,我自己测试的机器信息是:
1234567891011$ cat /etc/os-releasePRETTY_NAME="Uniontech OS Server 20 Enterprise"NAME="Uniontech OS Server 20 Enterprise"VERSION_ID="20"VERSION="20"ID=UOSHOME_URL="https://www.chinauo...
由来同事在客户那边部署的集群问题频繁,先给他解决了个问题后又反映说业务 POD 由于 DNS 无法解析而启动失败,排查完发现这样的情况从没遇到过,挺有意思的,这里记录下。实际排查过程也有往错误的方向浪费了一些时间和尝试,就不写进来了,以正确的角度写下排查过程。
环境信息集群信息:
12345678910111213141516171819202122232425$ kubectl version -o json{ "clientVersion": { "major": "1", "mi...
这个问题 flannel 和 calico 的 VXLAN 模式下都会发生,部分人的现象是集群的A记录 UDP 下查询可能有问题(也有人在 azure 上在宿主机上访问 svc 的 clusterIP 10%几率才能通),原因是v1.17+的k8s会引起内核的某个 UDP 相关 bug而不是cni的软件层面,weave没有,后面说。
写这篇文章的日期是05/28,发现是上周五也就是05/23号,文章从时间线写起(因为很多时候想发文章但是没空,所以文章的发布日期是05/23)
2020-07-19更新,版本v1.18.6, v1.16.13, v1.17.9+已经修复这个问题,可以同版本内...