zhangguanzhang's Blog

一次单节点单个pod网络问题排查过程
about现场反馈客户环境上业务不正常,根据调用链去看某个业务A日志,发现无法请求另一个业务B,把业务 A 的探针取消了,加上 12tty: truecommand: ["bash"] 起来后进去 curl 了下 B 对应的 svcIP 接口是能通的。然后手动起业务进程,再开个窗口 exec 进去 curl 发现就不通了,k8s node数量是只有一个,并且只有这一个 pod 有问题。后面排查到是用户的安全软件导致的。软件名是 1234567$ ps aux | grep agentroot 6349 0.3 0.1 21046316 116820 ?...
kubelet 和 runc 编译关闭 kmem
前提详情在 3.x 的内核上,cgroup 的 kmem account 特性有内存泄露问题。kubelet 和 runc 都需要修复。 网上有言论说升级 Linux 内核至 kernel-3.10.0-1075.el7 及以上就可以修复这个问题,详细可见 slab leak causing a crash when using kmem control group。但是我测试了下面的都不行: CentOS7.4 CentOS7.6 CentOS7.7的 3.10.0-1062.el7.x86_64 CentOS Linux release 7.8.2003 (Core) - 3.1...
统信USO 20 hostPort 无法访问
由来这些天陆续发现很多客户是统信的系统,部署我们业务后无法访问 环境信息我自己环境和客户的环境都遇到了无法访问,我自己测试的机器信息是: 1234567891011$ cat /etc/os-releasePRETTY_NAME="Uniontech OS Server 20 Enterprise"NAME="Uniontech OS Server 20 Enterprise"VERSION_ID="20"VERSION="20"ID=UOSHOME_URL="https://www.chinauo...
银河麒麟arm64系统上k8s集群跨节点不通的一次排查
由来同事在客户那边部署的集群问题频繁,先给他解决了个问题后又反映说业务 POD 由于 DNS 无法解析而启动失败,排查完发现这样的情况从没遇到过,挺有意思的,这里记录下。实际排查过程也有往错误的方向浪费了一些时间和尝试,就不写进来了,以正确的角度写下排查过程。 环境信息集群信息: 12345678910111213141516171819202122232425$ kubectl version -o json{ "clientVersion": { "major": "1", "mi...
v1.17+ k8s集群下CNI使用VXLAN模式SVC有63秒延迟的触发原因定位
这个问题 flannel 和 calico 的 VXLAN 模式下都会发生,部分人的现象是集群的A记录 UDP 下查询可能有问题(也有人在 azure 上在宿主机上访问 svc 的 clusterIP 10%几率才能通),原因是v1.17+的k8s会引起内核的某个 UDP 相关 bug而不是cni的软件层面,weave没有,后面说。 写这篇文章的日期是05/28,发现是上周五也就是05/23号,文章从时间线写起(因为很多时候想发文章但是没空,所以文章的发布日期是05/23) 2020-07-19更新,版本v1.18.6, v1.16.13, v1.17.9+已经修复这个问题,可以同版本内...