zhangguanzhang's Blog

一次单节点单个pod网络问题排查过程

about现场反馈客户环境上业务不正常，根据调用链去看某个业务A日志，发现无法请求另一个业务B，把业务 A 的探针取消了，加上 12tty: truecommand: ["bash"] 起来后进去 curl 了下 B 对应的 svcIP 接口是能通的。然后手动起业务进程，再开个窗口 exec 进去 curl 发现就不通了，k8s node数量是只有一个，并且只有这一个 pod 有问题。后面排查到是用户的安全软件导致的。软件名是 1234567$ ps aux | grep agentroot 6349 0.3 0.1 21046316 116820 ?...

2021/04/30

k8s

kubelet 和 runc 编译关闭 kmem

前提详情在 3.x 的内核上，cgroup 的 kmem account 特性有内存泄露问题。kubelet 和 runc 都需要修复。网上有言论说升级 Linux 内核至 kernel-3.10.0-1075.el7 及以上就可以修复这个问题，详细可见 slab leak causing a crash when using kmem control group。但是我测试了下面的都不行： CentOS7.4 CentOS7.6 CentOS7.7的 3.10.0-1062.el7.x86_64 CentOS Linux release 7.8.2003 (Core) - 3.1...

2021/04/08

k8s

银河麒麟arm64系统克隆机器上k8s vxlan跨节点不通的一次排查

由来2025/03/27 又遇到了，设置的 MACAddress= 才让生成的 flannel.1 地址不固定 12345678910111213141516171819rootgdggphis281527:~H cat /etc/os-releasePRETTY NAME="Ubuntu 22.04.4 LTS"NaME="Ubuntu"VERSION_ID="22.04"VERSION="22.04.4 LTs (Jammy Jellyfish)"VERSION_CODENAME-Ja...

2020/11/06

Kylin

统信USO 20 hostPort 无法访问

由来这些天陆续发现很多客户是统信的系统，部署我们业务后无法访问环境信息我自己环境和客户的环境都遇到了无法访问，我自己测试的机器信息是: 1234567891011$ cat /etc/os-releasePRETTY_NAME="Uniontech OS Server 20 Enterprise"NAME="Uniontech OS Server 20 Enterprise"VERSION_ID="20"VERSION="20"ID=UOSHOME_URL="https://www.chinauo...

2020/10/30

uos

银河麒麟arm64系统上k8s集群跨节点不通的一次排查

由来同事在客户那边部署的集群问题频繁，先给他解决了个问题后又反映说业务 POD 由于 DNS 无法解析而启动失败，排查完发现这样的情况从没遇到过，挺有意思的，这里记录下。实际排查过程也有往错误的方向浪费了一些时间和尝试，就不写进来了，以正确的角度写下排查过程。环境信息集群信息: 12345678910111213141516171819202122232425$ kubectl version -o json{ "clientVersion": { "major": "1", "mi...

2020/10/20

Kylin

v1.17+ k8s集群下CNI使用VXLAN模式SVC有63秒延迟的触发原因定位

这个问题 flannel 和 calico 的 VXLAN 模式下都会发生，部分人的现象是集群的A记录 UDP 下查询可能有问题（也有人在 azure 上在宿主机上访问 svc 的 clusterIP 10%几率才能通），原因是v1.17+的k8s会引起内核的某个 UDP 相关 bug而不是cni的软件层面，weave没有，后面说。写这篇文章的日期是05/28，发现是上周五也就是05/23号，文章从时间线写起(因为很多时候想发文章但是没空，所以文章的发布日期是05/23) 2020-07-19更新，版本v1.18.6, v1.16.13, v1.17.9+已经修复这个问题，可以同版本内...

2020/05/23

63s timeout