zhangguanzhang's Blog

docker-ce 18.09.3 启动panic: invalid freelist page: 56, page type is leaf的解决处理

这个问题和之前的docker-18.06.3-ce启动panic: invalid page type: 0: 0的解决处理差不多，不过 db 文件不同。客户停止 docker 后起不来了，查看日志： 1journalctl -xe -u docker 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879805月 26 18:42:17 xxx...

2021/05/26

k8s docker

一次单节点单个pod网络问题排查过程

about现场反馈客户环境上业务不正常，根据调用链去看某个业务A日志，发现无法请求另一个业务B，把业务 A 的探针取消了，加上 12tty: truecommand: ["bash"] 起来后进去 curl 了下 B 对应的 svcIP 接口是能通的。然后手动起业务进程，再开个窗口 exec 进去 curl 发现就不通了，k8s node数量是只有一个，并且只有这一个 pod 有问题。后面排查到是用户的安全软件导致的。软件名是 1234567$ ps aux | grep agentroot 6349 0.3 0.1 21046316 116820 ?...

2021/04/30

k8s

kubelet 和 runc 编译关闭 kmem

前提详情在 3.x 的内核上，cgroup 的 kmem account 特性有内存泄露问题。kubelet 和 runc 都需要修复。网上有言论说升级 Linux 内核至 kernel-3.10.0-1075.el7 及以上就可以修复这个问题，详细可见 slab leak causing a crash when using kmem control group。但是我测试了下面的都不行： CentOS7.4 CentOS7.6 CentOS7.7的 3.10.0-1062.el7.x86_64 CentOS Linux release 7.8.2003 (Core) - 3.1...

2021/04/08

k8s

iptables --wait -t nat -A DOCKER...: iptables NO chain/target/match by that name

由来我们内部有套部署的工具，我们部署的流程是先在部署机器（部署机器可能也是node1 ）上用脚本安装好 docker，然后进容器里去起我们部署平台，有个很久的 bug 就是，部署机器上端口映射起容器会有如下报错 1iptables --wait -t nat -A DOCKER -p tcp -d 0/8 --dport 8089 -j DNAT --to-destination 172.25.0.2:80 ! -i docker0: iptables NO chain/target/match by that name 排查也很简单，缺少链，添加上即可: 123sudo iptab...

2021/03/23

k8s

Internal error occurred: jsonpatch add operation does not apply: doc is missing path: xxx

由来今天在折腾 admission webhook 注入一些属性的时候遇到了 Error from server (InternalError): error when creating "xxx.yml": Internal error occurred: jsonpatch add operation does not apply: doc is missing path: "/spec/template/spec/dnsConfig/options"。折腾半天才发现在代码里使用 jsonPatch 的话不能直接绕过结构体实例去 patch。 ...

2021/03/22

k8s

使用github action 配合 docker buildx 编译 arm64 docker-compose

说明git 上搜索了很多 docker-compose 的 arm64 的编译基本都是使用 qemu-user-static 之类的设置下后编译的，也看到过用特权容器启动 qemu-user-static 或者 binfmt 之类的，但是我自己机器上试了无效，貌似是因为我操作系统是低版本内核的 centos ，github 上搜了下，其他很多人的编译感觉太啰嗦了。就在 action 上整了下，测试是可用的，而且非常简单。 docker-practice/actions-setup-docker@master 将会在在 action 的 runner 里安装 docker，创建 build...

2021/03/12

集群节点关机导致dns在eviction pod之前几率不可用

由来这几天我们内部在做新项目的容灾测试，业务都是在 K8S 上的。容灾里就是随便选节点 shutdown -h now。关机后同事便发现了（页面有错误，最终问题是）集群内 DNS 解析会有几率无法解析（导致的）。根据 SVC 的流程，node 关机后，由于 kubelet 没有 update 自己。node 和 pod 在 apiserver get 的时候显示还是正常的。在 kube-controller-manager 的 --node-monitor-grace-period 时间后再过 --pod-eviction-timeout 时间开始 eviction pod，大概流程是...

2021/02/02

coredns

e2fsck 太老报错 has unsupported feature(s): metadata_csum，从而尝试静态编译

e2fsck 静态编译和笔记

2021/01/24

e2fsck fsck

chrony 静态编译和笔记

2021/01/23

chrony

docker18.03 hang at 'restoring container'

由来起初是 k8s 有几个 node not ready，上去看了下 kubelet 日志刷 container runtime down，重启了下 docker 后还是没用，docker ps 命令都卡住。环境信息1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253$ cat /etc/redhat-release Linux xxx-disk0 3.10.0-1127.13.1.el7.x86_64 #1 SMP Tue Jun 23 15:...

2020/12/04

hang

ansible reload user group

记录下今天被 ansible 会话持久坑到的一个 user group 问题

2020/11/23

docker

ansible hang in docker container

由来这几天同事发现在 docker 容器里运行 ansible 命令很卡，发来了个命令叫我试试 ansible localhost -m setup -a 'filter=ansible_default_ipv4' 2>/dev/null |grep '\"address\"' |awk -F'\"' '{print $4}' 环境信息123456789101112131415161718192021222324252627282930313233343536373839404142434...

2020/11/23

docker

永久关闭swap的正确姿势

今天遇到了 kylin 系统上无法关闭 swap 的情况。记录下和方便别人搜到这个知识点。环境信息1234$ at /etc/issueKylin 4.0.2 \n \l$ uname -aLinux H-192-168-63-132 4.15.0- 58-generic #64kord1k1'SMP Thu Aug 1S15:51:97 csT 2919 aarch64 ...... 尝试的步骤fstab 里没有 swap 的挂载， 1swapoff -a && sysctl -w vm.swappiness=0 重启后，内核参数是关闭的，但是实际没有关...

2020/11/20

swap

银河麒麟arm64系统克隆机器上k8s vxlan跨节点不通的一次排查

由来2025/03/27 又遇到了，设置的 MACAddress= 才让生成的 flannel.1 地址不固定 12345678910111213141516171819rootgdggphis281527:~H cat /etc/os-releasePRETTY NAME="Ubuntu 22.04.4 LTS"NaME="Ubuntu"VERSION_ID="22.04"VERSION="22.04.4 LTs (Jammy Jellyfish)"VERSION_CODENAME-Ja...

2020/11/06

Kylin

统信USO 20 hostPort 无法访问

由来这些天陆续发现很多客户是统信的系统，部署我们业务后无法访问环境信息我自己环境和客户的环境都遇到了无法访问，我自己测试的机器信息是: 1234567891011$ cat /etc/os-releasePRETTY_NAME="Uniontech OS Server 20 Enterprise"NAME="Uniontech OS Server 20 Enterprise"VERSION_ID="20"VERSION="20"ID=UOSHOME_URL="https://www.chinauo...

2020/10/30

uos