zhangguanzhang's Blog

记录线上一次 io 调度算法导致的 mysql 读写慢问题

2021/09/01

干掉烦人的 open /run/xtables.lock: is a directory

环境信息suse 这辣鸡系统，使用官方文档 docker-static 的二进制安装的话会无法起来，所以我们在 suse 上用的是很久之前的 rpm 安装的 docker。 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162$ cat /etc/os-release NAME="SLES"VERSION="12-SP5"VERSION_ID="12.5"...

2021/08/27

flannel下集群有个节点网络不通的一次排查

故障问题和版本没关系，客户的 node 信息啥的后面排错里有。有个节点通信有问题，其余节点都没问题。排查惯例信息先看下 flannel 的 vxlan 的 vtep 信息，客户是双网卡的，但是默认路由是这个网卡，不用管另外的网卡了。下面信息看了下 VtepMAC 和 public-ip 都正常。 123456789101112131415161718192021222324252627282930313233343536$ kubectl get node -o yaml | grep -B4 public annotations: flannel.alpha.core...

2021/08/25

kubernetes flannel

一次 cni-plugins 导致集群 dns 无法解析的排错

问题环境是 1.15.5 的 x86_64 的 k8s 。命令输出被我查看日志给冲掉了，大致描述下。中间件 kafka 无法连上 zookeeper ，看了下日志报错域名无法解析。看了下 coredns 都挂了： 12345$ kubectl -n kube-system get po -o wide -l k8s-app=kube-dnsNAME READY STATUS RESTARTS AGE IP NODE NOMINATED NODE READINESS ...

2021/08/24

kubernetes cni-plugins

kubelet 为系统配置预留资源

前情提要我们环境有部分 pod 特殊，单独节点部署，oom 的时候会搞挂一些系统进程，这几天折腾了下配置了下 kubelet 相关的 reserved。主要是 kubelet 的配置文件一些参数，不写 systemd 里，全部写配置文件里。版本是如下，因为我们不单单是 x86_64 ，由于还有其他的架构以及会部署在客户的现场，为了减少维护，所以我们都是除了 flanneld 和 coredns 以外。k8s 相关的二进制的形式部署的。 12345678910111213141516171819202122232425$ kubectl version -o json{ &qu...

2021/08/16

kubelet

鲲鹏920的麒麟v10物理服务器断电后无法启动处理

前情提要珠海园区升压前置检查，上周六整个园区关电检查，然后今天来后连不上我们在鲲鹏920的麒麟v10机器上开的虚拟机了，进 bmc 的 web 看了下是开机进入后卡住。信息同步是当初安装系统的同事去处理这个事情的，他 bmc 的 web 上去重启在菜单那里按 e 编辑准备改 boot cmdline 进单用户，结果按 e 后要输入用户名和密码，询问了麒麟他们。很久也没给答复。然后就在那干等，上面的虚机有我的环境，我就过去看了下。尝试的处理麒麟那边的人员没有回复，我打算这边同步尝试下其他手段，而且不只一台无法开机，哪怕麒麟的回复了密码也能同步尝试不同手段。Linux 无法开机的就搞个...

2021/07/26

arm64 kylin

dlv命令行的远程调试 golang 进程步骤(包含容器进程)

前情提要记录下 dlv 的远程调试，建议不要在代码里加 fmt 去调试。不谈 goland 啥的远程调试，本文章目前只写 dlv 的命令行配合远端调试。一些前提须知符号链接路径1234567891011package mainimport ( "fmt" "os")func main() { f, _ := os.Open("asdasdasd") fmt.Println(f.Name())} 上面代码你编译了后，在其他机器上运行，panic 的堆栈信息会是你机器上的路径信息，路径信息是保留的，例如下面的...

2021/07/20

golang dlv

编译mips64le架构的consul

编译建议使用容器编译，否则建议 clone 进 GOPATH 里 clone12git clone https://github.com/hashicorp/consul.gitcd consul 线上使用的是 v1.8 版本，这里我以 v1.8.14 (2021/07/19 发布的)搞的。 1git checkout v1.8.14 准备工作拉取需要的镜像。貌似 golang 1.16 更好的支持 mips64 了，所以条件允许的话，这里可以下改下 golang 的版本试试 1234$ head -n2 build-support/docker/Build-G...

2021/07/16

consul mips64le

机器重启后 kube-apiserver 无法启动，etcd刷(error "EOF", ServerName "")

环境信息三个 master （etcd 也在 master 上，master上也有 kubelet）和 n 个 node。master 上组件(kube-controller-manager,kube-scheduler,kubelet)的 apiserver 的ip 都是 127.0.0.1:6443。kube-apiserver的 etcd 地址写了三个 etcd 的。k8s 版本为 v1.15.5 故障现象93 这台 master 机器重启后，发现 93 节点 NotReady，上去看了下 kubelet 无法连上本机的 kube-apiserver。kube-apiserver ...

2021/07/06

docker systemd

Job for docker.service canceled

故障现象内部安装 docker 的脚本报错 docker 安装失败。然后启动发现下面奇怪的问题: 1234567$ systemctl status docker● docker.service - Docker Application Container Engine Loaded: loaded (/etc/systemd/system/docker.service; enabled; vendor preset: enabled) Active: inactive (dead) Docs: http://docs.docker.io$ systemctl start...

2021/07/05

docker systemd

openshift 4.5.9 etcd损坏+脑裂修复过程

前言介绍内部机器和环境都是在 vcenter 里，之前的 ocp 集群是 3 master + 1 worker，也就是之前的openshift 4.5.9 离线安装后的环境，后面有几台宿主机负载太高，同事看我机器负载最高，关了几台，这几天需要用下 openshift 环境。登录到 bastion 上 get 超时，看了下 haproxy 的 stat web，全部红了。。然后把所有机器开机后发现还是起不来。操作openshift 的 master 节点和 kubeadm 很像，几个组件都是 staticPod 形式起的。客户端也不是 docker，使用 crictl 就行了查看 k...

2021/06/08

openshift ocp

docker-ce 18.09.3 启动panic: invalid freelist page: 56, page type is leaf的解决处理

这个问题和之前的docker-18.06.3-ce启动panic: invalid page type: 0: 0的解决处理差不多，不过 db 文件不同。客户停止 docker 后起不来了，查看日志： 1journalctl -xe -u docker 12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717273747576777879805月 26 18:42:17 xxx...

2021/05/26

k8s docker

一次单节点单个pod网络问题排查过程

about现场反馈客户环境上业务不正常，根据调用链去看某个业务A日志，发现无法请求另一个业务B，把业务 A 的探针取消了，加上 12tty: truecommand: ["bash"] 起来后进去 curl 了下 B 对应的 svcIP 接口是能通的。然后手动起业务进程，再开个窗口 exec 进去 curl 发现就不通了，k8s node数量是只有一个，并且只有这一个 pod 有问题。后面排查到是用户的安全软件导致的。软件名是 1234567$ ps aux | grep agentroot 6349 0.3 0.1 21046316 116820 ?...

2021/04/30

k8s

kubelet 和 runc 编译关闭 kmem

前提详情在 3.x 的内核上，cgroup 的 kmem account 特性有内存泄露问题。kubelet 和 runc 都需要修复。网上有言论说升级 Linux 内核至 kernel-3.10.0-1075.el7 及以上就可以修复这个问题，详细可见 slab leak causing a crash when using kmem control group。但是我测试了下面的都不行： CentOS7.4 CentOS7.6 CentOS7.7的 3.10.0-1062.el7.x86_64 CentOS Linux release 7.8.2003 (Core) - 3.1...

2021/04/08

k8s

iptables --wait -t nat -A DOCKER...: iptables NO chain/target/match by that name

由来我们内部有套部署的工具，我们部署的流程是先在部署机器（部署机器可能也是node1 ）上用脚本安装好 docker，然后进容器里去起我们部署平台，有个很久的 bug 就是，部署机器上端口映射起容器会有如下报错 1iptables --wait -t nat -A DOCKER -p tcp -d 0/8 --dport 8089 -j DNAT --to-destination 172.25.0.2:80 ! -i docker0: iptables NO chain/target/match by that name 排查也很简单，缺少链，添加上即可: 123sudo iptab...

2021/03/23

k8s