zhangguanzhang's Blog

Linux 僵尸进程处理

字数统计: 1.2k阅读时长: 4 min
2017/03/28 Share

借用下别人的话:

可能很少有人意识到,在一个进程调用了exit之后,该进程 并非马上就消失掉,而是留下一个称为僵尸进程(Zombie)的数据结构。在Linux进程的5种状态中,僵尸进程是非常特殊的一种,它已经放弃了几乎所 有内存空间,没有任何可执行代码,也不能被调度,仅仅在进程列表中保留一个位置,记载该进程的退出状态等信息供其他进程收集,除此之外,僵尸进程不再占有 任何内存空间。

僵尸进程的来由,要追溯到Unix,Unix的设计者们设计这个东西并非是因为闲来无事想装装酷什么的。上面说到,僵尸进程中保存着很多对程序员和系统管理员非常重要的信息,首先,这个进程是怎么死亡的?是正常退出呢,还是出现了错误,还是被其它进程强迫退出的?也就是说,这个程序的退出码是什么?其次,这个进程占用的总系统CPU时间和总用户CPU时间分别是多少?发生页错误的数目和收到信号的数目。这些信息都被存储在僵尸进程中,试想如果没有僵尸进程,进程执行多长我们并不知道,一旦其退出,所有与之相关的信息都立刻都从系统中清除,而如果此时父进程或系统管理员需要用到,就只好干瞪眼了。

所以,进程退出后,系统会把该进程的状态变成Zombie,然后给上一定的时间等着父进程来收集其退出信息,因为可能父进程正忙于别的事情来不及收集,所以,使用Zombie状态表示进程退出了,正在等待父进程收集信息中。

Zombie进程不可以用kill命令清楚,因为进程已退出,如果需要清除这样的进程,那么需要清除其父进程,或是等很长的时间后被内核清除。因为Zombie的进程还占着个进程ID号呢,这样的进程如果很多的话,不利于系统的进程调度。

查找进程的方法

常规

僵尸进程可以用 top 命令看到。单独过滤 pid 的话可以:

1
ps axo pid=,stat= | awk '$2~/^Z/ { print }'

列出僵尸进程的进程树

1
pstree -p -s $pid

2021/06/16:
如果是容器的话,可以使用 nsenter 列出 hostname 来查看是哪个容器:

1
sudo nsenter --pid --uts -t $pid   hostname

查找容器的名字

如果容器是 host 网络,上面的命令就没用了。我们可以下面这样查询:

1
2
3
4
5
6
7
8
9
$ ps axo pid=,stat= | awk '$2~/^Z/ { print }'
19749 Zs
19750 Zs

这两个进程 pid 间隔一个数字,应该是同一个父进程:

```bash
$ pstree -sp 19749
systemd(1)───dockerd(781)───containerd(1129)───containerd-shim(10642)───python(10733)───ssh(19749)

这个容器是 host 网络,没设置 hostname 下默认是宿主机的 hostname:

1
2
$ nsenter --uts -t 10733 hostname
RedHat79

这个容器是 host 网络,nsenter看不到。我们可以查看 containerd-shim 来看容器:

1
2
$ ps aux | grep 1064[2]
root 10642 0.0 0.0 108716 7360 ? Sl Jun17 0:03 containerd-shim -namespace moby -workdir /data/kube/docker/containerd/daemon/io.containerd.runtime.v1.linux/moby/ed79172356270e81b1683f633904780f4a41c5022ea34a590dd69231fdc330b9 -address /var/run/docker/containerd/containerd.sock -containerd-binary /data/kube/bin/containerd -runtime-root /var/run/docker/runtime-runc

我们拿 moby/ed7917 后面部分字符来查询:

1
2
$ docker ps -a | grep ed79172
ed7917235627 reg.xxx.lan:5000/xxx/xxxxx-tools:fsp "bash -c 'python man…" 2 days ago Up 22 hours xxxxx-tools-fsp

查看这个容器进程:

1
2
3
4
5
6
7
$ docker exec ed7917235627 ps aux
USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND
root 1 0.0 0.0 74700 50000 pts/0 Ss+ Jun17 0:53 python manage.py runserver 0.0.0.0:8888
root 7 2.4 0.1 379552 112524 pts/0 Sl+ Jun17 32:17 /usr/local/bin/python manage.py runserver 0.0.0.0:8888
root 18 0.0 0.0 0 0 ? Zs Jun17 0:00 [ssh] <defunct>
root 19 0.0 0.0 0 0 ? Zs Jun17 0:00 [ssh] <defunct>
root 44 0.0 0.0 9380 1520 ? Rs 09:41 0:00 ps aux

解决办法

停止父进程就一般就能解决了,当然停止不是解决手段,要在父进程代码层面去解决。

python 的 Subprocess 下僵尸进程的解决

最简单的方法,保证主进程不退出的情况下不出现僵尸进程zombia,在文件中加入以下函数:
特点 : 非阻塞,不会影响父进程运行。可以处理所有子进程退出,:

1
2
import signal
signal.signal(signal.SIGCHLD, signal.SIG_IGN)

参考

CATALOG
  1. 1. 查找进程的方法
    1. 1.1. 常规
    2. 1.2. 查找容器的名字
  2. 2. 解决办法
  3. 3. 参考