zhangguanzhang's Blog

一次单节点单个pod网络问题排查过程

字数统计: 493阅读时长: 2 min
2021/04/30 Share

about

现场反馈客户环境上业务不正常,根据调用链去看某个业务A日志,发现无法请求另一个业务B,把业务 A 的探针取消了,加上

1
2
tty: true
command: ["bash"]

起来后进去 curl 了下 B 对应的 svcIP 接口是能通的。然后手动起业务进程,再开个窗口 exec 进去 curl 发现就不通了,k8s node数量是只有一个,并且只有这一个 pod 有问题。后面排查到是用户的安全软件导致的。软件名是

1
2
3
4
5
6
7
$ ps aux | grep agent
root 6349 0.3 0.1 21046316 116820 ? Sl 11:08 0:02 /CloudResetPwdUpdateAgent/depend/jre1.8.0_232/bin/java -Dorg.tanukisoftware.wrapper.WrapperSimpleApp.maxStartMainWait=40 -Djava.library.path=../lib -classpath ../lib/resetpwdupdateagent.jar:../lib/wrapper.jar:../lib/json-20160810.jar:../lib/log4j-api-2.8.2.jar:../lib/log4j-core-2.8.2.jar -Dwrapper.key=osxWGEBk6yYtP6sr -Dwrapper.backend=pipe -Dwrapper.disable_console_input=TRUE -Dwrapper.pid=6019 -Dwrapper.version=3.5.26 -Dwrapper.native_library=wrapper -Dwrapper.arch=x86 -Dwrapper.service=TRUE -Dwrapper.cpu.timeout=10 -Dwrapper.jvmid=1 org.tanukisoftware.wrapper.WrapperSimpleApp CloudResetPwdUpdateAgent
root 13860 76.1 0.3 796288 253072 ? Sl 11:08 8:27 /usr/local/dbappsecurity/edr/agent_service runservice
root 14188 0.0 0.0 46004 6000 ? S 11:08 0:00 /usr/local/dbappsecurity/edr/agent_daemon
root 17399 0.0 0.0 112712 976 pts/0 S+ 11:19 0:00 grep --color=auto agent
root 22206 0.0 0.0 22496 1448 ? S 11:08 0:00 vm-agent
root 22215 0.1 0.0 628744 4104 ? Sl 11:08 0:01 vm-agent

杀掉 dbappsecurity 两个进程后重建业务 A 的 pod 后就正常了。

之前也遇到过安全软件导致 pod 网络通信异常 eof 的,列举一些国产遇到过的软件软件:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
ds_agent  # 查下 agent 关键字
qaxsafed # 奇安信,查下 qax 看看有没有其他的
secdog # 也查下 dog 和 sec
sangfor_watchdog # 这个不影响,但是有它基本是深信服的虚拟化环境,会和flannel的8472端口冲突
YDservice
Symantec
start360su_safed # 推荐 ps aux | grep safe 先查下
gov_defence_service
gov_defence_guard # ps aux | grep defence
wsssr_defence_daomon # 目前遇到影响 socat 运行
wsssr_defence_service
ics_agent

edr_sec_plan # ps aux | grep edr ,深信服的 edr,这个会下发 iptables 规则,配置错了会影响 node 之间,以及 pod 和 pod 之间通信
CATALOG
  1. 1. about