zhangguanzhang's Blog

prometheus的rate与irate内部是如何计算的

由来市面上的翻译误导人，压根不是啥平均增长率，看了下源码和实际算下来让大家好理解 rate主要代码是在 https://github.com/prometheus/prometheus/blob/master/promql/functions.go 的extrapolatedRate 和 funcRate，funcRate为 123func funcRate(vals []parser.Value, args parser.Expressions, enh *EvalNodeHelper) Vector { return extrapolatedRate(vals, args...

2020/07/30

Prometheus

k8s master机器文件系统故障的一次恢复过程

由来研发反馈他们那边一套集群有台master文件系统损坏无法开机，他们是三台openstack上的虚机，是虚拟化宿主机故障导致的虚机文件系统损坏。三台机器是master+node，指导他修复后开机，修复过程和我之前文章opensuse的一次救援步骤一样起来后我上去看，因为做了 HA 的，所以只有这个node有问题，集群没影响 12345[root@k8s-m1 ~]# kubectl get node -o wideNAME STATUS ROLES AGE VERSION INTERNAL-IP EXTERNAL-IP OS...

2020/07/23

k8s etcd

Linux audit 审计

什么是audit？linux audit子系统是一个用于收集记录系统、内核、用户进程发生的行为事件的一种安全审计系统。该系统可以可靠地收集有关上任何与安全相关（或与安全无关）事件的信息，它可以帮助跟踪在系统上执行过的一些操作。使用安装好像高版本 os 都自带了，没有就 yum install -y audit 1systemctl status auditd.service 例如追踪一个内核参数被谁修改要注意的是 auditctl 只能临时生效，要想永久生效使用文件 audit.rules 基本信息查看12345678910111213# 查看状态$ auditctl -senabl...

2020/07/05

audit

k8s pprof 分析 cpu 和内存

简单记录下 k8s 组件的 pprof 看内存和 cpu 情况 kubectl 收集有证书 curl 也行，这里就偷懒了： 123# 这个很耗时，耐心等待文件不为 0 即可kubectl get --raw /api/v1/nodes/<nodeName>/proxy/debug/pprof/profile > kubelet.profilekubectl get --raw /api/v1/nodes/<nodeName>/proxy/debug/pprof/heap > kubelet.heap 123yum instal -y graphviz...

2020/06/25

阿里云上使用flannel host-gw跨节点pod不通的解决

挺多人问的，写下解决办法前言首先主机得在同一个专有vpc下，跨vpc或者经典vpc就扯淡了。还有flannel别把网络信息存储在etcd里，目前flannel只支持v2的etcd api。但是现在k8s都是使用v3 etcd存储了。如果v2和v3共存会导致无法恢复etcd的备份所以网上那些etcdctl set flannel的cidr的文章别看了，都没做过备份恢复实验就到处发k8s搭建教程。flannel v3的话看我过往文章环境信息先来说下host-gw的包走向，假设两台机器 IP pod cidr 10.0.6.166 10.200.1.0/24 1...

2020/06/23

host-gw

[未写完]使用go开发一个Prometheus的exporter

市面上的例子太多都太简单了，这里详细写下我知道的

2020/06/19

exporter

v1.17+ k8s集群下CNI使用VXLAN模式SVC有63秒延迟的触发原因定位

这个问题 flannel 和 calico 的 VXLAN 模式下都会发生，部分人的现象是集群的A记录 UDP 下查询可能有问题（也有人在 azure 上在宿主机上访问 svc 的 clusterIP 10%几率才能通），原因是v1.17+的k8s会引起内核的某个 UDP 相关 bug而不是cni的软件层面，weave没有，后面说。写这篇文章的日期是05/28，发现是上周五也就是05/23号，文章从时间线写起(因为很多时候想发文章但是没空，所以文章的发布日期是05/23) 2020-07-19更新，版本v1.18.6, v1.16.13, v1.17.9+已经修复这个问题，可以同版本内...

2020/05/23

63s timeout

proxmox x86软路由笔记

由来pve已经安装好系统(如果你还没安装且打算安装，安装完后可以看看我这个文章安装完proxmox的一些设置)，pve 的机器只有一个口子的情况下，就只能作为旁路由使用。前置工作虚机准备先去恩山论坛x86版块下一个固件pve上开台机器一般-高级-开机自启动勾上，有必要的话手动设置下vmID，后面有用操作系统不适用任何介质系统默认，下一步硬盘随便设置，后面会删除 cpu按照实际，我给2核，内存我给的2g 网络，模型选VirtIO(半虚拟化)，防火墙的勾去掉完成选中虚机，硬件-选中硬盘，点击分离，删除导入img把固件上传到 pve 的机器上，一般是 gz，解压成 img ...

2020/05/13

openwrt x86

adguardhome dns FORMERR 错误

由来这几天发现某个 zone 上游时不时地址无法解析，dnsmasq -> adguardhome 的 /xxx.com/10.x.x.x。排查先用 dig 排查，发现是上游的问题，加上 noedns 就能解析了 12345678910111213141516171819202122232425262728293031323334353637383940root@OpenWrt:~# dig @10.x.x.x xxx.xxxxx.net ; <<>> DiG 9.17.13 <<>> @10.x.x.x xxx.xxxxx.ne...

2020/05/12

adguardhome dns

斐讯N1刷机和旁路由的设置

由来之前一直是使用k2p刷openwrt或者pandora跑 xx 用，前几天看到了个 xx 的订阅地址给写到openwrt上了。结果运行了几天发现 web 上任何配置都无法更改，ssh 上去发现 touch 报错没有容量(而且重装后感觉还是有问题，github 访问也不稳定了)，意识到 k2p 容量实在太小了，于是去恩山论坛逛了下准备买个 N1 盒子玩玩旁路由。 N1有8G的rom 2G的ram，cpu 是 armv8 的。询问了一番 pdd 上有卖的，132买的刷机版+刷机线套餐(部分固件说好些白色的稳定，如果店铺能选颜色可以选白色的试试？，刷机线是双公头的USB，后期也可以用来救砖...

2020/05/12

N1 openwrt

git工作流下golang项目的version信息该如何处理

来探讨下git工作流下golang项目的version信息该如何处理比较符合标准

2020/04/27

go

编写一个动态准入控制

12345678apiVersion: v1kind: Podmetadata: name: testspec: containers: - name: test image: nginx:alpine 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354{ "kind":"Pod", "apiVersion":"v1", &qu...

2020/04/03

一次deploy,rs,sts Mismatch 的处理

这次文章是远程帮群友解决故障后的总结，以时间线描述群友一开始是apiserver响应慢，使用角度上就是kubectl请求慢，如 123E0326 07:49:37.586690 1 available_controller.go:416] v1beta1.metrics.k8s.io failed with: failing or missing response from https://10.99.174.208:443/apis/metrics.k8s.io/v1beta1: Get https://10.99.174.208:443/apis/metrics...

2020/03/26

k8s Mismatch

go mod的基础使用-科普

go mod由来文章主要是针对新人来介绍 go mod 是啥以及新手如何使用，老手不用看。现阶段go mod已经完全GA了，你会用了的话会非常方便像 python 的项目根目录有requirement.txt记录依赖包，nodejs 是packages.json，同样 go 的包管理从早期的go dep(gopkg)到vendor到现在的go mod.go dep 很早，没有接触过，如果你接触的项目有go dep，看完本文希望你可以学会改造你手上的老项目，vendor则是把包都存放项目的根路径的vendor文件夹里，就像下面。这会导致一个项目很大，多达40M以上。 12345678910...

2020/03/10

go mod

centos6中毒重启后卡在启动页面

12345678910⣿⣿⣿⣿⣿⣿⢟⣡⣴⣶⣶⣦⣌⡛⠟⣋⣩⣬⣭⣭⡛⢿⣿⣿⣿⣿⣿⣿⣿⣿⠋⢰⣿⣿⠿⣛⣛⣙⣛⠻⢆⢻⣿⠿⠿⠿⣿⡄⠻⣿⣿⣿⣿⣿⣿⠃⢠⣿⣿⣶⣿⣿⡿⠿⢟⣛⣒⠐⠲⣶⡶⠿⠶⠶⠦⠄⠙⢿⣿⠋⣠⠄⣿⣿⣿⠟⡛⢅⣠⡵⡐⠲⣶⣶⣥⡠⣤⣵⠆⠄⠰⣦⣤⡀⠇⣰⣿⣼⣿⣿⣧⣤⡸⢿⣿⡀⠂⠁⣸⣿⣿⣿⣿⣇⠄⠈⢀⣿⣿⠿⣰⣿⣿⣿⣿⣿⣿⣿⣷⣤⣈⣙⠶⢾⠭⢉⣁⣴⢯⣭⣵⣶⠾⠓⢀⣴⣿⣿⣿⣿⣿⣿⣿⣿⣿⣿⣿⣿⣉⣤⣴⣾⣿⣿⣦⣄⣤⣤⣄⠄⢿⣿⣿⣿⣿⣿⣿⣿⣿⣿⠿⠿⠿⠿⣿⣿⣿⣿⣿⣿⣿⣿⣿⣿⣿⣇⠈⢿⣿⣿⣿⣿⣿⣿⡟⣰⣞⣛⡒⢒⠤⠦⢬⣉⣉⣉⣉⣉⣉⣉⡥⠴⠂⢸⠻⣿⣿⣿⣿⣏⠻⢌⣉⣉⣩⣉⡛⣛⠒⠶⠶⠶⠶⠶⠶⠶⠶⠂⣸⣿ 昨晚刚整好那个ubuntu，今天下午又一台cen...

2020/03/02

Linux boot centos6