Kubeservice博客

是非审之于己,毁誉听之于人,得失安之于数

FinOPS之 节点内存态统计和计算Node-metrics

节点内存态统计和计算Node-metrics

节点内存态统计和计算 Node-metrics 背景 请查看第一篇:https://kubeservice.cn/2022/11/24/k8s-crane-schedu

技术方案之 对 Kubernetes Namespace 和 Node 做亲和部署

对 Kubernetes Namespace 和 Node 做亲和部署

技术方案之 Kubernetes Namespace 和 Node 做亲和部署 背景 在共享集群(多租户共享底层硬件资源)中, 遇到特殊租户需要独享特定资源(比如:独占GPU资源、独占Node节点

TIPS之 Systemtap tools 来揪出杀死 Pod 的真凶

Systemtap tools 来揪出杀死 Pod 的真凶

Systemtap 揪出杀死 Pod 的真凶 安装 CentOS安装 systemtap: yum install -y systemtap 默认没装 debuginfo,我们需要装一下,添加软件源 /etc/yum.repos.d/CentOS-Debug.repo: [debuginfo] name=CentOS-$releasever - DebugInfo baseurl=http://debuginfo.centos.org/$releasever/$basearch/ gpgcheck=0 enabled=1 protect=1 priority=1 执行 stap-prep (会安装 kernel-debuginfo) 最

TIPS之 Kubernetes Node 磁盘爆满问题排查

Kubernetes Node 磁盘爆满问题排查

Kubernetes Node 磁盘爆满问题排查 原因分析 kubelet 有gc和驱逐机制,通过 --image-gc-high-threshold, --image-gc-low-threshold, --eviction-hard, --eviction-soft, --eviction-minimum-reclaim 等参数控制 kubelet 的 gc 和驱逐策略来释放磁盘空间,如果配置正确的情况下,磁盘一般不会爆

TIPS之 Kubernetes Node Kernel Crash 问题排查

Kubernetes Node Kernel Crash 排查

Kubernetes Node Kernel Crash 问题排查 kexec 和 kdump 安装kernel Crash dump工具 $ yum install -y kexec-tools $ yum install -y system-config-kdump 目前大多 Linux 发新版都会默认开启 kdump 服务,以方便在内核崩溃的时候, 可以通过

问题分析之 Kubenetes Node系统盘无可用空间

Kubenetes Node系统盘无可用空间: No space left on device

测试集群中,Node节点经常会出现No space left on device的问题,只能不定期清理log、tmp和docker logs 原因: 每个docker容器都往s