Kubeservice博客

是非审之于己,毁誉听之于人,得失安之于数

TIPS之 Kubernetes Pod 容器退出状态码

Kubernetes Pod 容器退出状态码

Kubernetes Etcd 启动失败问题排查 问题 大家在使用 Kubernetes 时,会遇到创建Pod失败,这时会分析什么原因导致创建Pod失败? Pod status 状态解释 [1] CrashLoopBack

TIPS之 Kubernetes 自定义指标hpa实现: prometheus-adapter

Kubernetes 自定义指标hpa实现

Kubernetes 自定义指标hpa实现:prometheus-adapter 如何实现自定义指标采集 其中包括: 自定义指标暴露,并采集 完成将原生自定义指标转换为

TIPS之 Kubernetes ServiceAccount 无法生成 token Secret排查

Kubernetes P ServiceAccount 无法生成 token Secret排查

Kubernetes ServiceAccount 无法生成 token Secret排查 1. 现象 创建 ServiceAccount 不会自动生成 Secret 需要对其手动创建 cat<<EOF | kubectl apply -f - apiVersion: v1 kind: ServiceAccount metadata: name: test namespace: default EOF $ kubectl get serviceaccounts cby NAME SECRETS AGE test 0 9s 2. 排查思路 手动

TIPS之 Kubernetes Pod Container Memory high问题排查

Kubernetes Pod Container Memory high问题排查

Kubernetes Pod Container Memory high问题排查 1. 现象 线上k8s集群报警,告警群里突然告警某容器内存使用率高于90%,并且后续一直有告警出现。随即登入指标监控系统查

TIPS之 Kubernetes 自动清理 Failed/Successed Pod

Kubernetes 自动清理 Failed/Successed Pod

Kubernetes 自动清理 Failed/Successed Pod 背景 Pod 部署应为某些原因,Pod 部署失败Failed 或者 部署完成Successed等历史pod 不会被删除,导致 kubectl get pod -A 大量异常p

TIPS之 Kubernetes 外部流量引入

Kubernetes 外部流量引入: ClusterIp、NodePort、LoadBalancer 和 Ingress

Kubernetes 外部流量引入: ClusterIp、NodePort、LoadBalancer 和 Ingress 背景 今天,我被问到了一个从测试初期遇到的最常见问题之一开始

GPU 共享/虚拟化方案: 故障隔离、显存隔离、算力隔离

GPU 共享/虚拟化方案: 故障隔离、显存隔离、算力隔离

GPU 共享/虚拟化方案: 故障隔离、显存隔离、算力隔离 AI 任务一般都会用到 GPU,这类资源相对 CPU/内存 来说往往更加昂贵,目前实现混部的开源方案有

TIPS之 Kubernetes descheduler使用方式

Kubernetes descheduler使用方式

Kubernetes descheduler使用方式 descheduler是对于现有的 kube-scheduler 精细化调度丰富. de-scheduler 当业务长期运行后, 出现warning到一定情况,通过预