1. 现象
线上k8s集群报警,部署带有PV/PVC的pod,pod启动完成时间长达4min+. 包括 创建PVC、创建PV,PVC变更bound状态时间等
2. 排查思路
集群规模信息查看:
apps@WXJD-PSC-xxxx-xxx ~$ kubectl get pv | wc -l
2688
apps@WXJD-PSC-xxxx-xxx ~$ kubectl get PVC -A | wc -l
1171
apps@WXJD-PSC-xxxx-xxx ~$ kubectl get node | wc -l
217
整个集群中216个node, 2687个pv 和 1170个pvc
2.1 底层csi返回异常或者重试导致
底层使用 rbd模式ceph-csi卷, 返回结果延期。
但是冲csi plugin 和csi provisioner中观察日志,其中无明显错误