1. 现象
线上k8s集群报警,部署带有PV/PVC
的pod,pod启动完成时间长达4min+
. 包括 创建PVC
、创建PV
,PVC
变更bound
状态时间等
2. 排查思路
集群规模信息查看:
apps@WXJD-PSC-xxxx-xxx ~$ kubectl get pv | wc -l
2688
apps@WXJD-PSC-xxxx-xxx ~$ kubectl get PVC -A | wc -l
1171
apps@WXJD-PSC-xxxx-xxx ~$ kubectl get node | wc -l
217
整个集群中216
个node
, 2687
个pv
和 1170
个pvc
2.1 底层csi
返回异常或者重试导致
底层使用 rbd
模式ceph-csi
卷, 返回结果延期。
但是冲csi plugin 和csi provisioner中观察日志,其中无明显错误