Kubeservice博客

Posted by 董江 on Tuesday, December 2, 2025

TIPS之集群中大量Pod处于UnexpectedAdmissionError状态排查

集群中大量Pod处于UnexpectedAdmissionError状态

TIPS之集群中大量Pod处于UnexpectedAdmissionError状态排查现象查询集群中的Pod时，发现大量Pod实例处于Une

Posted by 董江 on Wednesday, October 15, 2025

TIPS之应用云原生改造要素

应用云原生改造要素

应用云原生改造要素一、什么是云原生应用？如何云原生改造？应用云原生是一种架构设计理念。可生于云、可长于云，不被云锁定，并充分利用云平台的弹性

Posted by 董江 on Wednesday, April 23, 2025

AI之 NVIDAI：Operator、Cuda、CNI、Device、Device plugin环境变量使用

Operator、CNI、Device、Device plugin环境变量使用

Posted by 董江 on Monday, April 14, 2025

TIPS之 Volcano jobflow 状态混乱排查

Volcano jobflow 状态混乱排查

Volcano jobflow 状态混乱排查背景当多个 JobFlow 并发执行且都引用同一个 JobTemplate 模板时，每个 JobFlow 状态中出现多个 JobFlow 和多个 VcJob 信息是比较常见的情况，以下为你详细解释：多个 JobFlow 信息

Posted by 董江 on Thursday, March 13, 2025

AI之 Deepseek部署所需资源

Deepseek部署所需资源

Deepseek部署所需资源统计模型型号模型大小格式精度上下文长度最低显存需求显卡要求 DeepSeek-R1 671B（真满血版本） 720GB safetensors（支持

Posted by 董江 on Thursday, March 6, 2025

AI之模型仓库： model register 开源实现 modelx 2.0

基于kubegems/modelx实现开源模型仓库： modelx 2.0

基于kubegems/modelx实现开源模型仓库: modelx 2.0 一、为什么要自己设计模型仓库目前大模型各个平台(例如： ollama、 huggingface hub、 modelscope) 基本

Posted by Kubeservice博客 on Friday, February 14, 2025

AI之模型管理： huggingface 数据集/模型库上传和下载

huggingface 数据集/模型库上传和下载

huggingface 数据集/模型库上传和下载环境准备云原生时代，golang为王；而AI时代，Python为王。需要安装Python相关的环境和libary包

Posted by 董江 on Thursday, February 13, 2025

AI之 NVIDAI：A800 nvlink 异常问题

A800 nvlink 异常问题

TIPS之集群中大量Pod处于UnexpectedAdmissionError状态排查

集群中大量Pod处于UnexpectedAdmissionError状态

TIPS之应用云原生改造要素

应用云原生改造要素

AI之 NVIDAI：Operator、Cuda、CNI、Device、Device plugin环境变量使用

Operator、CNI、Device、Device plugin环境变量使用

TIPS之 Volcano jobflow 状态混乱排查

Volcano jobflow 状态混乱排查

AI之 Deepseek部署所需资源

Deepseek部署所需资源

AI之模型仓库： model register 开源实现 modelx 2.0

基于kubegems/modelx实现开源模型仓库： modelx 2.0

AI之模型管理： huggingface 数据集/模型库上传和下载

huggingface 数据集/模型库上传和下载

QUICK LINKS

FEATURED TAGS

AI之 NVIDAI：A800 nvlink 异常问题

A800 nvlink 异常问题

TIPS之 集群中大量Pod处于UnexpectedAdmissionError状态排查

集群中大量Pod处于UnexpectedAdmissionError状态

TIPS之 应用云原生改造要素

应用云原生改造要素

AI之 NVIDAI：Operator、Cuda、CNI、Device、Device plugin环境变量使用

Operator、CNI、Device、Device plugin环境变量使用

TIPS之 Volcano jobflow 状态混乱排查

Volcano jobflow 状态混乱排查

AI之 Deepseek部署所需资源

Deepseek部署所需资源

AI之 模型仓库： model register 开源实现 modelx 2.0

基于kubegems/modelx实现开源模型仓库： modelx 2.0

AI之 模型管理： huggingface 数据集/模型库 上传和下载

huggingface 数据集/模型库 上传和下载

QUICK LINKS

FEATURED TAGS

TIPS之集群中大量Pod处于UnexpectedAdmissionError状态排查

TIPS之应用云原生改造要素

AI之模型仓库： model register 开源实现 modelx 2.0

AI之模型管理： huggingface 数据集/模型库上传和下载

huggingface 数据集/模型库上传和下载