Kubeservice博客

是非审之于己,毁誉听之于人,得失安之于数

TIPS之 Volcano jobflow 状态混乱排查

Volcano jobflow 状态混乱排查

Volcano jobflow 状态混乱排查 背景 当多个 JobFlow 并发执行且都引用同一个 JobTemplate 模板时,每个 JobFlow 状态中出现多个 JobFlow 和多个 VcJob 信息是比较常见的情况,以下为你详细解释: 多个 JobFlow 信息

AI之 Deepseek部署所需资源

Deepseek部署所需资源

Deepseek部署所需资源统计 模型型号 模型大小 格式 精度 上下文长度 最低显存需求 显卡要求 DeepSeek-R1 671B(真满血版本) 720GB safetensors(支持

AI之 模型仓库: model register 开源实现 modelx 2.0

基于kubegems/modelx实现开源模型仓库: modelx 2.0

基于kubegems/modelx实现开源模型仓库: modelx 2.0 一、为什么要自己设计模型仓库 目前 大模型 各个平台(例如: ollama、 huggingface hub、 modelscope) 基本

AI之 模型管理: huggingface 数据集/模型库 上传和下载

huggingface 数据集/模型库 上传和下载

huggingface 数据集/模型库 上传和下载 环境准备 云原生时代,golang为王; 而AI时代,Python为王。 需要安装Python相关的环境和libary包

AI之 (大)模型推理服务部署管理 - 模型版本、模型启动

ollama vs vllm vs SGLang

模型推理服务部署管理 - 模型版本、模型启动、openai接口标准提供 模型推理部署工具 模型部署,类似与docker可以方便的类似于docker run

TIPS之 Kubernetes 代码生成教程

Kubernetes 代码生成教程

Kubernetes 代码生成教程: code-generator 和 controller-tools 一、概念简介 1.1 code-generator k8s.io/client-go 提供了对k8s原生资源的informer和clientset等等,但对于自定义资源的操作则相对低效,

TIPS之 Kubernetes Pod 容器退出状态码

Kubernetes Pod 容器退出状态码

Kubernetes Etcd 启动失败问题排查 问题 大家在使用 Kubernetes 时,会遇到创建Pod失败,这时会分析什么原因导致创建Pod失败? Pod status 状态解释 [1] CrashLoopBack

技术方案之 Kubernetes大规模容器网络优化

Kubernetes大规模容器网络优化

技术方案之 Kubernetes大规模容器网络优化 背景 1.1 大规模集群特点 大业务:单模块超大规模副本(300+) 小业务:资源减少边际成本(平摊控制