Kubeservice博客

是非审之于己,毁誉听之于人,得失安之于数

AI之 模型仓库: model register 开源实现 modelx 2.0

基于kubegems/modelx实现开源模型仓库: modelx 2.0

基于kubegems/modelx实现开源模型仓库: modelx 2.0 一、为什么要自己设计模型仓库 目前 大模型 各个平台(例如: ollama、 huggingface hub、 modelscope) 基本

AI之 模型管理: huggingface 数据集/模型库 上传和下载

huggingface 数据集/模型库 上传和下载

huggingface 数据集/模型库 上传和下载 环境准备 云原生时代,golang为王; 而AI时代,Python为王。 需要安装Python相关的环境和libary包

AI之 (大)模型推理服务部署管理 - 模型版本、模型启动

ollama vs vllm vs SGLang

模型推理服务部署管理 - 模型版本、模型启动、openai接口标准提供 模型推理部署工具 模型部署,类似与docker可以方便的类似于docker run

TIPS之 Kubernetes 代码生成教程

Kubernetes 代码生成教程

Kubernetes 代码生成教程: code-generator 和 controller-tools 一、概念简介 1.1 code-generator k8s.io/client-go 提供了对k8s原生资源的informer和clientset等等,但对于自定义资源的操作则相对低效,

TIPS之 Kubernetes Pod 容器退出状态码

Kubernetes Pod 容器退出状态码

Kubernetes Etcd 启动失败问题排查 问题 大家在使用 Kubernetes 时,会遇到创建Pod失败,这时会分析什么原因导致创建Pod失败? Pod status 状态解释 [1] CrashLoopBack

技术方案之 Kubernetes大规模容器网络优化

Kubernetes大规模容器网络优化

技术方案之 Kubernetes大规模容器网络优化 背景 1.1 大规模集群特点 大业务:单模块超大规模副本(300+) 小业务:资源减少边际成本(平摊控制

AI之 NVIDAI GPU节点驱动安装和问题排除

NVIDAI GPU节点驱动安装和问题排除

NVIDAI GPU节点驱动安装和问题排除 前置要求 CentOS Linux release 7.9.2009 (Core) Kernel 5.4.x Kubernetes >= 1.10 GCC 版本 >= 9.3.1 NVIDAI device >= 384.81 Runtime 支持 nvidia-container-toolkit >= 1.7.0 cuda版本与 NVIDAI device 匹配 GPU Node 更新步骤 第一步. 出现GPU

TIPS之 Kubernetes etcd 高可用实现方式

Kubernetes etcd 高可用实现方式

Kubernetes etcd 高可用实现方式 一. 继承上一章节 单集群etcd性能调优 超大规模Kubernetes集群调优 1.1 现象和挑战 现象1: 全量数据range问题:et