Deepseek部署所需资源统计
模型型号 | 模型大小 | 格式 | 精度 | 上下文长度 | 最低显存需求 | 显卡要求 |
---|---|---|---|---|---|---|
DeepSeek-R1 671B(真满血版本) | 720GB | safetensors(支持分布式) | FP16 | 1024 | 1340GB显存 | 3台 * 8 * H100(80 GB) = 1920GB显存集群内存:总内存2TB |
DeepSeek-R1 671B(F8 E4M3复合精度) | 583GB | safetensors(支持分布式) | FP8 | 1024 | 680GB显存 | 3台 * A100 (40GB) * 8 = 960GB显存集群内存:总内存1TB |
DeepSeek-R1 671B 量化FP4.83 | 404GB | GGUF | FP4.83 | 256 | 420GB显存 | 1台 * A100 (80GB) * 8 = 640GB显存集群内存:总内存1TB |
DeepSeek-R1 671B 量化FP2.51 | 227GB | GGUF | FP2.51 | 256 | 232GB显存 | 1台 * A100 (40GB) * 8 = 320GB显存集群内存:总内存512TB |
DeepSeek-R1 671B 量化FP1.58 | 140GB | GGUF | FP1.58 | 256 | 157GB显存 | 1台 * A30 (24GB) * 8 = 192GB显存集群内存:总内存256TB |
DeepSeek R1 70B 千问蒸馏 | 152GB | safetensors(支持分布式) | BF16 | 1024 | 160GB显存 | 6台 * T4 (16GB) * 2 = 192GB显存集群内存:总内存256TB,每台集群不小于16GB |
PS: DeepSeek-R1 671B 真满血版: without distillation, 全精度(FP16或者FP32) 并且 1024 context上下问
部署方式
-
6台GPU机器 + 3master组成GPU集群
-
CPU节点初始化,升级驱动,GCC等:
-
下载模型: 包括安装python环境, 每台节点 DeepSeek R1 70B 千问蒸馏 缓存 : https://kubeservice.cn/2025/02/13/huggingface-cli-dataset-model-managerment/
-
部署模型:
- vllm 部署方式: https://github.com/vllm-project/vllm
- vllm online serving:
其他
「如果这篇文章对你有用,请随意打赏」
FEATURED TAGS
agent
apiserver
application
bandwidth-limit
cgo
cgroupfs
ci/cd
client-go
cloudnative
cncf
cni
community
container
container-network-interface
containerd
controller
coredns
crd
custom-controller
deployment
docker
docker-build
docker-image
drop
ebpf
ecology
egress
etcd
gitee
github
gitlab
golang
governance
gpu-device
hpa
http2
image
ingress
iptables
jobs
kata
kata-runtime
kernel
kind
kubelet
kubenetes
kubernetes
library
linux-os
logging
loki
metrics
monitor
namespace
network
network-troubleshooting
node
nodeport
nvidai
ollama
pingmesh
pod
prestop
prometheus
proxyless
pvc
rollingupdate
schedule
scheduler
serverless
sglang
sidecar
sigtrem
systemd
tensorrt-llm
throttling
timeout
tools
traceroute
vllm