一、先分清 CPU 与 GPU 在 LLM 推理里的分工(决定配比底层逻辑)
GPU(核心算力 + 存储瓶颈)
1. 承载全部 Transformer 矩阵乘、Self-Attention、FFN 核心计算(速度是 CPU 几十~上百倍)
2. 显存存放:模型权重、KV Cache、激活值,显存容量是能否跑通、并发高低的第一约束
3. Prefill 阶段吃算力,Decode 阶段吃 HBM 显存带宽
原则:能全权重放进 GPU 显存就绝不依赖 CPU 卸载,卸载会带来几倍延迟暴跌
CPU(调度 / 预处理 / 兜底内存 / 辅助卸载)
1. Token 分词、请求解析、前后处理、API 调度、日志监控(占 CPU 负载 60%+)
2. 超大上下文、高并发场景:系统内存缓存 / 卸载 KV Cache,缓解显存 OOM
3. 模型层卸载:显存不足时把部分 LLM 层放内存,CPU 辅助计算(仅预算有限场景妥协)
4. RAG 配套向量库检索、知识库加载全靠 CPU 大内存
CPU 性能看三点:核心线程数、DDR5 内存带宽、总内存容量
负载占比参考(生产实测)
GPU:90%+ 计算负载;CPU:预处理 + 调度 + 内存 IO,空载 10%、高并发 70% 占用
二、黄金配比通用标准(单 GPU 基准,多卡线性扩展)
1)CPU 核数 : GPU 卡数
轻并发测试(并发≤10):16 核 / 卡
标准生产 API(并发 10\80,通用对话):**24\32 核 / 卡**
高并发长文本 / 128k 上下文 / RAG 混合:40~64 核 / 卡
8 卡整机(A100/H100):双路铂金 Xeon 48\64 核整机,平均 6\8 核 / 卡
2)系统内存 RAM : GPU 总显存(最关键配比)
业务场景 | RAM : 总显存 | 适用说明 |
纯 GPU 推理(权重全在显存,无卸载) | 1.5:1 ~ 2:1 | 7B/13B/34B 低并发标准配置 |
高并发长上下文、KV Cache 内存卸载 | 3:1 ~ 4:1 | 70B/100B + 百亿模型、8k/32k 上下文 |
RAG+LLM 一体化部署 | 4:1 ~ 6:1 | 向量库、知识库常驻内存 |
预算有限,模型分层 CPU 卸载 | ≥8:1 | 不推荐线上,延迟极高 |
举例:单卡 A100 80GB 显存(总显存 80GB)
标准推理:内存 128~160GB
70B 高并发 32k 上下文:内存 256~320GB
3)内存硬件选型要点
必须 DDR5 4800/5600,多通道满插,提升内存带宽(卸载场景带宽直接决定延迟)
百亿 70B + 模型整机最低内存:256GB 起步,推荐 512GB
三、分模型规模(7B/13B/34B/70B/100B+)落地搭配方案
方案 1:7B~13B(十亿级,轻量百亿门槛,中小企业主力)
量化基准:INT4/FP8 单卡可放下权重
1. 性价比商用(A10 24GB / L40S 48GB)
GPU:单卡 A10 24GB
CPU:单路 Xeon 24 核 48 线程 / AMD EPYC 24 核
内存:128GB DDR5(显存 24GB,RAM:VRAM≈5:2)
适用:企业内部问答、客服机器人、并发≤30
2. 高吞吐生产(RTX6000 Ada 48GB / H20 96GB)
GPU:单卡 H20 96GB
CPU:双路 32 核 64 线程
内存:256GB
优势:32k 上下文,单卡稳定并发 80+
方案 2:30B~34B(中小百亿模型,高精度专业场景)
FP16 权重≈60\70GB,INT4≈16\18GB
1. 单卡高配方案(A100 80GB 单卡)
GPU:A100 80GB
CPU:双路 24 核 48 线程
内存:160\256GB(RAM:VRAM=2\3:1)
支持:8k 上下文,并发 20~40
2. 双卡并行方案(2×L40S 48GB)
CPU:双路 32 核 64 线程
内存:384GB
优势:成本低于 A100,多卡分摊 KV Cache,并发翻倍
方案 3:70B 级标准百亿大模型(主流商用旗舰)
FP16 权重≈140GB,INT4≈35GB;单卡放不下 FP16,分两种路线
路线 A:多卡张量并行(纯 GPU,零 CPU 卸载,低延迟首选)
推荐:4×A100 80GB / 2×H100 96GB
CPU:整机双路 48 核 96 线程
内存:512GB DDR5(总显存 320GB,RAM:VRAM≈1.6:1)
适用:ToC 在线对话、低延迟 API、32k 长文档
路线 B:单卡 + 内存 KV 卸载(低成本私有化,延迟可控)
GPU:A100 80GB 单卡(INT4 权重 35GB 放显存)
CPU:双路 32 核 64 线程
内存:384~512GB(超大内存缓存 KV Cache,避免多卡成本)
局限:并发上限 20,上下文≤16k,不适合高吞吐 C 端业务
方案 4:100B~150B 超大百亿模型(行业深度推理、私有底座)
FP16 权重 200GB+,必须多卡 TP/PP 并行
标准整机 8 卡机型:8×A100 80GB
CPU:双路铂金 Xeon 64 核 128 线程
内存:1TB DDR5(总显存 640GB,RAM:VRAM≈1.5:1)
配套:NVLink 高速互联、200G 网卡
场景:金融研报、法律卷宗、本地通用大底座
四、两类特殊场景特殊搭配规则
场景 1:RAG+LLM 一体化服务器(向量检索 + 大模型同机)
向量库极度吃 CPU 内存,配比大幅上浮:
RAM : GPU 总显存 ≥4:1
CPU 核数上浮 50%,增加内存带宽优先
例:单卡 A100 80GB,内存至少 320GB,CPU 双路 40 核起步
场景 2:预算有限,CPU 分层卸载方案(仅离线批量推理,禁止在线服务)
70B INT4 权重放 24GB GPU,剩余层卸载到内存
RAM : 显存 ≥8:1,CPU 必须双路高带宽 DDR5
缺陷:Decode 延迟 3~10 倍上升,并发极低,只适合离线文档批量总结
五、避坑核心原则(采购最容易踩错)
1. 优先堆显存,再堆 CPU / 内存
同样预算,升级 80GB A100 比多一倍 CPU 核数性能提升 10 倍以上;CPU 只是配套,GPU 才是推理瓶颈
2. 多卡服务器不要用单路 CPU
4 卡 / 8 卡机型必须双路 CPU,保证 PCIE 通道带宽,避免 GPU 数据传输拥堵
3. 不要用低频 DDR4 内存做 KV 卸载
内存带宽不足时,卸载 KV Cache 会出现严重 token 卡顿,必须 DDR5 满插多通道
4. 70B + 模型杜绝小内存整机
内存低于 256GB 跑 70B 高并发,极易出现频繁 swap、服务雪崩
5. Prefill/Decode 分离式推理硬件拆分
Prefill 计算卡:高算力 H100/H20,CPU 配比 32 核 / 卡
Decode 显存卡:大显存 A100 80GB,内存配比 4:1,侧重大容量内存缓存 KV
六、极简选型速查表(直接套用采购)
模型规模 | 推荐 GPU | CPU 配置 | 系统内存 | 定位 |
7B~13B | A10 24G / L40S 48G | 单路 24 核 | 128GB | 内部办公、小并发 API |
34B | A100 80G 单卡 | 双路 24 核 | 160~256GB | 专业行业私有化 |
70B 在线低延迟 | 4×A100 80G | 双路 48 核 | 512GB | C 端对话、高吞吐服务 |
70B 低成本私有化 | A100 80G 单卡 | 双路 32 核 | 384~512GB | 离线 + 少量在线 |
100B + 底座 | 8×A100 80G | 双路 64 核 | 1TB | 企业级通用大模型集群 |
需求留言: