首页> 新闻动态> 行业资讯> 百亿参数大模型推理服务器 CPU+GPU 搭配完整方案

百亿参数大模型推理服务器 CPU+GPU 搭配完整方案

作者：万物纵横

发布时间：2026-06-25 10:32

阅读量：

一、先分清 CPU 与 GPU 在 LLM 推理里的分工（决定配比底层逻辑）

GPU（核心算力 + 存储瓶颈）

1. 承载全部 Transformer 矩阵乘、Self-Attention、FFN 核心计算（速度是 CPU 几十～上百倍）

2. 显存存放：模型权重、KV Cache、激活值，显存容量是能否跑通、并发高低的第一约束

3. Prefill 阶段吃算力，Decode 阶段吃 HBM 显存带宽

原则：能全权重放进 GPU 显存就绝不依赖 CPU 卸载，卸载会带来几倍延迟暴跌

CPU（调度 / 预处理 / 兜底内存 / 辅助卸载）

1. Token 分词、请求解析、前后处理、API 调度、日志监控（占 CPU 负载 60%+）

2. 超大上下文、高并发场景：系统内存缓存 / 卸载 KV Cache，缓解显存 OOM

3. 模型层卸载：显存不足时把部分 LLM 层放内存，CPU 辅助计算（仅预算有限场景妥协）

4. RAG 配套向量库检索、知识库加载全靠 CPU 大内存

CPU 性能看三点：核心线程数、DDR5 内存带宽、总内存容量

负载占比参考（生产实测）

GPU：90%+ 计算负载；CPU：预处理 + 调度 + 内存 IO，空载 10%、高并发 70% 占用

二、黄金配比通用标准（单 GPU 基准，多卡线性扩展）

1）CPU 核数 : GPU 卡数

轻并发测试（并发≤10）：16 核 / 卡

标准生产 API（并发 10\80，通用对话）：**24\32 核 / 卡**

高并发长文本 / 128k 上下文 / RAG 混合：40~64 核 / 卡

8 卡整机（A100/H100）：双路铂金 Xeon 48\64 核整机，平均 6\8 核 / 卡

2）系统内存 RAM : GPU 总显存（最关键配比）

业务场景	RAM : 总显存	适用说明
纯 GPU 推理（权重全在显存，无卸载）	1.5:1 ~ 2:1	7B/13B/34B 低并发标准配置
高并发长上下文、KV Cache 内存卸载	3:1 ~ 4:1	70B/100B + 百亿模型、8k/32k 上下文
RAG+LLM 一体化部署	4:1 ~ 6:1	向量库、知识库常驻内存
预算有限，模型分层 CPU 卸载	≥8:1	不推荐线上，延迟极高

举例：单卡 A100 80GB 显存（总显存 80GB）

标准推理：内存 128~160GB

70B 高并发 32k 上下文：内存 256~320GB

3）内存硬件选型要点

必须 DDR5 4800/5600，多通道满插，提升内存带宽（卸载场景带宽直接决定延迟）

百亿 70B + 模型整机最低内存：256GB 起步，推荐 512GB

三、分模型规模（7B/13B/34B/70B/100B+）落地搭配方案

方案 1：7B~13B（十亿级，轻量百亿门槛，中小企业主力）

量化基准：INT4/FP8 单卡可放下权重

1. 性价比商用（A10 24GB / L40S 48GB）

GPU：单卡 A10 24GB

CPU：单路 Xeon 24 核 48 线程 / AMD EPYC 24 核

内存：128GB DDR5（显存 24GB，RAM:VRAM≈5:2）

适用：企业内部问答、客服机器人、并发≤30

2. 高吞吐生产（RTX6000 Ada 48GB / H20 96GB）

GPU：单卡 H20 96GB

CPU：双路 32 核 64 线程

内存：256GB

优势：32k 上下文，单卡稳定并发 80+

方案 2：30B~34B（中小百亿模型，高精度专业场景）

FP16 权重≈60\70GB，INT4≈16\18GB

1. 单卡高配方案（A100 80GB 单卡）

GPU：A100 80GB

CPU：双路 24 核 48 线程

内存：160\256GB（RAM:VRAM=2\3:1）

支持：8k 上下文，并发 20~40

2. 双卡并行方案（2×L40S 48GB）

CPU：双路 32 核 64 线程

内存：384GB

优势：成本低于 A100，多卡分摊 KV Cache，并发翻倍

方案 3：70B 级标准百亿大模型（主流商用旗舰）

FP16 权重≈140GB，INT4≈35GB；单卡放不下 FP16，分两种路线

路线 A：多卡张量并行（纯 GPU，零 CPU 卸载，低延迟首选）

推荐：4×A100 80GB / 2×H100 96GB

CPU：整机双路 48 核 96 线程

内存：512GB DDR5（总显存 320GB，RAM:VRAM≈1.6:1）

适用：ToC 在线对话、低延迟 API、32k 长文档

路线 B：单卡 + 内存 KV 卸载（低成本私有化，延迟可控）

GPU：A100 80GB 单卡（INT4 权重 35GB 放显存）

CPU：双路 32 核 64 线程

内存：384~512GB（超大内存缓存 KV Cache，避免多卡成本）

局限：并发上限 20，上下文≤16k，不适合高吞吐 C 端业务

方案 4：100B~150B 超大百亿模型（行业深度推理、私有底座）

FP16 权重 200GB+，必须多卡 TP/PP 并行

标准整机 8 卡机型：8×A100 80GB

CPU：双路铂金 Xeon 64 核 128 线程

内存：1TB DDR5（总显存 640GB，RAM:VRAM≈1.5:1）

配套：NVLink 高速互联、200G 网卡

场景：金融研报、法律卷宗、本地通用大底座

四、两类特殊场景特殊搭配规则

场景 1：RAG+LLM 一体化服务器（向量检索 + 大模型同机）

向量库极度吃 CPU 内存，配比大幅上浮：

RAM : GPU 总显存 ≥4:1

CPU 核数上浮 50%，增加内存带宽优先

例：单卡 A100 80GB，内存至少 320GB，CPU 双路 40 核起步

场景 2：预算有限，CPU 分层卸载方案（仅离线批量推理，禁止在线服务）

70B INT4 权重放 24GB GPU，剩余层卸载到内存

RAM : 显存 ≥8:1，CPU 必须双路高带宽 DDR5

缺陷：Decode 延迟 3~10 倍上升，并发极低，只适合离线文档批量总结

五、避坑核心原则（采购最容易踩错）

1. 优先堆显存，再堆 CPU / 内存

同样预算，升级 80GB A100 比多一倍 CPU 核数性能提升 10 倍以上；CPU 只是配套，GPU 才是推理瓶颈

2. 多卡服务器不要用单路 CPU

4 卡 / 8 卡机型必须双路 CPU，保证 PCIE 通道带宽，避免 GPU 数据传输拥堵

3. 不要用低频 DDR4 内存做 KV 卸载

内存带宽不足时，卸载 KV Cache 会出现严重 token 卡顿，必须 DDR5 满插多通道

4. 70B + 模型杜绝小内存整机

内存低于 256GB 跑 70B 高并发，极易出现频繁 swap、服务雪崩

5. Prefill/Decode 分离式推理硬件拆分

Prefill 计算卡：高算力 H100/H20，CPU 配比 32 核 / 卡

Decode 显存卡：大显存 A100 80GB，内存配比 4:1，侧重大容量内存缓存 KV

六、极简选型速查表（直接套用采购）

模型规模	推荐 GPU	CPU 配置	系统内存	定位
7B~13B	A10 24G / L40S 48G	单路 24 核	128GB	内部办公、小并发 API
34B	A100 80G 单卡	双路 24 核	160~256GB	专业行业私有化
70B 在线低延迟	4×A100 80G	双路 48 核	512GB	C 端对话、高吞吐服务
70B 低成本私有化	A100 80G 单卡	双路 32 核	384~512GB	离线 + 少量在线
100B + 底座	8×A100 80G	双路 64 核	1TB	企业级通用大模型集群

家具美容培训

家具维修培训

- END -

上一篇：从通用GPU到专用NPU：大模型推理服务器架构完整演变返回列表下一篇：瑞芯微RK3588到底是什么档次？参数、对标、场景全方位解析

百亿参数大模型推理服务器 CPU+GPU 搭配完整方案

需求留言: