华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
软件算法咨询:18982151213(刘先生)

联系我们
产品咨询

百亿参数大模型推理服务器 CPU+GPU 搭配完整方案

作者:万物纵横
发布时间:2026-06-25 10:32
阅读量:

一、先分清 CPU 与 GPU 在 LLM 推理里的分工(决定配比底层逻辑)


GPU(核心算力 + 存储瓶颈)


1. 承载全部 Transformer 矩阵乘、Self-Attention、FFN 核心计算(速度是 CPU 几十~上百倍)


2. 显存存放:模型权重、KV Cache、激活值,显存容量是能否跑通、并发高低的第一约束


3. Prefill 阶段吃算力,Decode 阶段吃 HBM 显存带宽


原则:能全权重放进 GPU 显存就绝不依赖 CPU 卸载,卸载会带来几倍延迟暴跌


CPU(调度 / 预处理 / 兜底内存 / 辅助卸载)


1. Token 分词、请求解析、前后处理、API 调度、日志监控(占 CPU 负载 60%+)


2. 超大上下文、高并发场景:系统内存缓存 / 卸载 KV Cache,缓解显存 OOM


3. 模型层卸载:显存不足时把部分 LLM 层放内存,CPU 辅助计算(仅预算有限场景妥协)


4. RAG 配套向量库检索、知识库加载全靠 CPU 大内存


CPU 性能看三点:核心线程数、DDR5 内存带宽、总内存容量


负载占比参考(生产实测)


GPU:90%+ 计算负载;CPU:预处理 + 调度 + 内存 IO,空载 10%、高并发 70% 占用


二、黄金配比通用标准(单 GPU 基准,多卡线性扩展)


1)CPU 核数 : GPU 卡数


轻并发测试(并发≤10):16 核 / 卡


标准生产 API(并发 10\80,通用对话):**24\32 核 / 卡**


高并发长文本 / 128k 上下文 / RAG 混合:40~64 核 / 卡


8 卡整机(A100/H100):双路铂金 Xeon 48\64 核整机,平均 6\8 核 / 卡


2)系统内存 RAM : GPU 总显存(最关键配比)


业务场景

RAM : 总显存

适用说明

GPU 推理(权重全在显存,无卸载)

1.5:1 ~ 2:1

7B/13B/34B 低并发标准配置

高并发长上下文、KV Cache 内存卸载

3:1 ~ 4:1

70B/100B + 百亿模型、8k/32k 上下文

RAG+LLM 一体化部署

4:1 ~ 6:1

向量库、知识库常驻内存

预算有限,模型分层 CPU 卸载

≥8:1

不推荐线上,延迟极高


举例:单卡 A100 80GB 显存(总显存 80GB)


标准推理:内存 128~160GB


70B 高并发 32k 上下文:内存 256~320GB


3)内存硬件选型要点


必须 DDR5 4800/5600,多通道满插,提升内存带宽(卸载场景带宽直接决定延迟)


百亿 70B + 模型整机最低内存:256GB 起步,推荐 512GB


三、分模型规模(7B/13B/34B/70B/100B+)落地搭配方案


方案 1:7B~13B(十亿级,轻量百亿门槛,中小企业主力)


量化基准:INT4/FP8 单卡可放下权重


1. 性价比商用(A10 24GB / L40S 48GB)


GPU:单卡 A10 24GB


CPU:单路 Xeon 24 核 48 线程 / AMD EPYC 24 核


内存:128GB DDR5(显存 24GB,RAM:VRAM≈5:2)


适用:企业内部问答、客服机器人、并发≤30


2. 高吞吐生产(RTX6000 Ada 48GB / H20 96GB)


GPU:单卡 H20 96GB


CPU:双路 32 核 64 线程


内存:256GB


优势:32k 上下文,单卡稳定并发 80+


方案 2:30B~34B(中小百亿模型,高精度专业场景)


FP16 权重≈60\70GB,INT4≈16\18GB


1. 单卡高配方案(A100 80GB 单卡)


GPU:A100 80GB


CPU:双路 24 核 48 线程


内存:160\256GB(RAM:VRAM=2\3:1)


支持:8k 上下文,并发 20~40


2. 双卡并行方案(2×L40S 48GB)


CPU:双路 32 核 64 线程


内存:384GB


优势:成本低于 A100,多卡分摊 KV Cache,并发翻倍


方案 3:70B 级标准百亿大模型(主流商用旗舰)


FP16 权重≈140GB,INT4≈35GB;单卡放不下 FP16,分两种路线


路线 A:多卡张量并行(纯 GPU,零 CPU 卸载,低延迟首选)


推荐:4×A100 80GB / 2×H100 96GB


CPU:整机双路 48 核 96 线程


内存:512GB DDR5(总显存 320GB,RAM:VRAM≈1.6:1)


适用:ToC 在线对话、低延迟 API、32k 长文档


路线 B:单卡 + 内存 KV 卸载(低成本私有化,延迟可控)


GPU:A100 80GB 单卡(INT4 权重 35GB 放显存)


CPU:双路 32 核 64 线程


内存:384~512GB(超大内存缓存 KV Cache,避免多卡成本)


局限:并发上限 20,上下文≤16k,不适合高吞吐 C 端业务


方案 4:100B~150B 超大百亿模型(行业深度推理、私有底座)


FP16 权重 200GB+,必须多卡 TP/PP 并行


标准整机 8 卡机型:8×A100 80GB


CPU:双路铂金 Xeon 64 核 128 线程


内存:1TB DDR5(总显存 640GB,RAM:VRAM≈1.5:1)


配套:NVLink 高速互联、200G 网卡


场景:金融研报、法律卷宗、本地通用大底座


四、两类特殊场景特殊搭配规则


场景 1:RAG+LLM 一体化服务器(向量检索 + 大模型同机)


向量库极度吃 CPU 内存,配比大幅上浮:


RAM : GPU 总显存 ≥4:1


CPU 核数上浮 50%,增加内存带宽优先


例:单卡 A100 80GB,内存至少 320GB,CPU 双路 40 核起步


场景 2:预算有限,CPU 分层卸载方案(仅离线批量推理,禁止在线服务)


70B INT4 权重放 24GB GPU,剩余层卸载到内存


RAM : 显存 ≥8:1,CPU 必须双路高带宽 DDR5


缺陷:Decode 延迟 3~10 倍上升,并发极低,只适合离线文档批量总结


五、避坑核心原则(采购最容易踩错)


1. 优先堆显存,再堆 CPU / 内存


同样预算,升级 80GB A100 比多一倍 CPU 核数性能提升 10 倍以上;CPU 只是配套,GPU 才是推理瓶颈


2. 多卡服务器不要用单路 CPU


4 卡 / 8 卡机型必须双路 CPU,保证 PCIE 通道带宽,避免 GPU 数据传输拥堵


3. 不要用低频 DDR4 内存做 KV 卸载


内存带宽不足时,卸载 KV Cache 会出现严重 token 卡顿,必须 DDR5 满插多通道


4. 70B + 模型杜绝小内存整机


内存低于 256GB 跑 70B 高并发,极易出现频繁 swap、服务雪崩


5. Prefill/Decode 分离式推理硬件拆分


Prefill 计算卡:高算力 H100/H20,CPU 配比 32 核 / 卡


Decode 显存卡:大显存 A100 80GB,内存配比 4:1,侧重大容量内存缓存 KV


六、极简选型速查表(直接套用采购)


模型规模

推荐 GPU

CPU 配置

系统内存

定位

7B~13B

A10 24G / L40S 48G

单路 24

128GB

内部办公、小并发 API

34B

A100 80G 单卡

双路 24

160~256GB

专业行业私有化

70B 在线低延迟

4×A100 80G

双路 48

512GB

C 端对话、高吞吐服务

70B 低成本私有化

A100 80G 单卡

双路 32

384~512GB

离线 + 少量在线

100B + 底座

8×A100 80G

双路 64

1TB

企业级通用大模型集群


家具美容培训

家具维修培训

- END -
分享:
留言 留言 试用申请
产品咨询 产品咨询 硬件设备咨询
华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
技术咨询 技术咨询 软件算法咨询
18982151213(刘先生)
微信在线客服 微信在线客服 在线客服
返回官网顶部 返回官网顶部 回到顶部
关闭窗口
产品订购
  • *

  • *

  • *

  • *

  • *