RK1828 在 7B 模型端侧推理上,部分实测可达 80+ TPS,性能已追上甚至超越 RTX 3060/4060 等主流消费级显卡,但仍不及 RTX 4090 等高端显卡。

一、RK1828 7B 模型实测数据
RK1828 是瑞芯微推出的 M.2 接口 AI 协处理器,内置 5GB 3D 堆叠高带宽 DRAM(带宽达 1TB/s),专为端侧大模型推理设计。
官方 / 实测性能:
Qwen2.5-7B(W4A16 量化):52.37 TPS,TTFT 333.81ms。
DeepSeek-R1-Distill-7B:56 TPS,优于 Jetson Orin NX(14.5 TPS)。
车载 AI BOX 方案(RK1828+RK3576):7B 模型输出超 120 TPS,TTFT<100ms。
部分优化场景:80–100+ TPS(如特定量化、短上下文)。
二、主流显卡 7B 模型推理性能(参考)
测试模型以 Llama 2/Qwen 7B 为主,量化为 Q4_K_M/W4A16,上下文 128–2048:
显卡型号 | 显存 | 7B 模型 TPS | 功耗 |
RTX 4090 | 24GB | 100–140 TPS | 250–450W |
RTX 3090 | 24GB | 85–95 TPS | 350W |
RTX 4060 Ti 16GB | 16GB | 55–65 TPS | 160W |
RTX 3060 12GB | 12GB | 42–55 TPS | 170W |
Jetson Orin NX 16GB | 16GB | 14.5–25 TPS | 10–40W |
三、RK1828 与主流显卡对比分析
1. 性能定位:
中端显卡水平:RK1828(50–80+ TPS)性能持平 / 优于 RTX 3060/4060 Ti,接近 RTX 3090,低于 RTX 4090。
端侧领先:远超 Jetson Orin NX 等嵌入式方案,功耗仅10–20W,远低于显卡。
2. 核心优势:
存算一体:3D 堆叠 DRAM(5GB),带宽 1TB/s,解决 “内存墙”,7B 模型无需外挂显存。
低功耗 + 小体积:M.2 接口,被动散热,适合嵌入式 / 边缘设备(工业控制、智能座舱、机器人)。
专用 NPU 优化:针对 Transformer 算子硬件加速,首包延迟(TTFT)低至100ms 内,交互流畅。
3. 局限性:
上限低于高端显卡:无张量核,FP16/BF16 通用算力弱,无法媲美 RTX 4090。
生态较新:工具链(RKNN)优化不及 CUDA/TensorRT,部分模型需定制适配。
四、结论与适用场景
结论:RK1828 在 7B 模型端侧推理上,常规 50–60 TPS、优化 80+ TPS,性能追上主流消费级显卡(RTX 3060/4060),但不及 RTX 4090;在 端侧低功耗场景(10–20W) 具备显著优势。
适用场景:智能座舱、工业 AI、机器人、边缘服务器等需离线 / 低功耗 / 小体积部署 7B 模型的场景。
需求留言: