华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
软件算法咨询:18982151213(刘先生)

联系我们
产品咨询

瑞芯微RK1828 与 RTX 3060/4060:7B 模型端侧推理对比分析

作者:万物纵横
发布时间:2026-05-08 10:02
阅读量:

RK1828 在 7B 模型端侧推理上,部分实测可达 80+ TPS,性能已追上甚至超越 RTX 3060/4060 等主流消费级显卡,但仍不及 RTX 4090 等高端显卡。


瑞芯微RK1828 与 RTX 3060/4060:7B 模型端侧推理对比分析(图1)


一、RK1828 7B 模型实测数据


RK1828 是瑞芯微推出的 M.2 接口 AI 协处理器,内置 5GB 3D 堆叠高带宽 DRAM(带宽达 1TB/s),专为端侧大模型推理设计。


官方 / 实测性能:


Qwen2.5-7B(W4A16 量化):52.37 TPS,TTFT 333.81ms。


DeepSeek-R1-Distill-7B:56 TPS,优于 Jetson Orin NX(14.5 TPS)。


车载 AI BOX 方案(RK1828+RK3576):7B 模型输出超 120 TPS,TTFT<100ms。


部分优化场景:80–100+ TPS(如特定量化、短上下文)。


二、主流显卡 7B 模型推理性能(参考)


测试模型以 Llama 2/Qwen 7B 为主,量化为 Q4_K_M/W4A16,上下文 128–2048:


显卡型号

显存

7B 模型 TPS

功耗

RTX 4090

24GB

100–140 TPS

250–450W

RTX 3090

24GB

85–95 TPS

350W

RTX 4060 Ti 16GB

16GB

55–65 TPS

160W

RTX 3060 12GB

12GB

42–55 TPS

170W

Jetson Orin NX 16GB

16GB

14.5–25 TPS

10–40W


三、RK1828 与主流显卡对比分析


1. 性能定位:


中端显卡水平:RK1828(50–80+ TPS)性能持平 / 优于 RTX 3060/4060 Ti,接近 RTX 3090,低于 RTX 4090。


端侧领先:远超 Jetson Orin NX 等嵌入式方案,功耗仅10–20W,远低于显卡。


2. 核心优势:


存算一体:3D 堆叠 DRAM(5GB),带宽 1TB/s,解决 “内存墙”,7B 模型无需外挂显存。


低功耗 + 小体积:M.2 接口,被动散热,适合嵌入式 / 边缘设备(工业控制、智能座舱、机器人)。


专用 NPU 优化:针对 Transformer 算子硬件加速,首包延迟(TTFT)低至100ms 内,交互流畅。


3. 局限性:


上限低于高端显卡:无张量核,FP16/BF16 通用算力弱,无法媲美 RTX 4090。


生态较新:工具链(RKNN)优化不及 CUDA/TensorRT,部分模型需定制适配。


四、结论与适用场景


结论:RK1828 在 7B 模型端侧推理上,常规 50–60 TPS、优化 80+ TPS,性能追上主流消费级显卡(RTX 3060/4060),但不及 RTX 4090;在  端侧低功耗场景(10–20W) 具备显著优势。


适用场景:智能座舱、工业 AI、机器人、边缘服务器等需离线 / 低功耗 / 小体积部署 7B 模型的场景。

- END -
分享:
留言 留言 试用申请
产品咨询 产品咨询 硬件设备咨询
华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
技术咨询 技术咨询 软件算法咨询
18982151213(刘先生)
微信在线客服 微信在线客服 在线客服
返回官网顶部 返回官网顶部 回到顶部
关闭窗口
产品订购
  • *

  • *

  • *

  • *

  • *