一、硬件算力基准(INT8)
RK3588 内置 NPU:6 TOPS,板载 LPDDR 内存,带宽约几十 GB/s
RK1828 M.2 协处理器:20 TOPS,内置 5GB 3D 堆叠 DRAM,带宽数百 GB/s,PCIe3.0 直连 RK3588
总算力叠加:6+20=26 TOPS,纯算力数值提升 333%
重点:算力数值提升 ≠ 实际推理提速倍数,提速分两大场景(大模型 LLM/VLM/ 传统 CNN 视觉检测),差异极大。
二、场景 1:大语言 / 多模态模型(3B~7B LLM/VLM,RK1828 核心优势场景)
RK3588 原生跑 3B/7B 大模型存在内存墙、带宽瓶颈,原生 NPU 受限于 SoC 内存带宽,无法发挥 6TOPS 全部实力;RK1828 自带独立 5GB 高速堆叠内存,大模型可完全载入协处理器,几乎无 PCIe 数据交换损耗。
实测提速区间(RKNN3 SDK 标准测试)
1. 3B 轻量化大模型(Qwen2.5-3B)
仅 RK3588:TPS≈22~30 token/s,TTFT>250ms
RK3588+RK1828 M.2:TPS≈95~100 token/s
推理速度提升 220%~350%,延迟降低 65%+
2. 7B 中等参数量模型(Qwen2.5-7B)
仅 RK3588:无法完整加载,分页交换 TPS 仅 5~12 token/s,卡顿严重
RK3588+RK1828 M.2:TPS≈65~75 token/s,流畅交互
推理速度提升 500%~1200%,原生 RK3588 基本无法稳定跑 7B,加装后直接可用
3. 多模态 VLM(Qwen-VL 3B/4B)
视觉编码放 RK3588 VPU,LLM 推理全部丢 RK1828,整体端到端速度提升 180%~280%,多路图片并发吞吐提升 3 倍左右
三、场景 2:传统 CNN 视觉模型(YOLOv5/ResNet/ 缺陷检测)
RK1828 架构专为 Transformer 大模型优化,对轻量化 CNN 无加速增益,实测结论:
1. 单路、低分辨率 YOLOv5s(640×640)
只用 RK3588 NPU:27~29ms / 帧;
加装 RK1828 M.2:30~32ms / 帧;
速度几乎无提升,甚至轻微变慢(PCIe 数据搬运开销)
2. 多路并发视觉(8 路 / 16 路摄像头批量检测)
RK3588 本地 NPU 满载后,可分流部分推理任务到 RK1828,整体吞吐提升 40%~70%;单路实时检测无收益,多并发场景才有提升。
四、关键影响提速幅度的 4 个因素
1. 模型类型:LLM/VLM 提升最大(2~10 倍);单路 CNN 几乎无提升;多路视觉并发小幅提升。
2. 模型参数量:7B>3B>1B,模型越大,原生 RK3588 内存瓶颈越严重,加装后提升越夸张。
3. 部署调度方式
全部推理丢 RK1828:提速最大化;
模型拆分双 NPU 并行:受 PCIe 调度限制,提速仅 1.5~2 倍;
只跑轻量 CNN 在 RK3588:无收益。
4. M.2 接口速率:必须使用 RK3588 主板 PCIe3.0×2 通道,通道不足会压缩 RK1828 带宽,提速缩水 30% 以上。
五、极简总结
1. 跑 3B/7B 大语言、多模态模型:加装 RK1828 M.2,推理速度提升 2~10 倍,解决 RK3588 原生算力 / 内存不足痛点;
2. 单路 YOLO、图像分类等传统视觉:几乎无加速效果,没必要加装;
3. 多路摄像头批量视觉检测:整机吞吐提升约 50%;
4. 纯峰值算力账面提升 333%,但受内存架构、模型架构限制,实际落地提速以模型类型为准。
需求留言: