RK3588 算力不够，加装 RK1828 M.2 模块提升多少推理速度？

Question

Accepted Answer

一、硬件算力基准（INT8）

RK3588 内置 NPU：6 TOPS，板载 LPDDR 内存，带宽约几十 GB/s

RK1828 M.2 协处理器：20 TOPS，内置 5GB 3D 堆叠 DRAM，带宽数百 GB/s，PCIe3.0 直连 RK3588

总算力叠加：6+20=26 TOPS，纯算力数值提升 333%

重点：算力数值提升 ≠ 实际推理提速倍数，提速分两大场景（大模型 LLM/VLM/ 传统 CNN 视觉检测），差异极大。

二、场景 1：大语言 / 多模态模型（3B~7B LLM/VLM，RK1828 核心优势场景）

RK3588 原生跑 3B/7B 大模型存在内存墙、带宽瓶颈，原生 NPU 受限于 SoC 内存带宽，无法发挥 6TOPS 全部实力；RK1828 自带独立 5GB 高速堆叠内存，大模型可完全载入协处理器，几乎无 PCIe 数据交换损耗。

实测提速区间（RKNN3 SDK 标准测试）

1. 3B 轻量化大模型（Qwen2.5-3B）

仅 RK3588：TPS≈22~30 token/s，TTFT>250ms

RK3588+RK1828 M.2：TPS≈95~100 token/s

推理速度提升 220%~350%，延迟降低 65%+

2. 7B 中等参数量模型（Qwen2.5-7B）

仅 RK3588：无法完整加载，分页交换 TPS 仅 5~12 token/s，卡顿严重

RK3588+RK1828 M.2：TPS≈65~75 token/s，流畅交互

推理速度提升 500%~1200%，原生 RK3588 基本无法稳定跑 7B，加装后直接可用

3. 多模态 VLM（Qwen-VL 3B/4B）

视觉编码放 RK3588 VPU，LLM 推理全部丢 RK1828，整体端到端速度提升 180%~280%，多路图片并发吞吐提升 3 倍左右

三、场景 2：传统 CNN 视觉模型（YOLOv5/ResNet/ 缺陷检测）

RK1828 架构专为 Transformer 大模型优化，对轻量化 CNN 无加速增益，实测结论：

1. 单路、低分辨率 YOLOv5s（640×640）

只用 RK3588 NPU：27~29ms / 帧；

加装 RK1828 M.2：30~32ms / 帧；

速度几乎无提升，甚至轻微变慢（PCIe 数据搬运开销）

2. 多路并发视觉（8 路 / 16 路摄像头批量检测）

RK3588 本地 NPU 满载后，可分流部分推理任务到 RK1828，整体吞吐提升 40%~70%；单路实时检测无收益，多并发场景才有提升。

四、关键影响提速幅度的 4 个因素

1. 模型类型：LLM/VLM 提升最大（2~10 倍）；单路 CNN 几乎无提升；多路视觉并发小幅提升。

2. 模型参数量：7B>3B>1B，模型越大，原生 RK3588 内存瓶颈越严重，加装后提升越夸张。

3. 部署调度方式

全部推理丢 RK1828：提速最大化；

模型拆分双 NPU 并行：受 PCIe 调度限制，提速仅 1.5~2 倍；

只跑轻量 CNN 在 RK3588：无收益。

4. M.2 接口速率：必须使用 RK3588 主板 PCIe3.0×2 通道，通道不足会压缩 RK1828 带宽，提速缩水 30% 以上。

五、极简总结

1. 跑 3B/7B 大语言、多模态模型：加装 RK1828 M.2，推理速度提升 2~10 倍，解决 RK3588 原生算力 / 内存不足痛点；

2. 单路 YOLO、图像分类等传统视觉：几乎无加速效果，没必要加装；

3. 多路摄像头批量视觉检测：整机吞吐提升约 50%；

4. 纯峰值算力账面提升 333%，但受内存架构、模型架构限制，实际落地提速以模型类型为准。