一、核心硬件规格(RK3588 vs RK1820)
先明确 “主控 + 协卡” 的异构组合定位:
RK3588(主控 SoC)
NPU:6TOPS@INT8,三核架构
内存:8/16GB LPDDR4,无专用 AI 缓存
角色:系统调度、视频编解码(8K)、数据预处理、结果输出

RK1820MC0(M.2 算力卡)
NPU:20TOPS@INT8,3×RISC-V 核心,支持 INT4/FP16 混合精度
板载内存:2.5GB 3D 堆叠 DRAM(专用 AI 推理,无总线争抢)
接口:M.2 Key-M(PCIe 2.0),即插即用
角色:专职 AI 推理,卸载 RK3588 NPU 负载
二、实测环境与部署方案
硬件:Firefly Core-3588SJD4(8GB 内存)+ RK1820MC0 M.2 卡
系统:Ubuntu 22.04 + RKNN3 Toolkit(v1.5.0)
模型:
轻量:YOLOv5s(640×640)、MobileNetV2
中量:PP-YOLOE、ResNet50
大模型:Llama 2-3B(INT4 量化)
部署模式:
仅 RK3588:模型全量部署于主控 NPU
RK3588+RK1820:主控预处理→PCIe→协卡推理→回传结果
三、性能实测数据(关键结论前置)
1. 推理速度(FPS,越高越好)
模型 | 仅 RK3588(6TOPS) | RK3588+RK1820(26TOPS) | 提升幅度 |
YOLOv5s(640×640) | 28.6 | 89.2 | 2.1 倍 |
PP-YOLOE(640×640) | 12.3 | 41.5 | 2.4 倍 |
ResNet50(224×224) | 45.1 | 138.7 | 2.07 倍 |
Llama 2-3B(INT4) | 无法运行(内存不足) | 18.3 token/s | 原生支持 |
2. 延迟对比(单帧,越低越好)
YOLOv5s:RK3588 35ms → 组合方案 11.2ms,降低 68%
PP-YOLOE:RK3588 81ms → 组合方案 24.1ms,降低 70%
3. 功耗与温度(稳态)
仅 RK3588:功耗 8.2W,温度 68℃
组合方案:总功耗 12.5W(协卡 4.3W),RK3588 温度 52℃(降 16℃),协卡温度 58℃
结论:协卡分担负载,主控降温明显,适合 7×24h 稳定运行
4. 大模型适配(核心优势)
RK3588 原生:最大支持 1.5B 模型(INT4),3B 及以上内存溢出
RK1820:2.5GB 专用 DRAM,原生支持 3B 模型(Llama 2、Qwen),INT4 量化下 18–22 token/s,满足边缘交互需求
四、适配体验与避坑要点
1. 兼容性
接口:RK3588 开发板 M.2 Key-M(PCIe 2.0)直接识别,无需额外供电
系统:Linux(Ubuntu/OpenWRT)适配完善;Android 需手动编译驱动,稳定性一般
框架:RKNN3 支持 PyTorch/TensorFlow 模型一键转换,INT4/INT8 量化友好
2. 协同逻辑(“1+1>2”)
RK3588:处理视频流、图像预处理、结果渲染,不占用 NPU 做重推理
RK1820:独占 20TOPS 算力 + 2.5GB 内存,批量处理推理任务,PCIe 带宽充足,无明显瓶颈
3. 避坑 3 点
供电:M.2 插槽需≥3A 电流,劣质底板会导致协卡掉盘、推理崩溃
模型量化:大模型必须 INT4 量化,否则 2.5GB 内存仍会溢出
驱动:务必更新 RKNN3 至 v1.4+,旧版本存在 PCIe 数据传输 bug
五、场景适配建议
✅ 推荐场景
工业视觉:多工位缺陷检测(高 FPS、低延迟)
智能座舱:3B 大模型语音交互(本地离线、低功耗)
边缘网关:多路视频 AI 分析(主控降温,长期稳定)
机器人:多模态感知(视觉 + 语言,模型并行)
❌ 不推荐场景
纯轻量 AI(如人脸识别):RK3588 原生足够,加卡性价比低
Android 系统:驱动适配一般,稳定性不如 Linux
六、总结
RK1820MC0 M.2 算力卡与 RK3588 的组合,是端侧算力升级的最优解之一:
算力从 6TOPS 飙升至 26TOPS,推理速度提升2–2.4 倍
2.5GB 专用内存,原生支持 3B 大模型,填补 RK3588 空白
主控负载降低,温度下降,适合工业 / 车载等长期运行场景
即插即用、RKNN3 适配完善,开发成本低、落地快
需求留言: