瑞芯微 RK1828 是国产 M.2 接口 AI 算力卡,主打端侧大模型推理,实测在 7B 大模型场景性能接近甚至部分指标优于进口方案,且成本更低,但在传统 CNN 视觉任务上无明显优势。

一、核心硬件规格
型号定位:RK1828(5GB 片上 DRAM,支持 7B 模型);RK1820(2.5GB,支持 3B 模型)。
算力:NPU 峰值 20TOPS(INT8),支持 INT4/FP8/FP16 等混合精度。
架构:3 颗 64 位 RISC-V 核心 + 专用 NPU,3D 堆叠 DRAM,带宽达数百 GB/s。
接口:M.2 2280,PCIe 2.0/USB 3.0,适配 RK3588 等主控。
制程 / 供应链:国产工艺,成本比 NVIDIA Jetson Orin Nano 低约 30%。
二、实测性能(2025-2026)
1. 大语言模型(LLM)推理
Qwen2.5-7B:70.27 tokens/s(输入 128token,生成 128token)。
Llama 2-7B:约 60–80 tokens/s,首包延迟(TTFT)低。
3B 模型(Qwen2.5-3B):100–180 tokens/s,实时对话流畅。
2. 视觉语言模型(VLM)
FastBVLM/InternalVL3:59–150 tokens/s,支持实时图文对话 / 描述。
3. 传统视觉模型(CNN)
YOLOv5s/ResNet50:与 RK3588 自带 6TOPS NPU 相比,无性能提升,架构不优化 CNN。
三、碾压进口方案?优势与局限
优势
1. 大模型推理强:7B 模型吞吐接近 Jetson Orin Nano,延迟更低。
2. 带宽 / 能效优:3D 堆叠 DRAM 消除带宽瓶颈,功耗更低(约 10–15W)。
3. 成本低:M.2 形态即插即用,旧设备(如 RK3588 开发板)升级成本降 50%+。
4. 国产化:供应链自主,适配国产 AI 框架(如 RKNPU2)。
局限
1. CNN 任务弱:不适合 YOLO/ResNet 等传统视觉任务。
2. 生态待完善:对比 PyTorch/TensorFlow 进口方案,部署工具链成熟度不足。
3. 多卡扩展有限:支持多卡叠加,但端侧场景最多 2–4 卡,无云端级扩展性。
四、适用场景与定位
端侧大模型:智能座舱、工业 HMI、本地 AI 助手、边缘服务器。
多模态交互:实时图文对话、视频内容分析、Agent 应用。
不适用:纯视觉检测 / 分类(如安防摄像头)、云端大规模训练。
五、结论
RK1828在端侧 7B 大模型场景可碾压同价位进口方案,凭借高带宽、低延迟、低成本实现 “平替 + 超越”;但并非全能,传统 CNN 任务仍需搭配专用 NPU 或进口方案。
需求留言: