这是国产端侧 AI 的重要里程碑:瑞芯微 RK1828 作为专用大模型协处理器,首次在端侧把5GB 高带宽 DRAM 与 NPU 3D 堆叠,理论带宽1TB/s,彻底解决大模型推理的 “内存墙” 瓶颈。

一、核心规格(RK1828)
定位:端侧 AI 协处理器(搭配 RK3588/RK3576 等主 SoC)
制程:20nm
NPU 算力:20TOPS(INT8),支持 INT4/FP16 混合精度
内置内存:5GB DRAM(3D 堆叠),理论带宽1TB/s(实测数百 GB/s)
接口:PCIe 2.0×4、USB 3.0,与主 SoC 低延迟互联
大模型支持:本地运行7B 参数 LLM/VLM(如 Qwen、DeepSeek)
二、关键突破:干掉 “内存墙”
传统端侧 AI 的最大痛点是数据搬运功耗高、带宽不足,大模型(3B/7B)推理时,80% 以上时间耗在内存访问上。
RK1828 的 3D 堆叠方案:
DRAM 直接堆在 NPU 上方,TSV 垂直通道数万个,数据路径从厘米级缩短到微米级
无需外挂 DDR,PCB 更简单、BOM 成本更低、功耗更低
7B 模型推理速度 56token/s,延迟 159ms;对比 Orin NX(14.5token/s,322ms),性能提升近 4 倍
三、RK1820 vs RK1828
型号 | 内置 DRAM | 带宽 | 适用模型 |
RK1820 | 2.5GB | 1TB/s(理论) | 3B 参数 |
RK1828 | 5GB | 1TB/s(理论) | 7B 参数 |
四、应用场景
智能座舱:离线多模态交互、车载大模型
工业视觉:4K 缺陷检测、多路视频 AI 分析
边缘服务器:本地私有大模型、数据不出网
AR/VR:端侧 AI 渲染、实时交互
五、行业意义
RK1828 标志着国产端侧 AI 从 “小模型推理” 进入 “7B 大模型本地部署” 新阶段,核心价值:
1. 低延迟:端到端响应 0.1 秒级,远优于云端
2. 高隐私:数据本地处理,不上云,安全合规
3. 低成本:无需高端主 SoC,RK3588+RK1828 即可跑 7B 模型
4. 国产化:从芯片到模型全链路自主可控,打破海外依赖
六、总结
RK1828 不是简单的算力升级,而是架构革命:用 3D 堆叠高带宽内存,把端侧大模型推理从 “不可能” 变成 “可量产”。对开发者而言,这意味着更低门槛、更低成本、更高性能的端侧 AI 开发平台,将加速 AI 在各行各业的落地。
需求留言: