RK1828 是瑞芯微 RK182X 系列旗舰级专用 AI 协处理器,国内首款量产 3D 叠封片内大内存推理加速芯片,主打低功耗端侧 7B 大模型本地离线运行,采用瑞芯微 NPU + 兆易创新定制 3D Stacked DRAM 垂直封装方案,典型功耗仅 5W,完美解决传统嵌入式 AI 芯片 “内存墙” 痛点。

一、基础工艺与架构总览
1. 制程与封装
工艺:20nm 成熟商用工艺
封装:FC-BGA 垂直 3D 堆叠 PoP 封装,逻辑晶圆 + DRAM 晶圆 TSV 混合键合层叠
内存配套:5GB 兆易创新定制 3D 堆叠 LPDDR4X DRAM(用户简称 “兆芯 3D DRAM”),无外置内存颗粒,PCB 极简设计
整机形态模组:M.2 2280 Key B-M 算力卡、SO-DIMM 标准内存条两种量产形态,即插即用
2. 主控 RISC-V 子系统(协处理器内置调度核心)
独立 3 颗 64 位 RISC-V 处理器,负责 NPU 任务调度、模型预处理、外设控制,不占用主机 CPU 资源:
1. SRV 核心:RV64GCB 指令集,主调度核心,32KB I-Cache + 32KB D-Cache + 128KB L2 缓存
2. VRV0/VRV1 双运算核心:RV64GC 指令集,并行数据预处理,单颗缓存规格同 SRV
配套硬件加速:RGA 2D 图形引擎、4K JPEG 硬编解码,负责图像预处理分流 NPU 负载
二、核心 NPU 算力规格(20TOPS INT8)
1. 算力指标
峰值算力:20 TOPS(INT8 量化)
各精度算力换算:
INT4:40 TOPS(大模型主流低精度量化)
FP16/BF16:10 TOPS
FP8:10 TOPS
架构优化:原生 Transformer 深度优化 NPU 阵列,专门适配 LLM/VLM 注意力机制,相比传统 CNN NPU 大模型推理延迟降低 45%
2. 全精度混合推理支持
原生兼容混合量化推理,覆盖端侧 AI 全场景:
INT4 / INT8 / INT16 / FP8 / FP16 / BF16;
重点优化 W4A16 大模型推理格式,是本地 7B 模型标配量化方案。
三、兆易创新 3D 堆叠 DRAM 核心性能(核心差异化优势)
1. 硬件规格
片内容量:5GB 3D Stacked LPDDR4X(同系列 RK1820 仅 2.5GB)
理论内存带宽:1024GB/s(1TB/s)
对比 RK3588 外置 LPDDR4:带宽提升 20 倍,彻底消除大模型加载卡顿
传输功耗优势:垂直 TSV 互联,数据传输功耗降低 30%,同等算力下整机功耗更低
2. 架构价值(解决内存墙)
传统 AI 加速卡:主机 PCIe 搬运模型数据、外置 DRAM 读写延迟高、功耗大;
RK1828 架构:模型完整常驻片内 3D DRAM,无需反复和主机交换权重,7B 大模型可完整载入片内,无内存交换卡顿。
四、功耗与散热(典型 5W 低功耗)
1. 典型满载推理功耗:≤5W(7B LLM 全速推理)
2. 待机闲置功耗:<500mW,低负载场景可自动降频
3. 散热方案支持:无源散热(铝片散热)即可稳定运行,无需强制风扇,适配无风扇工控、车载、嵌入式盒子
4. 同规格对比:同等 20TOPS 算力竞品普遍 8–12W,RK1828 整机供电成本、散热设计门槛更低
五、高速互联接口(主机异构协同)
RK1828 定位纯协处理器,不独立运行系统,通过高速总线挂载主控(RK3588/RK3576/x86 工控)异构协作:
高速数据通道:2 路 PCIe 2.0 x1 PHY(主数据传输,带宽稳定适配大模型权重吞吐)
通用拓展:USB 3.0 Combo PHY、千兆 RGMII 网口、I2S、GPIO、SPI、I2C
适配主控:瑞芯微全系列 AIoT 芯片(RK3568/RK3576/RK3588/RK3588M 车载版)、x86 工业主机;Linux/Android 双系统免复杂驱动,PCIe 直插即用
六、模型部署能力实测参数
1. 大语言模型 LLM
最大支持:7B 参数离线本地运行(Qwen2.5-7B、Llama3 7B 量化版、通义千问轻量化)
实测 token 吞吐:
Qwen2.5-3B:152 token/s
Qwen2.5-7B:70 token/s
同系列 RK1820 上限 3B 模型,RK1828 面向高端多模态场景
2. 视觉 / 多模态 VLM
图像检测:YOLOv8s 单路 35FPS,多 Batch 并行最高 212FPS;4K 图像实时结构化分析
多模态图文模型:支持图文问答、画面描述、OCR 语义理解,图片 + 文本混合推理无延迟
传统 CV:ResNet、MobileNet、OpenCV 算子全硬件加速
七、软件生态与工具链
1. 官方工具:RKNN-Toolkit2 全兼容,一键模型量化、编译、性能仿真
2. 训练框架支持:PyTorch、TensorFlow、Caffe、MXNet、ONNX 通用模型导入
3. 上层接口:原生适配 OpenAI API,可直接对接 AI Agent、本地智能交互程序
4. 系统适配:Linux(Debian/Yocto)、Android;支持 ROS 机器人开发栈,适配自主移动机器人平台
八、RK1828 vs RK1820 核心区别(选型参考)
参数 | RK1828(旗舰) | RK1820(轻量版) |
3D DRAM | 5GB 兆易创新堆叠内存 | 2.5GB 堆叠内存 |
最大 LLM | 7B 参数离线运行 | 3B 参数以内 |
带宽 | 1024GB/s | 100GB/s |
典型功耗 | 5W | 3W |
适用场景 | 车载多模态、工业 7B 大模型、机器人语义决策 | 智能家居、安防视频分析、3B 轻量化助手 |
九、量产落地应用场景
1. 智能座舱:RK3588M+RK1828 离线车载 7B 语音多模态助手(比亚迪、蔚来、上汽量产车型)
2. 工业边缘 AI 盒:无风扇工控、4K 多路视频结构化、质检视觉检测
3. 自主移动机器人:本地语义导航、人机对话、多传感器融合决策
4. 本地私有 AI 终端:离线本地大模型一体机、智慧交互大屏、离线语音工作站
5. 存量设备算力升级:RK3568 / 老旧工控通过 M.2 插槽低成本扩容 7B 大模型能力
十、核心总结核心优势
1. 国产 3D 堆叠存储:兆易创新定制 DRAM,1TB/s 超高带宽,7B 模型全片内加载,无内存交换瓶颈;
2. 20TOPS 低功耗:满载仅 5W,无源散热,嵌入式小型化设备友好;
3. 异构解耦架构:专用 AI 协处理器,不抢占主机算力,老设备即插即用升级;
4. 全精度大模型原生优化:Transformer 专属 NPU,INT4 量化高效,兼顾视觉 + 语言多模态;
5. 标准化硬件形态:M.2/SO-DIMM 双模组,适配工控、车载、机器人全行业硬件底板。
需求留言: