首页> 新闻动态> 行业资讯> RK1828 完整参数详解｜20TOPS算力、5W功耗、兆易创新3D堆叠DRAM AI协处理器

RK1828 完整参数详解｜20TOPS算力、5W功耗、兆易创新3D堆叠DRAM AI协处理器

作者：万物纵横

发布时间：2026-06-30 09:10

阅读量：

RK1828 是瑞芯微 RK182X 系列旗舰级专用 AI 协处理器，国内首款量产 3D 叠封片内大内存推理加速芯片，主打低功耗端侧 7B 大模型本地离线运行，采用瑞芯微 NPU + 兆易创新定制 3D Stacked DRAM 垂直封装方案，典型功耗仅 5W，完美解决传统嵌入式 AI 芯片 “内存墙” 痛点。

RK1828 完整参数详解｜20TOPS算力、5W功耗、兆易创新3D堆叠DRAM AI协处理器(图1)

一、基础工艺与架构总览

1. 制程与封装

工艺：20nm 成熟商用工艺

封装：FC-BGA 垂直 3D 堆叠 PoP 封装，逻辑晶圆 + DRAM 晶圆 TSV 混合键合层叠

内存配套：5GB 兆易创新定制 3D 堆叠 LPDDR4X DRAM（用户简称 “兆芯 3D DRAM”），无外置内存颗粒，PCB 极简设计

整机形态模组：M.2 2280 Key B-M 算力卡、SO-DIMM 标准内存条两种量产形态，即插即用

2. 主控 RISC-V 子系统（协处理器内置调度核心）

独立 3 颗 64 位 RISC-V 处理器，负责 NPU 任务调度、模型预处理、外设控制，不占用主机 CPU 资源：

1. SRV 核心：RV64GCB 指令集，主调度核心，32KB I-Cache + 32KB D-Cache + 128KB L2 缓存

2. VRV0/VRV1 双运算核心：RV64GC 指令集，并行数据预处理，单颗缓存规格同 SRV

配套硬件加速：RGA 2D 图形引擎、4K JPEG 硬编解码，负责图像预处理分流 NPU 负载

二、核心 NPU 算力规格（20TOPS INT8）

1. 算力指标

峰值算力：20 TOPS（INT8 量化）

各精度算力换算：

INT4：40 TOPS（大模型主流低精度量化）

FP16/BF16：10 TOPS

FP8：10 TOPS

架构优化：原生 Transformer 深度优化 NPU 阵列，专门适配 LLM/VLM 注意力机制，相比传统 CNN NPU 大模型推理延迟降低 45%

2. 全精度混合推理支持

原生兼容混合量化推理，覆盖端侧 AI 全场景：

INT4 / INT8 / INT16 / FP8 / FP16 / BF16；

重点优化 W4A16 大模型推理格式，是本地 7B 模型标配量化方案。

三、兆易创新 3D 堆叠 DRAM 核心性能（核心差异化优势）

1. 硬件规格

片内容量：5GB 3D Stacked LPDDR4X（同系列 RK1820 仅 2.5GB）

理论内存带宽：1024GB/s（1TB/s）

对比 RK3588 外置 LPDDR4：带宽提升 20 倍，彻底消除大模型加载卡顿

传输功耗优势：垂直 TSV 互联，数据传输功耗降低 30%，同等算力下整机功耗更低

2. 架构价值（解决内存墙）

传统 AI 加速卡：主机 PCIe 搬运模型数据、外置 DRAM 读写延迟高、功耗大；

RK1828 架构：模型完整常驻片内 3D DRAM，无需反复和主机交换权重，7B 大模型可完整载入片内，无内存交换卡顿。

四、功耗与散热（典型 5W 低功耗）

1. 典型满载推理功耗：≤5W（7B LLM 全速推理）

2. 待机闲置功耗：<500mW，低负载场景可自动降频

3. 散热方案支持：无源散热（铝片散热）即可稳定运行，无需强制风扇，适配无风扇工控、车载、嵌入式盒子

4. 同规格对比：同等 20TOPS 算力竞品普遍 8–12W，RK1828 整机供电成本、散热设计门槛更低

五、高速互联接口（主机异构协同）

RK1828 定位纯协处理器，不独立运行系统，通过高速总线挂载主控（RK3588/RK3576/x86 工控）异构协作：

高速数据通道：2 路 PCIe 2.0 x1 PHY（主数据传输，带宽稳定适配大模型权重吞吐）

通用拓展：USB 3.0 Combo PHY、千兆 RGMII 网口、I2S、GPIO、SPI、I2C

适配主控：瑞芯微全系列 AIoT 芯片（RK3568/RK3576/RK3588/RK3588M 车载版）、x86 工业主机；Linux/Android 双系统免复杂驱动，PCIe 直插即用

六、模型部署能力实测参数

1. 大语言模型 LLM

最大支持：7B 参数离线本地运行（Qwen2.5-7B、Llama3 7B 量化版、通义千问轻量化）

实测 token 吞吐：

Qwen2.5-3B：152 token/s

Qwen2.5-7B：70 token/s

同系列 RK1820 上限 3B 模型，RK1828 面向高端多模态场景

2. 视觉 / 多模态 VLM

图像检测：YOLOv8s 单路 35FPS，多 Batch 并行最高 212FPS；4K 图像实时结构化分析

多模态图文模型：支持图文问答、画面描述、OCR 语义理解，图片 + 文本混合推理无延迟

传统 CV：ResNet、MobileNet、OpenCV 算子全硬件加速

七、软件生态与工具链

1. 官方工具：RKNN-Toolkit2 全兼容，一键模型量化、编译、性能仿真

2. 训练框架支持：PyTorch、TensorFlow、Caffe、MXNet、ONNX 通用模型导入

3. 上层接口：原生适配 OpenAI API，可直接对接 AI Agent、本地智能交互程序

4. 系统适配：Linux（Debian/Yocto）、Android；支持 ROS 机器人开发栈，适配自主移动机器人平台

八、RK1828 vs RK1820 核心区别（选型参考）

参数	RK1828（旗舰）	RK1820（轻量版）
3D DRAM	5GB 兆易创新堆叠内存	2.5GB 堆叠内存
最大 LLM	7B 参数离线运行	3B 参数以内
带宽	1024GB/s	100GB/s
典型功耗	5W	3W
适用场景	车载多模态、工业 7B 大模型、机器人语义决策	智能家居、安防视频分析、3B 轻量化助手