华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
软件算法咨询:18982151213(刘先生)

联系我们
产品咨询

RK1828 完整参数详解|20TOPS算力、5W功耗、兆易创新3D堆叠DRAM AI协处理器

作者:万物纵横
发布时间:2026-06-30 09:10
阅读量:

RK1828 是瑞芯微 RK182X 系列旗舰级专用 AI 协处理器,国内首款量产 3D 叠封片内大内存推理加速芯片,主打低功耗端侧 7B 大模型本地离线运行,采用瑞芯微 NPU + 兆易创新定制 3D Stacked DRAM 垂直封装方案,典型功耗仅 5W,完美解决传统嵌入式 AI 芯片 “内存墙” 痛点。


RK1828 完整参数详解|20TOPS算力、5W功耗、兆易创新3D堆叠DRAM AI协处理器(图1)


一、基础工艺与架构总览


1. 制程与封装


工艺:20nm 成熟商用工艺


封装:FC-BGA 垂直 3D 堆叠 PoP 封装,逻辑晶圆 + DRAM 晶圆 TSV 混合键合层叠


内存配套:5GB 兆易创新定制 3D 堆叠 LPDDR4X DRAM(用户简称 “兆芯 3D DRAM”),无外置内存颗粒,PCB 极简设计


整机形态模组:M.2 2280 Key B-M 算力卡、SO-DIMM 标准内存条两种量产形态,即插即用


2. 主控 RISC-V 子系统(协处理器内置调度核心)


独立 3 颗 64 位 RISC-V 处理器,负责 NPU 任务调度、模型预处理、外设控制,不占用主机 CPU 资源:


1. SRV 核心:RV64GCB 指令集,主调度核心,32KB I-Cache + 32KB D-Cache + 128KB L2 缓存


2. VRV0/VRV1 双运算核心:RV64GC 指令集,并行数据预处理,单颗缓存规格同 SRV


配套硬件加速:RGA 2D 图形引擎、4K JPEG 硬编解码,负责图像预处理分流 NPU 负载


二、核心 NPU 算力规格(20TOPS INT8)


1. 算力指标


峰值算力:20 TOPS(INT8 量化)


各精度算力换算:


INT4:40 TOPS(大模型主流低精度量化)


FP16/BF16:10 TOPS


FP8:10 TOPS


架构优化:原生 Transformer 深度优化 NPU 阵列,专门适配 LLM/VLM 注意力机制,相比传统 CNN NPU 大模型推理延迟降低 45%


2. 全精度混合推理支持


原生兼容混合量化推理,覆盖端侧 AI 全场景:


INT4 / INT8 / INT16 / FP8 / FP16 / BF16;


重点优化 W4A16 大模型推理格式,是本地 7B 模型标配量化方案。


三、兆易创新 3D 堆叠 DRAM 核心性能(核心差异化优势)


1. 硬件规格


片内容量:5GB 3D Stacked LPDDR4X(同系列 RK1820 仅 2.5GB)


理论内存带宽:1024GB/s(1TB/s)


对比 RK3588 外置 LPDDR4:带宽提升 20 倍,彻底消除大模型加载卡顿


传输功耗优势:垂直 TSV 互联,数据传输功耗降低 30%,同等算力下整机功耗更低


2. 架构价值(解决内存墙)


传统 AI 加速卡:主机 PCIe 搬运模型数据、外置 DRAM 读写延迟高、功耗大;


RK1828 架构:模型完整常驻片内 3D DRAM,无需反复和主机交换权重,7B 大模型可完整载入片内,无内存交换卡顿。


四、功耗与散热(典型 5W 低功耗)


1. 典型满载推理功耗:≤5W(7B LLM 全速推理)


2. 待机闲置功耗:<500mW,低负载场景可自动降频


3. 散热方案支持:无源散热(铝片散热)即可稳定运行,无需强制风扇,适配无风扇工控、车载、嵌入式盒子


4. 同规格对比:同等 20TOPS 算力竞品普遍 8–12W,RK1828 整机供电成本、散热设计门槛更低


五、高速互联接口(主机异构协同)


RK1828 定位纯协处理器,不独立运行系统,通过高速总线挂载主控(RK3588/RK3576/x86 工控)异构协作:


高速数据通道:2 路 PCIe 2.0 x1 PHY(主数据传输,带宽稳定适配大模型权重吞吐)


通用拓展:USB 3.0 Combo PHY、千兆 RGMII 网口、I2S、GPIO、SPI、I2C


适配主控:瑞芯微全系列 AIoT 芯片(RK3568/RK3576/RK3588/RK3588M 车载版)、x86 工业主机;Linux/Android 双系统免复杂驱动,PCIe 直插即用


六、模型部署能力实测参数


1. 大语言模型 LLM


最大支持:7B 参数离线本地运行(Qwen2.5-7B、Llama3 7B 量化版、通义千问轻量化)


实测 token 吞吐:


Qwen2.5-3B:152 token/s


Qwen2.5-7B:70 token/s


同系列 RK1820 上限 3B 模型,RK1828 面向高端多模态场景


2. 视觉 / 多模态 VLM


图像检测:YOLOv8s 单路 35FPS,多 Batch 并行最高 212FPS;4K 图像实时结构化分析


多模态图文模型:支持图文问答、画面描述、OCR 语义理解,图片 + 文本混合推理无延迟


传统 CV:ResNet、MobileNet、OpenCV 算子全硬件加速


七、软件生态与工具链


1. 官方工具:RKNN-Toolkit2 全兼容,一键模型量化、编译、性能仿真


2. 训练框架支持:PyTorch、TensorFlow、Caffe、MXNet、ONNX 通用模型导入


3. 上层接口:原生适配 OpenAI API,可直接对接 AI Agent、本地智能交互程序


4. 系统适配:Linux(Debian/Yocto)、Android;支持 ROS 机器人开发栈,适配自主移动机器人平台


八、RK1828 vs RK1820 核心区别(选型参考)


参数

RK1828(旗舰)

RK1820(轻量版)

3D DRAM

5GB 兆易创新堆叠内存

2.5GB 堆叠内存

最大 LLM

7B 参数离线运行

3B 参数以内

带宽

1024GB/s

100GB/s

典型功耗

5W

3W

适用场景

车载多模态、工业 7B 大模型、机器人语义决策

智能家居、安防视频分析、3B 轻量化助手


九、量产落地应用场景


1. 智能座舱:RK3588M+RK1828 离线车载 7B 语音多模态助手(比亚迪、蔚来、上汽量产车型)


2. 工业边缘 AI 盒:无风扇工控、4K 多路视频结构化、质检视觉检测


3. 自主移动机器人:本地语义导航、人机对话、多传感器融合决策


4. 本地私有 AI 终端:离线本地大模型一体机、智慧交互大屏、离线语音工作站


5. 存量设备算力升级:RK3568 / 老旧工控通过 M.2 插槽低成本扩容 7B 大模型能力


十、核心总结核心优势


1. 国产 3D 堆叠存储:兆易创新定制 DRAM,1TB/s 超高带宽,7B 模型全片内加载,无内存交换瓶颈;


2. 20TOPS 低功耗:满载仅 5W,无源散热,嵌入式小型化设备友好;


3. 异构解耦架构:专用 AI 协处理器,不抢占主机算力,老设备即插即用升级;


4. 全精度大模型原生优化:Transformer 专属 NPU,INT4 量化高效,兼顾视觉 + 语言多模态;


5. 标准化硬件形态:M.2/SO-DIMM 双模组,适配工控、车载、机器人全行业硬件底板。

家具美容培训

家具维修培训

- END -
分享:
留言 留言 试用申请
产品咨询 产品咨询 硬件设备咨询
华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
技术咨询 技术咨询 软件算法咨询
18982151213(刘先生)
微信在线客服 微信在线客服 在线客服
返回官网顶部 返回官网顶部 回到顶部
关闭窗口
产品订购
  • *

  • *

  • *

  • *

  • *