首页> 新闻动态> 行业资讯> 瑞芯微 RK1828 AI 协处理器，百 token/s 极速推理

瑞芯微 RK1828 AI 协处理器，百 token/s 极速推理

作者：万物纵横

发布时间：2026-03-26 13:14

阅读量：

瑞芯微 RK1828 是专为端侧大模型推理设计的AI协处理器，核心优势是3D堆叠高带宽内存+20TOPS NPU，可稳定实现百token/s级极速推理，完美适配3B–7B参数大模型本地部署。

一、核心定位与架构

RK1828 是 RK182X 系列旗舰型号，定位端侧大模型专用算力协处理器，主打低延迟、高吞吐、低功耗的本地AI推理。

核心架构：三核64位RISC-V + 专用NPU，通过PCIe 3.0与RK3588等主控协同，分工明确（主控调度/预处理，RK1828专注推理）。

3D堆叠内存（最大亮点）：内置5GB高带宽DRAM，理论带宽1TB/s，实测百GB/s级，彻底解决大模型“内存墙”瓶颈，无需外挂DDR。

NPU算力：20TOPS@INT8，支持INT4/INT8/INT16/FP8/FP16/BF16混合精度与硬件稀疏计算，适配主流大模型量化。

瑞芯微 RK1828 AI 协处理器，百 token/s 极速推理(图1)

二、百token/s极速推理实测（官方数据）

在最新SDK优化下，RK1828在主流大模型上实现百token/s级稳定输出：

核心结论：3B参数模型稳定破百token/s，7B模型50–80+ token/s，端到端延迟**<200ms**，达到“云端级响应”体验。

三、技术优势：为什么能做到百token/s？

1. 高带宽内存（HBM）：3D堆叠提供1TB/s理论带宽，数据传输无瓶颈，大模型权重加载与推理数据流零阻塞。

2. 专用NPU+RISC-V协同：NPU专注矩阵运算，RISC-V处理控制与调度，硬件级并行，算力利用率超90%。

3. 深度模型优化：瑞芯微RKNN Toolkit对LLM/VLM做算子融合、量化与稀疏加速，解码效率提升15%+。

4. 低功耗设计：整芯片功耗**<15W**，适合边缘/嵌入式场景长期稳定运行。

瑞芯微 RK1828 AI 协处理器，百 token/s 极速推理(图2)

四、典型应用场景

智能座舱：RK3588M+RK1828打造AI Box，本地运行7B语音助手，首字<100ms，支持多模态交互、DMS/OMS，数据不出车。

工业/机器人：端侧部署7B视觉大模型，百token/s输出，实时SLAM、质检、物体抓取，替代工控机，成本降50%。

边缘AI服务器/NVR：多RK1828叠加算力，本地处理多路4K/8K视频，实时分析、摘要、检索，隐私安全。

智能家居/教育：离线语音翻译、本地大模型问答，无网络依赖，响应快、隐私强。

五、与同类方案对比（端侧大模型）