一、双芯定位:异构解耦,各司其职
RK3588(主控 SoC):系统与多媒体核心,负责 “管理、调度、预处理、外设”。
8nm,4×A76+4×A55,Mali-G610 GPU,6TOPS NPU
8K 编解码、双 ISP、PCIe/USB3.0 / 千兆网等全接口
运行 Linux/Android,管理外设、网络、UI、视频流解析与预处理
RK1828(AI 协处理器):大模型推理专用核心,负责 “高强度 AI 计算”。
3×RISC-V 64 位核,20TOPS NPU(INT8),支持 INT4/FP16 混合精度
5GB 3D 堆叠 DRAM,带宽达数百 GB/s,攻克 “内存墙”
无独立系统,仅通过 PCIe 与 RK3588 通信,专跑 LLM/VLM/ 视觉推理
核心架构思想:算力解耦、资源隔离、分工并行,避免系统与 AI 推理争抢资源。

二、物理互联:PCIe 高速通道,数据直连
链路:RK3588 → PCIe 2.0 ×4 → RK1828(共享带宽8GB/s)
拓扑:RK3588 为主机(Host),RK1828 为设备(Device),即插即用
控制流:RK3588 发指令(模型加载、推理启动、参数配置)
数据流:原始数据→RK3588 预处理→PCIe→RK1828 推理→结果回传
替代通道:USB3.0(5Gbps)作备份,PCIe 为高性能首选
三、协同工作全流程(以 7B 大模型对话为例)
1. 任务初始化(RK3588)
加载 Linux 系统、驱动、RKNN 工具链
通过 PCIe 初始化 RK1828,加载模型权重至其 3D DRAM
分配算力:RK3588 管系统 / 视频 / 外设,RK1828 独占 NPU 与高带宽内存
2. 数据预处理(RK3588)
接收文本 / 图像 / 视频,做分词、解码、缩放、归一化
数据压缩 / 格式转换,降低传输量,通过 PCIe 发至 RK1828
3. 核心推理(RK1828,关键)
3D 堆叠 DRAM:TSV 垂直通道,带宽达200–300GB/s,无外部内存瓶颈
NPU 硬件加速:对 Transformer/Attention 做指令级优化
多精度计算:INT4/INT8 降低显存占用与计算量,7B 模型仅需 5GB 内存
推理输出:生成 Token / 特征图,通过 PCIe 回传 RK3588
4. 后处理与输出(RK3588)
解析推理结果,生成文本 / 图像 / 控制指令
驱动显示、网络发送、控制外设,完成交互
四、核心技术:为何 RK1828 能跑 7B 大模型?
1. 3D RAM 堆叠(突破内存墙)
DRAM 晶圆直接堆叠在 NPU 上,数万个 TSV 垂直通道
带宽达数百 GB/s,是 RK3588 外挂 LPDDR5 的5–10 倍
数据在芯片内部流转,无需走 PCB,延迟 < 1μs
2. NPU 架构优化(大模型专用)
20TOPS INT8 算力,支持INT4 压缩,7B 模型权重仅需 3.5GB
硬件支持KV Cache,动态管理上下文,降低重复计算
算子库深度优化:GEMM、Softmax、LayerNorm 全硬件加速
3. 双芯协同调度(无锁并行)
RK3588 与 RK1828独立电源与时钟域,互不干扰
支持模型并行:7B 模型可拆分至双芯,协同推理
支持多任务并发:RK3588 处理视频,RK1828 跑 LLM,互不抢占
五、性能实测(2026 年数据)
Qwen-7B-Chat:首帧延迟160ms,生成速度50+ Token/s
通义千问 3B VLM:80+ Token/s,支持图文理解
16 路 1080P 视频分析:实时目标检测 + 行为识别,CPU 占用 < 30%
六、典型应用场景
1. AI Agent(龙虾平台):RK3588 运行 Agent 框架,RK1828 跑大模型,端侧自主决策
2. 智能座舱:RK3588 处理 8K 娱乐 / 仪表,RK1828 跑语音助手 / 驾驶员监测
3. 工业质检:RK3588 采集 / 预处理图像,RK1828 做缺陷检测 / 分类,毫秒级响应
4. 边缘服务器:RK3588 做网关 / 存储,RK1828 提供 AI 算力,支撑智慧城市 / 安防
七、总结:双芯架构的核心价值
架构创新:SoC + 协处理器解耦,系统与 AI 算力分离,生命周期错配问题解决(主控 5–10 年,AI 模块 1–2 年升级)
性能飞跃:3D 堆叠 DRAM+20TOPS NPU,端侧流畅运行3B–7B 大模型
生态开放:RKNN 工具链支持主流框架,模型迁移成本低
需求留言: