华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
软件算法咨询:18982151213(刘先生)

联系我们
产品咨询

瑞芯微RK182X 实测通义千问:端侧实时识图、摘要,延迟低至 0.1s

作者:万物纵横
发布时间:2026-05-08 09:50
阅读量:

瑞芯微 RK182X(RK1820/RK1828)是专为端侧大模型设计的 AI 协处理器,与阿里云通义千问深度适配,实测可实现端侧实时识图、摘要,端到端延迟低至 0.1s,解码吞吐率最高达70.27 tokens/s,可流畅运行通义千问 Qwen2.5-1.5B/3B/7B 系列模型。


瑞芯微RK182X 实测通义千问:端侧实时识图、摘要,延迟低至 0.1s(图1)


一、核心硬件架构(RK1820/RK1828)


制程与算力:20nm,NPU 算力20 TOPS,支持 INT4/FP16 混合精度。


内存系统(关键低延迟):3D 堆叠封装,内置2.5GB(RK1820)/5GB(RK1828)高带宽 DRAM,理论带宽1TB/s,解决大模型内存带宽瓶颈。


接口与协同:PCIe 2.0×2/USB3.0,与 RK3588 等主 SoC 高速互联(带宽 32Gbps),支持多卡叠加扩展算力。


功耗:10W 级,适配端侧低功耗场景。


二、通义千问实测性能(2025-2026 公开数据)


1. 大语言模型(LLM)推理


Qwen2.5-1.5B(INT4):TTFT(首 token 延迟)<80ms,TPS>87,满足实时对话。


Qwen2.5-3B(INT4):TTFT85.8ms,TPS87.7,较 Orin NX(201.77ms/25.2TPS)延迟降低 57%、吞吐提升 248%。


Qwen2.5-7B(INT4):TTFT159ms,TPS56,可流畅多轮对话。


2. 多模态(识图 / 摘要)性能


实时识图(VLM):通义千问视觉理解 + CNN 检测,端到端延迟≤268ms,帧率≥3.74fps,支持 4K 视频流实时分析。


图文摘要 / 问答:单图解析 + 摘要生成≤0.1s,OCR 精度≥98%,支持多轮图文对话。


视频摘要:10 分钟视频本地摘要≤30s,关键帧提取 + 内容浓缩,离线可用。


三、低延迟核心原因


1. 3D 堆叠高带宽 DRAM:1TB/s 带宽,远高于传统 2D DDR(44–100GB/s),消除内存访问瓶颈。


2. NPU 深度优化:通义千问算子专属适配,INT4 量化 + 混合精度,算力利用率 >90%。


3. 双芯协同(RK3588+RK182X):主控负责调度 / 控制,协处理器专注 AI 推理,分工明确,交互延迟 <0.5ms。


4. 模型轻量化 + 量化:通义千问 0.6B–7B INT4 量化,显存占用降低 75%,适配端侧资源。


四、典型应用场景


智能座舱:离线语音助手、路况 / 仪表盘识图摘要,响应≤0.1s。


工业视觉:4K 缺陷检测 + 实时摘要,识别速度200FPS,本地离线分析。


智能安防:多模态视频分析、异常行为预警,延迟 <1s,支持多轮图文检索。


便携设备:边缘计算盒、机器人,离线大模型交互,功耗低、实时性强。


五、总结


RK182X + 通义千问组合,凭借3D 堆叠高带宽内存 + 专属 NPU 优化 + 双芯协同,实现端侧0.1s 级实时识图与摘要,性能超越同类端侧方案,为 AI 落地提供高效、低成本、离线可用的端侧算力选择。

- END -
分享:
留言 留言 试用申请
产品咨询 产品咨询 硬件设备咨询
华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
技术咨询 技术咨询 软件算法咨询
18982151213(刘先生)
微信在线客服 微信在线客服 在线客服
返回官网顶部 返回官网顶部 回到顶部
关闭窗口
产品订购
  • *

  • *

  • *

  • *

  • *