华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
软件算法咨询:18982151213(刘先生)

联系我们
产品咨询

RK1828 性能全测评:Qwen2.5-7B 达 52TPS,端侧推理新标杆

作者:万物纵横
发布时间:2026-05-06 10:20
阅读量:

一、核心结论


瑞芯微 RK1828 作为端侧大模型专用协处理器,在 W4A16 量化下运行 Qwen2.5-7B,解码吞吐量达 52.37 TPS、首 token 延迟 333.81ms,较传统端侧 NPU(7B 模型 < 10TPS)实现5 倍 + 性能跨越,树立端侧 7B 级 LLM 推理新标杆。


二、RK1828 硬件架构(为 LLM 推理量身定制)


1. 核心参数


NPU 算力:20 TOPS(INT8),支持 INT4/INT8/FP16/BF16 混合精度


内存子系统:5GB LPDDR5X(3D 堆叠),带宽102GB/s,消除 “内存墙”


计算核心:3×64 位 RISC-V(带 FPU),AI 专用指令集(矩阵乘加、GELU 硬件加速)


接口:PCIe 2.0×4(延迟 < 5ms)、USB 3.0、千兆以太网


功耗:风冷低功耗设计,适合端侧无风扇场景


2. 架构优势


存算一体:3D 堆叠内存紧贴计算单元,数据搬运耗时减少80%+


稀疏计算:硬件自动跳过零值,推理效率提升30%+


低延迟互联:PCIe 2.0×4 与主 SoC(如 RK3576)直连,满足实时交互


三、Qwen2.5-7B 实测性能(W4A16 量化,SeqLen=128)


1. 关键指标(单次推理)


TTFT(首 token 延迟):333.81ms


TPOT(单 token 生成耗时):19.10ms


Decode TPS(解码吞吐量):52.37 token/s


Prefill 速度:2000+ token/s(上下文处理)


2. 同系列模型对比(W4A16)


模型

TTFT(ms)

Decode TPS

适用场景

Qwen2.5-0.5B

57.18

143.89

轻量对话、指令执行

Qwen2.5-3B

176.40

80.96

多轮对话、内容创作

Qwen2.5-7B

333.81

52.37

长文本理解、复杂推理


3. 行业横向对比(7B LLM,端侧)


RK1828(NPU):52.37 TPS(W4A16)


传统端侧 NPU:<10 TPS(INT8)


高端嵌入式 GPU:15–25 TPS(INT8)


结论:RK1828 性能2–5 倍于同类方案,首次实现端侧 7B 模型实时交互


四、性能深度解析


1. 量化策略:W4A16 平衡速度与效果


权重 4bit(W4):模型体积压缩至3.5GB,适配 5GB 片上内存


激活 16bit(A16):保留推理精度,避免 4bit 全量化导致的效果断崖


RKNPU3 优化:算子融合、KV 缓存优化,进一步释放 NPU 算力


2. 长文本支持(128K 上下文)


Qwen2.5-7B 原生支持 128K token(约 10 万字),RK1828 高带宽内存保障长上下文预填充速度


实测:输入 1K token、输出 512 token,总耗时3.6s,满足长文档摘要 / 问答需求


3. 稳定性与功耗


72 小时连续推理:无崩溃、无性能衰减,适合 7×24 小时端侧部署


典型功耗:8–12W(风冷),远低于同算力 GPU 方案(50W+)


五、典型应用场景


1. 智能座舱 AI BOX:RK3576 主控 + RK1828 协处理器,部署 Qwen2.5-7B 实现车载语音助手、座舱交互、本地知识库问答,无网可用、隐私安全。


2. 工业边缘计算:工业网关 / 机器人部署 7B LLM,实现设备故障诊断、生产数据分析、本地指令执行,低延迟、高可靠。


3. 智能家居中枢:本地部署大模型,语音控制、多设备联动、家庭场景自动化,响应快、隐私保护。


六、总结:端侧推理新标杆


RK1828 通过存算一体架构、混合精度 NPU、低延迟互联三大创新,将端侧 7B LLM 推理性能推向52TPS新高度,打破 “端侧只能跑小模型” 的行业瓶颈。


对开发者:提供低成本、低功耗、高性能的端侧大模型部署方案,无需依赖云端。


对行业:加速AI 去中心化,推动大模型从 “云端专属” 走向 “端侧普惠”。

- END -
分享:
留言 留言 试用申请
产品咨询 产品咨询 硬件设备咨询
华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
技术咨询 技术咨询 软件算法咨询
18982151213(刘先生)
微信在线客服 微信在线客服 在线客服
返回官网顶部 返回官网顶部 回到顶部
关闭窗口
产品订购
  • *

  • *

  • *

  • *

  • *