首页> 新闻动态> 行业资讯> RK1828 性能全测评：Qwen2.5-7B 达 52TPS，端侧推理新标杆

RK1828 性能全测评：Qwen2.5-7B 达 52TPS，端侧推理新标杆

作者：万物纵横

发布时间：2026-05-06 10:20

阅读量：

一、核心结论

瑞芯微 RK1828 作为端侧大模型专用协处理器，在 W4A16 量化下运行 Qwen2.5-7B，解码吞吐量达 52.37 TPS、首 token 延迟 333.81ms，较传统端侧 NPU（7B 模型 < 10TPS）实现5 倍 + 性能跨越，树立端侧 7B 级 LLM 推理新标杆。

二、RK1828 硬件架构（为 LLM 推理量身定制）

1. 核心参数

NPU 算力：20 TOPS（INT8），支持 INT4/INT8/FP16/BF16 混合精度

内存子系统：5GB LPDDR5X（3D 堆叠），带宽102GB/s，消除 “内存墙”

计算核心：3×64 位 RISC-V（带 FPU），AI 专用指令集（矩阵乘加、GELU 硬件加速）

接口：PCIe 2.0×4（延迟 < 5ms）、USB 3.0、千兆以太网

功耗：风冷低功耗设计，适合端侧无风扇场景

2. 架构优势

存算一体：3D 堆叠内存紧贴计算单元，数据搬运耗时减少80%+

稀疏计算：硬件自动跳过零值，推理效率提升30%+

低延迟互联：PCIe 2.0×4 与主 SoC（如 RK3576）直连，满足实时交互

三、Qwen2.5-7B 实测性能（W4A16 量化，SeqLen=128）

1. 关键指标（单次推理）

TTFT（首 token 延迟）：333.81ms

TPOT（单 token 生成耗时）：19.10ms

Decode TPS（解码吞吐量）：52.37 token/s

Prefill 速度：2000+ token/s（上下文处理）

2. 同系列模型对比（W4A16）

模型	TTFT(ms)	Decode TPS	适用场景
Qwen2.5-0.5B	57.18	143.89	轻量对话、指令执行
Qwen2.5-3B	176.40	80.96	多轮对话、内容创作
Qwen2.5-7B	333.81	52.37	长文本理解、复杂推理

3. 行业横向对比（7B LLM，端侧）

RK1828（NPU）：52.37 TPS（W4A16）

传统端侧 NPU：<10 TPS（INT8）

高端嵌入式 GPU：15–25 TPS（INT8）

结论：RK1828 性能2–5 倍于同类方案，首次实现端侧 7B 模型实时交互

四、性能深度解析

1. 量化策略：W4A16 平衡速度与效果

权重 4bit（W4）：模型体积压缩至3.5GB，适配 5GB 片上内存

激活 16bit（A16）：保留推理精度，避免 4bit 全量化导致的效果断崖

RKNPU3 优化：算子融合、KV 缓存优化，进一步释放 NPU 算力

2. 长文本支持（128K 上下文）

Qwen2.5-7B 原生支持 128K token（约 10 万字），RK1828 高带宽内存保障长上下文预填充速度

实测：输入 1K token、输出 512 token，总耗时3.6s，满足长文档摘要 / 问答需求

3. 稳定性与功耗

72 小时连续推理：无崩溃、无性能衰减，适合 7×24 小时端侧部署

典型功耗：8–12W（风冷），远低于同算力 GPU 方案（50W+）

五、典型应用场景

1. 智能座舱 AI BOX：RK3576 主控 + RK1828 协处理器，部署 Qwen2.5-7B 实现车载语音助手、座舱交互、本地知识库问答，无网可用、隐私安全。

2. 工业边缘计算：工业网关 / 机器人部署 7B LLM，实现设备故障诊断、生产数据分析、本地指令执行，低延迟、高可靠。

3. 智能家居中枢：本地部署大模型，语音控制、多设备联动、家庭场景自动化，响应快、隐私保护。

六、总结：端侧推理新标杆

RK1828 通过存算一体架构、混合精度 NPU、低延迟互联三大创新，将端侧 7B LLM 推理性能推向52TPS新高度，打破 “端侧只能跑小模型” 的行业瓶颈。

对开发者：提供低成本、低功耗、高性能的端侧大模型部署方案，无需依赖云端。

对行业：加速AI 去中心化，推动大模型从 “云端专属” 走向 “端侧普惠”。

- END -

上一篇：国产端侧 AI 芯片之王？RK1828 实测：通义千问 80+TPS，延迟低至 160ms 返回列表下一篇：瑞芯微 RK3588+RK1828：异构解耦与端云协同的国产 AI 算力组合

需求留言:

热门文章

AIoT 2.0 核心引擎：RK1828 如何赋能工业、机器人、车载多场景？

2026-05-06

端侧 AI 里程碑！RK1828 内置 5GB 高带宽 DRAM，带宽达 1TB/s

2026-05-06

为什么科技圈都在聊 RK1828？它会是下一个 “爆款芯片” 吗？

2026-05-06

瑞芯微 RK3588+RK1828：异构解耦与端云协同的国产 AI 算力组合

2026-05-06

RK1828 性能全测评：Qwen2.5-7B 达 52TPS，端侧推理新标杆

2026-05-06

瑞芯微RK1828相关内容

瑞芯微RK1828：端侧7B大模型的性能猛兽，3D DRAM架构颠覆行业

2026-05-06

瑞芯微RK1828算力卡+RKNN3 SDK：国产化端侧AI部署完整方案

2026-04-03

瑞芯微RK1828算力卡深度解析：协处理器架构如何重构端侧AI算力

2026-04-03

瑞芯微RK1828算力卡｜端侧7B大模型国产化AI加速新标杆

2026-04-03

热门标签

工控机主板

视频边缘计算盒子

ai大模型

人员久坐-静止检测算法

课堂行为分析系统的结构特点有哪些

晶晨s905海思3798m

检测摄像头状态设备检测

互联网出口网关是硬件还是

嵌入式ai工程是干啥的