测试标准:输入 640×640、INT8 量化、RKNN 优化、单 Batch=1、纯 NPU 推理、不含解码预处理(工程整机含解码帧率见下方),RK3588/RK3576 均标称 NPU 6TOPS INT8。

一、纯 NPU 裸推理帧率(只算模型前向,无图像解码)
模型 | RK3588(6TOPS) | RK3576(6TOPS) | 单帧延迟 | 备注 |
YOLOv8n(检测) | 58~64FPS | 52~57FPS | 15.6~17.8ms | 最优优化极限≈65FPS |
YOLOv8s(检测) | 27~32FPS | 24~28FPS | 31~38ms | 安防主流选型 |
YOLOv8m(检测) | 13~16FPS | 11~14FPS | 62~82ms | 工业高精度检测 |
YOLOv8n-seg(分割) | 36~41FPS | 33~37FPS | 24~29ms | 实例分割 |
YOLOv8s-seg(分割) | 18~22FPS | 16~19FPS | 45~56ms | 分割常用款 |
优化说明:替换 SiLU→ReLU6、NMS 后处理下沉 NPU、零拷贝 RGA 缩放,帧率上浮 15%~22%;原生未优化直接跑下降 25% 左右。
二、整机实测(含 1080P 摄像头解码 + 预处理 + NPU 推理 + 后处理,工程真实 FPS)
1、单路 1080P RTSP/USB 摄像头
YOLOv8n:42~48FPS(稳定 45 帧左右)
YOLOv8s:22~27FPS(稳定 25 帧,满足实时)
YOLOv8m:10~13FPS
2、多路 1080P 并发(RK3576/RK3588 通用)
4 路 1080P+YOLOv8s:总合 62\70FPS,均分单路≈15\18FPS,NPU 负载 55%~65%、CPU 满载
4 路 1080P+YOLOv8n:总合 130\150FPS,单路≈32\37FPS
三、补充:CPU 裸跑参考(无 NPU 加速,仅对比)
RK3588 全 CPU 运行 640×640:
YOLOv8n≈14~17FPS
YOLOv8s≈6~8FPS
四、关键影响因素
1. 量化:FP32 帧率仅为 INT8 的 30%~40%,6TOPS 盒子必须 INT8 部署;
2. 分辨率:320×320 比 640×640 帧率 + 70%,800×800 帧率 35%;
3. 散热:高温降频后整体帧率下滑 10%~18%;
4. 后处理:CPU 做 NMS 额外消耗 3\8ms / 帧,下沉 NPU 可提帧 8\15FPS。
需求留言: