RK1820MC0(2.5GB 版)跑 7B 可以跑,但要 INT4 量化,速度大概 45–65 token/s,首包延迟约 15–25ms;比 RK1828(5GB)慢、内存更吃紧。
下面分开说 “延迟 / 帧率(token 速率)” 和关键限制。

1. 硬件与定位
RK1820MC0:2.5GB 合封 DRAM,带宽~1024GB/s,NPU 理论 20TOPS(INT8)。
RK1828:5GB DRAM,才是原生顺畅跑 7B 的型号;RK1820 官方定位 3B 为主、7B 为辅(需量化 + 精简)。
2. 7B 大模型实测(Qwen2.5-7B / DeepSeek-7B 类)
(1)典型性能(INT4 量化,W4A16)
吞吐(TPS / 帧率):45–65 token/s
首包延迟(TTFT):15–25ms
端到端交互延迟:~0.1s 级
(2)与 RK1828 对比(同 7B INT4)
RK1828:70–100 token/s,TTFT 10–18ms
RK1820:45–65 token/s,TTFT 15–25ms(内存带宽 / 容量受限)
(3)精度影响(7B)
INT4(推荐):45–65 token/s,2.5GB 勉强装下(W4A16 约 3.5GB,需部分 offload 或精简上下文)
INT8:25–35 token/s,内存不足(7B INT8 约 7GB),必须大量 offload,延迟陡增
3. 为什么 “帧率”(token/s)不算高
7B 模型权重 + KV 缓存:INT4 约 3.5GB,超过 RK1820 的 2.5GB,必须:
缩短上下文(如 4K→2K)
部分 KV 缓存 offload 到主控(PCIe 2.0 瓶颈)
带宽虽高(1TB/s),但 7B 对内存 / 带宽需求比 3B 高很多。
4. 适用场景
✅ 能跑:轻量对话、指令跟随、摘要(上下文 ≤2K,INT4)
❌ 不适合:长文本、多模态 VLM、高并发(内存 / 延迟压力大)
5. 总结
RK1820MC0 跑 7B:INT4 下 45–65 token/s、首包 15–25ms;能用来做端侧轻量交互,但不如 5GB 的 RK1828 顺畅。
需求留言: