华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
软件算法咨询:18982151213(刘先生)

联系我们
产品咨询

RK1820MC0 M.2 算力卡跑 7B 大模型,延迟和帧率表现如何?

作者:万物纵横
发布时间:2026-06-10 11:31
阅读量:

RK1820MC0(2.5GB 版)跑 7B 可以跑,但要 INT4 量化,速度大概 45–65 token/s,首包延迟约 15–25ms;比 RK1828(5GB)慢、内存更吃紧。


下面分开说 “延迟 / 帧率(token 速率)” 和关键限制。


RK1820MC0 M.2 算力卡跑 7B 大模型,延迟和帧率表现如何?(图1)


1. 硬件与定位


RK1820MC0:2.5GB 合封 DRAM,带宽~1024GB/s,NPU 理论 20TOPS(INT8)。


RK1828:5GB DRAM,才是原生顺畅跑 7B 的型号;RK1820 官方定位 3B 为主、7B 为辅(需量化 + 精简)。


2. 7B 大模型实测(Qwen2.5-7B / DeepSeek-7B 类)


(1)典型性能(INT4 量化,W4A16)


吞吐(TPS / 帧率):45–65 token/s


首包延迟(TTFT):15–25ms


端到端交互延迟:~0.1s 级


(2)与 RK1828 对比(同 7B INT4)


RK1828:70–100 token/s,TTFT 10–18ms


RK1820:45–65 token/s,TTFT 15–25ms(内存带宽 / 容量受限)


(3)精度影响(7B)


INT4(推荐):45–65 token/s,2.5GB 勉强装下(W4A16 约 3.5GB,需部分 offload 或精简上下文)


INT8:25–35 token/s,内存不足(7B INT8 约 7GB),必须大量 offload,延迟陡增


3. 为什么 “帧率”(token/s)不算高


7B 模型权重 + KV 缓存:INT4 约 3.5GB,超过 RK1820 的 2.5GB,必须:


缩短上下文(如 4K→2K)


部分 KV 缓存 offload 到主控(PCIe 2.0 瓶颈)


带宽虽高(1TB/s),但 7B 对内存 / 带宽需求比 3B 高很多。


4. 适用场景


✅ 能跑:轻量对话、指令跟随、摘要(上下文 ≤2K,INT4)


❌ 不适合:长文本、多模态 VLM、高并发(内存 / 延迟压力大)


5. 总结


RK1820MC0 跑 7B:INT4 下 45–65 token/s、首包 15–25ms;能用来做端侧轻量交互,但不如 5GB 的 RK1828 顺畅。

家具维修培训

- END -
分享:
留言 留言 试用申请
产品咨询 产品咨询 硬件设备咨询
华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
技术咨询 技术咨询 软件算法咨询
18982151213(刘先生)
微信在线客服 微信在线客服 在线客服
返回官网顶部 返回官网顶部 回到顶部
关闭窗口
产品订购
  • *

  • *

  • *

  • *

  • *