华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
软件算法咨询:18982151213(刘先生)

联系我们
产品咨询

除了通义千问,瑞芯微RK182X还能适配哪些大语言模型?

作者:万物纵横
发布时间:2026-05-08 09:56
阅读量:

RK182X(RK1820/RK1828)已完成20 + 主流大语言模型适配,覆盖国产、开源主流体系,支持 0.5B–8B 参数,INT4/FP16 量化,延迟普遍≤200ms、TPS≥50。


除了通义千问,瑞芯微RK182X还能适配哪些大语言模型?(图1)


一、国产主流 LLM(深度优化,实测可跑)


通义千问(Qwen):Qwen2.5-1.5B/3B/7B、Qwen3-8B;TTFT 80–160ms,TPS 56–87。


DeepSeek:DeepSeek-R1-Distill、DeepSeek-7B;TPS 60–80,适合对话 / 推理。


智谱 GLM:ChatGLM3-6B、GLM Edge;TTFT<180ms,支持多轮对话。


MiniCPM:MiniCPM-2B/4B,轻量高效;TPS>90,适合移动端 / 嵌入式。


InternLM2(书生):InternLM2-7B;稳定推理,适配端侧创作 / 问答。


TeleChat(天枢):TeleChat-7B;中文优化,低延迟对话。


二、国际开源 LLM(兼容适配,可部署)


LLaMA2:LLaMA2-7B/13B(INT4);TPS 50–70,需授权。


Mistral:Mistral-7B-v0.3;TTFT<150ms,吞吐高。


Phi:Phi-2-2.7B;轻量极速,TTFT<50ms,TPS>120。


Gemma:Gemma-2B/7B;Google 开源,适配端侧教育 / 助手场景。


TinyLLAMA:TinyLLAMA-1.1B;超低功耗,适合 IoT / 便携设备。


三、多模态 VLM(识图 / 摘要,0.1s 级)


Qwen-VL 系列:Qwen3-VL-2B/4B、Qwen2.5-Omni-3B;图文理解 / 摘要,TPS 90–136。


MiniCPM-V:MiniCPM-V-2B;端侧 OCR + 识图,精度≥98%。


其他:LLaVA、MiniGPT-4;支持图像描述 / 文档分析。


四、适配核心条件(为何能跑这么多)


1. 算力与内存:20 TOPS NPU + 2.5GB/5GB 3D DRAM(1TB/s 带宽),解决 7B 模型带宽瓶颈。


2. RKNN-Toolkit2:支持 INT4/FP16 量化、剪枝、蒸馏,显存占用降 75%,适配端侧资源。


3. 双芯协同:RK3588+RK182X 分工,交互延迟<0.5ms,调度高效。


五、选型参考(按场景)


实时对话(低延迟):Qwen2.5-3B、Phi-2、MiniCPM-2B(TTFT<100ms)。


图文识图 / 摘要:Qwen3-VL-2B、MiniCPM-V(端到端≤0.1s)。


离线创作 / 推理:Qwen2.5-7B、LLaMA2-7B、InternLM2-7B(TPS≥50)。

- END -
分享:
留言 留言 试用申请
产品咨询 产品咨询 硬件设备咨询
华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
技术咨询 技术咨询 软件算法咨询
18982151213(刘先生)
微信在线客服 微信在线客服 在线客服
返回官网顶部 返回官网顶部 回到顶部
关闭窗口
产品订购
  • *

  • *

  • *

  • *

  • *