RK182X(RK1820/RK1828)已完成20 + 主流大语言模型适配,覆盖国产、开源主流体系,支持 0.5B–8B 参数,INT4/FP16 量化,延迟普遍≤200ms、TPS≥50。

一、国产主流 LLM(深度优化,实测可跑)
通义千问(Qwen):Qwen2.5-1.5B/3B/7B、Qwen3-8B;TTFT 80–160ms,TPS 56–87。
DeepSeek:DeepSeek-R1-Distill、DeepSeek-7B;TPS 60–80,适合对话 / 推理。
智谱 GLM:ChatGLM3-6B、GLM Edge;TTFT<180ms,支持多轮对话。
MiniCPM:MiniCPM-2B/4B,轻量高效;TPS>90,适合移动端 / 嵌入式。
InternLM2(书生):InternLM2-7B;稳定推理,适配端侧创作 / 问答。
TeleChat(天枢):TeleChat-7B;中文优化,低延迟对话。
二、国际开源 LLM(兼容适配,可部署)
LLaMA2:LLaMA2-7B/13B(INT4);TPS 50–70,需授权。
Mistral:Mistral-7B-v0.3;TTFT<150ms,吞吐高。
Phi:Phi-2-2.7B;轻量极速,TTFT<50ms,TPS>120。
Gemma:Gemma-2B/7B;Google 开源,适配端侧教育 / 助手场景。
TinyLLAMA:TinyLLAMA-1.1B;超低功耗,适合 IoT / 便携设备。
三、多模态 VLM(识图 / 摘要,0.1s 级)
Qwen-VL 系列:Qwen3-VL-2B/4B、Qwen2.5-Omni-3B;图文理解 / 摘要,TPS 90–136。
MiniCPM-V:MiniCPM-V-2B;端侧 OCR + 识图,精度≥98%。
其他:LLaVA、MiniGPT-4;支持图像描述 / 文档分析。
四、适配核心条件(为何能跑这么多)
1. 算力与内存:20 TOPS NPU + 2.5GB/5GB 3D DRAM(1TB/s 带宽),解决 7B 模型带宽瓶颈。
2. RKNN-Toolkit2:支持 INT4/FP16 量化、剪枝、蒸馏,显存占用降 75%,适配端侧资源。
3. 双芯协同:RK3588+RK182X 分工,交互延迟<0.5ms,调度高效。
五、选型参考(按场景)
实时对话(低延迟):Qwen2.5-3B、Phi-2、MiniCPM-2B(TTFT<100ms)。
图文识图 / 摘要:Qwen3-VL-2B、MiniCPM-V(端到端≤0.1s)。
离线创作 / 推理:Qwen2.5-7B、LLaMA2-7B、InternLM2-7B(TPS≥50)。
需求留言: