国产算力卡 TOP20 完整对比(分两大类:云端训练卡 + M.2 边缘推理卡)
说明:
1. 榜单分云端大卡(PCIe 全长训练 / 推理)TOP10、M.2 小型边缘算力卡 TOP10,合计 20 款;
2. 算力统一标注:FP16/BF16(训练)、INT8(推理);
3. 功耗、显存、PCIe、尺寸、定位、适用场景全部标准化;
4. 2026 年市面主流量产型号,覆盖昇腾、寒武纪、算能、瑞芯微、后摩、爱芯、地平线、摩尔线程、昆仑芯、天数智芯。

一、云端 PCIe 训练 / 推理算力卡 TOP10(大卡,主打大模型训练 + 云端推理)
排名
| 型号 | 厂商 | 核心算力 | 显存 / 带宽 | 功耗 | 接口 | 定位 | 核心优势 |
1 | 昇腾 910B | 华为海思 | FP16 320TF,INT8 640TOPS | 64GB HBM2 /1.2TB/s | 300W | PCIe4.0 x16 | 千亿大模型训练 | 国产训练标杆,MindSpore 全栈,千卡集群线性加速 91% |
2 | 昆仑芯 P800 | 百度昆仑 | BF16 345TF,INT8 690TOPS | 64GB HBM2E /1.1TB/s | 320W | PCIe4.0 x16 | 训推一体 | XPU 异构,LLaMA/DeepSeek 原生优化 |
3 | 思元 MLU370-X8 | 寒武纪 | FP16 256TF,INT8 512TOPS | 48GB LPDDR5 /614GB/s | 250W | PCIe4.0 x16 | 大模型微调推理 | MLU 架构,多模态并发强,视频结构化首选 |
4 | 天数智芯智铠 100 | 天数智芯 | FP16 96TF,INT8 384TOPS | 32GB HBM2E /1024GB/s | 150W | PCIe4.0 x16 | 通用 GPU 训推 | 兼容 CUDA 迁移,支持 FP8 混合精度训练 |
5 | 摩尔线程 MTT S4000 | 摩尔线程 | FP16 112TF,INT8 448TOPS | 48GB GDDR6 /768GB/s | 300W | PCIe4.0 x16 | AIGC + 渲染训推 | MUSA 图形 + AI 双栈,数字孪生一站式 |
6 | 昇腾 310B PCIe 卡 | 华为海思 | FP16 88TF,INT8 176TOPS | 16GB LPDDR4X /256GB/s | 75W | PCIe4.0 x16 | 云端高并发推理 | 低功耗高密度,政务 / 运营商推理集群 |
7 | 思元 MLU370-X4 | 寒武纪 | FP16 128TF,INT8 256TOPS | 24GB LPDDR5 /307GB/s | 150W | PCIe4.0 x16 | 中小模型推理 | 半高半长,机架高密度部署 |
8 | 算能 BM1688 PCIe | 算能 Sophon | FP16 64TF,INT8 128TOPS | 16GB LPDDR5 /204GB/s | 60W | PCIe3.0 x16 | 视频 AI 推理 | 多路 4K 编解码,智慧城市标配 |
9 | 海光 DCU Z100 | 海光信息 | FP16 84TF,INT8 336TOPS | 32GB GDDR6 /720GB/s | 180W | PCIe4.0 x16 | 信创通用计算 | x86 深度适配,金融 AI 替代英伟达 |
10 | 地平线 BPU XJ3 PCIe | 地平线 | FP16 42TF,INT8 84TOPS | 8GB LPDDR4 /128GB/s | 35W | PCIe3.0 x8 | 车路协同推理 | 自动驾驶、边缘路侧高实时性 |
二、M.2 边缘算力卡 TOP10(2280 标准,嵌入式 / 工控 / 小型服务器推理,少量支持微调)
M.2 卡统一说明:全部 M.2 2280 尺寸,B/M/M-Key,被动 / 小型主动散热,主打端侧 / 边缘 LLM、视觉推理
排名 | 型号 | 厂商 | INT8 算力 | BF16/FP16 算力 | 板载显存 | 典型功耗 | PCIe 通道 | 定位 | 适配场景 |
1 | 后摩 LQ50 Duo M.2 | 后摩智能 | 320 TOPS | 200 TF bFP16 | 24GB LPDDR5 | ≤26W | PCIe4.0 x8 | M.2 最强训推一体 | 边缘私有化 7B/13B 大模型、多模态一体机 |
2 | 后摩 LQ50 单芯 M.2 | 后摩智能 | 160 TOPS | 100 TF bFP16 | 18/24GB LPDDR5 | ≤13W | PCIe4.0 x8 | 高性能边缘推理 | 小型服务器本地 LLM 部署 |
3 | 瑞芯微 RK1828 M.2 | 瑞芯微 | 20 TOPS | 8 TF FP16 | 5GB DRAM | 7W | PCIe3.0 x4 | 工业 AI 推理 | 工控机、机器人、视觉检测 |
4 | 寒武纪 MLU220-M.2 | 寒武纪 | 8 TOPS | 3.2 TF FP16 | 4GB LPDDR4x | 8.25W | PCIe3.0 x2 | 轻量化边缘推理 | 小型网关、IPC 扩展、嵌入式主机 |
5 | 爱芯元智 AX650 M.2 | 爱芯 | 18 TOPS | 7.2 TF FP16 | 4/8GB LPDDR4x | 6W | PCIe3.0 x4 | 多路视频 + 小 LLM | 智能盒、边缘 NVR、本地大模型对话机 |
6 | DEEPX AIM-M-DX M.2 | 深视智能 | 25 TOPS | 10 TF FP16 | 4GB LPDDR5 | 2–5W | PCIe3.0 x4 | 超低功耗端侧推理 | 无人机、便携设备、无风扇工控 |
7 | 算能 BM1684 M.2 | 算能 Sophon | 12 TOPS | 4.8 TF FP16 | 4GB LPDDR4 | 9W | PCIe3.0 x4 | 多路视频结构化 | 智慧工地、人脸闸机、边缘录像机 |
8 | 地平线 XJ2 M.2 | 地平线 | 10 TOPS | 4 TF FP16 | 2GB LPDDR4 | 5W | PCIe3.0 x2 | 车载 / 路侧轻量化 | 边缘道闸、车载工控、低延迟视觉 |
9 | 平头哥玄铁 E10 M.2 | 阿里平头哥 | 14 TOPS | 5.6 TF FP16 | 4GB LPDDR4x | 7W | PCIe3.0 x4 | 信创嵌入式推理 | 国产化小型服务器、信创网关 |
10 | 壁仞 BR100i M.2 | 壁仞科技 | 40 TOPS | 16 TF BF16 | 8GB LPDDR5 | 12W | PCIe4.0 x4 | 中端边缘微调推理 | 本地 7B 模型微调、多模态 AI 终端 |
三、核心维度分层总结
1. 训练能力分级(仅大卡具备完整训练,M.2 仅支持微调 / 小模型)
第一梯队(千亿大模型训练):昇腾 910B、昆仑芯 P800
第二梯队(百亿模型微调 + 云端推理):MLU370-X8、智铠 100、MTT S4000
第三梯队(纯云端推理,不适合全量训练):昇腾 310B、BM1688、DCU Z100
M.2 全部:仅支持 7B 及以下 LLM 本地推理、少量微调,无法做大规模训练
2. M.2 算力卡能效 & 选型指南
1. 本地私有化大模型(7B/13B):LQ50 Duo > LQ50 单芯 > 壁仞 BR100i
2. 工业视觉 / 多路视频(16–32 路 1080P):AX650 > BM1684 > RK1828
3. 无风扇超低功耗(<5W):DEEPX AIM-M-DX
4. 极小嵌入式网关、低预算:MLU220-M.2、地平线 XJ2
3. 关键参数区分要点
1. 接口带宽:PCIe4.0 x8 M.2(后摩 LQ50)吞吐远高于 PCIe3.0 x2/x4,跑大模型延迟低 40%+
2. 显存容量:M.2 仅后摩系列做到 18–24GB,其余多为 4–8GB,显存决定能加载的 LLM 参数量
3. 数据精度:后摩专用 bFP16 优化 Transformer;昇腾 / 寒武纪通用 FP16;DEEPX 侧重 INT4/INT8 低功耗量化
4. 软件生态
昇腾:CANN+MindSpore 政企信创最优
寒武纪:Cambricon Neuware 视觉场景成熟
算能:Sophon SDK 视频结构化行业落地最多
后摩:大道平台 边缘 LLM 部署最简
需求留言: