华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
软件算法咨询:18982151213(刘先生)

联系我们
产品咨询

国产算力卡TOP20完整对比:云端训练卡+M.2边缘推理卡

作者:万物纵横
发布时间:2026-06-26 10:17
阅读量:

国产算力卡 TOP20 完整对比(分两大类:云端训练卡 + M.2 边缘推理卡)


说明:


1. 榜单分云端大卡(PCIe 全长训练 / 推理)TOP10、M.2 小型边缘算力卡 TOP10,合计 20 款;


2. 算力统一标注:FP16/BF16(训练)、INT8(推理);


3. 功耗、显存、PCIe、尺寸、定位、适用场景全部标准化;


4. 2026 年市面主流量产型号,覆盖昇腾、寒武纪、算能、瑞芯微、后摩、爱芯、地平线、摩尔线程、昆仑芯、天数智芯。


国产算力卡TOP20完整对比:云端训练卡+M.2边缘推理卡(图1)


一、云端 PCIe 训练 / 推理算力卡 TOP10(大卡,主打大模型训练 + 云端推理)


排名

 

型号

厂商

核心算力

显存 / 带宽

功耗

接口

定位

核心优势

1

昇腾 910B

华为海思

FP16 320TFINT8 640TOPS

64GB HBM2 /1.2TB/s

300W

PCIe4.0 x16

千亿大模型训练

国产训练标杆,MindSpore 全栈,千卡集群线性加速 91%

2

昆仑芯 P800

百度昆仑

BF16 345TFINT8 690TOPS

64GB HBM2E /1.1TB/s

320W

PCIe4.0 x16

训推一体

XPU 异构,LLaMA/DeepSeek 原生优化

3

思元 MLU370-X8

寒武纪

FP16 256TFINT8 512TOPS

48GB LPDDR5 /614GB/s

250W

PCIe4.0 x16

大模型微调推理

MLU 架构,多模态并发强,视频结构化首选

4

天数智芯智铠 100

天数智芯

FP16 96TFINT8 384TOPS

32GB HBM2E /1024GB/s

150W

PCIe4.0 x16

通用 GPU 训推

兼容 CUDA 迁移,支持 FP8 混合精度训练

5

摩尔线程 MTT S4000

摩尔线程

FP16 112TFINT8 448TOPS

48GB GDDR6 /768GB/s

300W

PCIe4.0 x16

AIGC + 渲染训推

MUSA 图形 + AI 双栈,数字孪生一站式

6

昇腾 310B PCIe

华为海思

FP16 88TFINT8 176TOPS

16GB LPDDR4X /256GB/s

75W

PCIe4.0 x16

云端高并发推理

低功耗高密度,政务 / 运营商推理集群

7

思元 MLU370-X4

寒武纪

FP16 128TFINT8 256TOPS

24GB LPDDR5 /307GB/s

150W

PCIe4.0 x16

中小模型推理

半高半长,机架高密度部署

8

算能 BM1688 PCIe

算能 Sophon

FP16 64TFINT8 128TOPS

16GB LPDDR5 /204GB/s

60W

PCIe3.0 x16

视频 AI 推理

多路 4K 编解码,智慧城市标配

9

海光 DCU Z100

海光信息

FP16 84TFINT8 336TOPS

32GB GDDR6 /720GB/s

180W

PCIe4.0 x16

信创通用计算

x86 深度适配,金融 AI 替代英伟达

10

地平线 BPU XJ3 PCIe

地平线

FP16 42TFINT8 84TOPS

8GB LPDDR4 /128GB/s

35W

PCIe3.0 x8

车路协同推理

自动驾驶、边缘路侧高实时性


二、M.2 边缘算力卡 TOP10(2280 标准,嵌入式 / 工控 / 小型服务器推理,少量支持微调)


M.2 卡统一说明:全部 M.2 2280 尺寸,B/M/M-Key,被动 / 小型主动散热,主打端侧 / 边缘 LLM、视觉推理


排名

型号

厂商

INT8 算力

BF16/FP16 算力

板载显存

典型功耗

PCIe 通道

定位

适配场景

1

后摩 LQ50 Duo M.2

后摩智能

320 TOPS

200 TF bFP16

24GB LPDDR5

≤26W

PCIe4.0 x8

M.2 最强训推一体

边缘私有化 7B/13B 大模型、多模态一体机

2

后摩 LQ50 单芯 M.2

后摩智能

160 TOPS

100 TF bFP16

18/24GB LPDDR5

≤13W

PCIe4.0 x8

高性能边缘推理

小型服务器本地 LLM 部署

3

瑞芯微 RK1828 M.2

瑞芯微

20 TOPS

8 TF FP16

5GB DRAM

7W

PCIe3.0 x4

工业 AI 推理

工控机、机器人、视觉检测

4

寒武纪 MLU220-M.2

寒武纪

8 TOPS

3.2 TF FP16

4GB LPDDR4x

8.25W

PCIe3.0 x2

轻量化边缘推理

小型网关、IPC 扩展、嵌入式主机

5

爱芯元智 AX650 M.2

爱芯

18 TOPS

7.2 TF FP16

4/8GB LPDDR4x

6W

PCIe3.0 x4

多路视频 + LLM

智能盒、边缘 NVR、本地大模型对话机

6

DEEPX AIM-M-DX M.2

深视智能

25 TOPS

10 TF FP16

4GB LPDDR5

2–5W

PCIe3.0 x4

超低功耗端侧推理

无人机、便携设备、无风扇工控

7

算能 BM1684 M.2

算能 Sophon

12 TOPS

4.8 TF FP16

4GB LPDDR4

9W

PCIe3.0 x4

多路视频结构化

智慧工地、人脸闸机、边缘录像机

8

地平线 XJ2 M.2

地平线

10 TOPS

4 TF FP16

2GB LPDDR4

5W

PCIe3.0 x2

车载 / 路侧轻量化

边缘道闸、车载工控、低延迟视觉

9

平头哥玄铁 E10 M.2

阿里平头哥

14 TOPS

5.6 TF FP16

4GB LPDDR4x

7W

PCIe3.0 x4

信创嵌入式推理

国产化小型服务器、信创网关

10

壁仞 BR100i M.2

壁仞科技

40 TOPS

16 TF BF16

8GB LPDDR5

12W

PCIe4.0 x4

中端边缘微调推理

本地 7B 模型微调、多模态 AI 终端


三、核心维度分层总结


1. 训练能力分级(仅大卡具备完整训练,M.2 仅支持微调 / 小模型)


第一梯队(千亿大模型训练):昇腾 910B、昆仑芯 P800


第二梯队(百亿模型微调 + 云端推理):MLU370-X8、智铠 100、MTT S4000


第三梯队(纯云端推理,不适合全量训练):昇腾 310B、BM1688、DCU Z100


M.2 全部:仅支持 7B 及以下 LLM 本地推理、少量微调,无法做大规模训练


2. M.2 算力卡能效 & 选型指南


1. 本地私有化大模型(7B/13B):LQ50 Duo > LQ50 单芯 > 壁仞 BR100i


2. 工业视觉 / 多路视频(16–32 路 1080P):AX650 > BM1684 > RK1828


3. 无风扇超低功耗(<5W):DEEPX AIM-M-DX


4. 极小嵌入式网关、低预算:MLU220-M.2、地平线 XJ2


3. 关键参数区分要点


1. 接口带宽:PCIe4.0 x8 M.2(后摩 LQ50)吞吐远高于 PCIe3.0 x2/x4,跑大模型延迟低 40%+


2. 显存容量:M.2 仅后摩系列做到 18–24GB,其余多为 4–8GB,显存决定能加载的 LLM 参数量


3. 数据精度:后摩专用 bFP16 优化 Transformer;昇腾 / 寒武纪通用 FP16;DEEPX 侧重 INT4/INT8 低功耗量化


4. 软件生态


昇腾:CANN+MindSpore 政企信创最优


寒武纪:Cambricon Neuware 视觉场景成熟


算能:Sophon SDK 视频结构化行业落地最多


后摩:大道平台 边缘 LLM 部署最简

家具美容培训

家具维修培训

- END -
分享:
留言 留言 试用申请
产品咨询 产品咨询 硬件设备咨询
华北地区负责人:17340067106(毛经理)
华东地区负责人:17358670739(甘经理)
华南、华西地区负责人:19113907060(耿女士)
技术咨询 技术咨询 软件算法咨询
18982151213(刘先生)
微信在线客服 微信在线客服 在线客服
返回官网顶部 返回官网顶部 回到顶部
关闭窗口
产品订购
  • *

  • *

  • *

  • *

  • *