一、核心参数对比(2026 主流旗舰)
1)英伟达 H100(SXM5)
工艺:4nm(台积电)
FP16:1979 TFLOPS(Tensor Core)
FP8:3958 TFLOPS
显存:80GB HBM3,3.35 TB/s
互联:NVLink 900 GB/s
功耗:700W

2)国产旗舰代表(昇腾 910B / 海光 BW1000)
参数 | 昇腾 910B | 海光 BW1000 | H100 | 国产 / H100 |
FP16 TFLOPS | 376 | 480 | 1979 | 19%–24% |
显存 | 64GB HBM2e | 64GB HBM2e | 80GB HBM3 | 80% |
带宽 | 1.6 TB/s | 1.6 TB/s | 3.35 TB/s | 48% |
互联 | HCCL ~200GB/s | PCIe 5.0 | NVLink 900GB/s | 22% |
功耗 | 320W | 300W | 700W | 低 40% |
一句话:单卡理论算力差 4–5 倍,带宽 / 互联差 2–4 倍。
二、实测训练性能(大模型 / CV 任务)
1)LLM 训练(175B 类 GPT,FP16)
H100:单卡吞吐约 280–320 token/s
昇腾 910B:110–140 token/s(≈H100 的 40%–45%)
海光 BW1000:140–170 token/s(≈H100 的 50%–55%)
2)CV 训练(ResNet50,batch=256)
H100:3250 img/s
昇腾 910B:2780 img/s(≈85%)
海光 K100:2150 img/s(≈66%)
3)集群效率(关键差距)
H100 集群(NVLink):80%–90% 线性扩展
国产集群(PCIe/HCCL):40%–60% 线性扩展
举例:千亿模型训练
H100:约 21–28 天(8 卡)
国产(910B):约 45–60 天(8 卡),周期 ×2–3
三、训练效果(收敛 / 精度)
在 \\ 相同超参、数据、框架(移植后)\\ 下:
收敛曲线:loss 下降趋势几乎重合,差距 <5%
最终精度:
LLM:困惑度(PPL)差距 1%–2%
CV:Top-1 精度差距 0.5%–1.5%
结论:国产卡能训出和 H100 质量相当的模型,只是更慢
四、差距原因(不只是硬件)
1. 制程与微架构
H100:4nm + Hopper Transformer 引擎,FP8 原生支持
国产:7nm/14nm,FP8 多为后期优化,效率低 30%+
2. 内存墙
HBM3 带宽是国产 HBM2e 的 2 倍 +,大模型 / 高分辨率任务瓶颈明显
3. 互联是集群命门
NVLink 900GB/s vs 国产~200GB/s,多卡通信延迟高 2–5 倍
4. 软件生态(最大隐形差距)
CUDA:15 年积累,PyTorch/TensorFlow 原生支持,90% 开源模型直接跑
国产:需移植 / 重写算子,迁移成本 30%–50%,新特性滞后 3–6 个月
五、成本与选型参考(2026 市场价)
H100:25–35 万 / 卡,8 卡服务器 250–350 万
昇腾 910B:8–12 万 / 卡,8 卡 80–120 万
海光 BW1000:9–13 万 / 卡,8 卡 90–130 万
性价比结论:
小模型 / 推理:国产更划算(性能≈H100 50%,价格≈1/3)
千亿 + 大模型训练:H100 综合成本更低(周期短、集群效率高、生态成熟)
六、总结
单卡算力差 4–5 倍,实际训练吞吐差 2–3 倍,集群效率差 1.5–2 倍
训练效果(精度 / 收敛)差距很小(1%–3%),国产卡能训出可用模型
核心差距不在硬件,而在生态与系统级互联,这需要 3–5 年追赶
需求留言: