先把事实说清楚:在 MLPerf Inference 3.1(2023 年 9 月)的 GPT-J 60B 推理任务上,墨芯 S30 确实超过了 H100,拿到单卡 / 4 卡 / 8 卡三项第一;但这是 “稀疏推理 + 特定模型 + 旧版 MLPerf” 下的第一,不能简单说成 “全面碾压 H100” 或 “全球第一实锤”。

一、事件背景与核心数据
MLPerf Inference 3.1(2023 年 9 月):首次引入 GPT 类大模型推理测试,全球 13500 + 项提交。
墨芯 S30 成绩(GPT-J 60B,稀疏推理):
单卡:23.28 sample/s(H100 约 12.9 sample/s,约1.8 倍)
4 卡:91.57 sample/s
8 卡:170.59 sample/s
S30 基本规格:
芯片:Antoum®(自研,12nm)
稀疏能力:最高 32 倍结构化稀疏(核心优势)
功耗:250W(远低于 H100 700W)
定位:AI 推理专用卡(非训练卡)
二、“碾压 H100” 的真相与局限
1. 确实领先的地方
稀疏推理 + 大模型(GPT-J 60B):S30 靠硬件原生支持高稀疏率,在 “稀疏化后的模型推理” 上,能效和速度都超过 H100。
低功耗高性能:250W 下做到 H100 约 1.8 倍的推理吞吐,能效比优势明显。
国产推理算力里程碑:中国 AI 芯片首次在大模型推理权威榜单上超越英伟达旗舰,且是连续三次 MLPerf 卫冕(2.1/3.0/3.1)。
2. 不能说 “全面碾压” 的关键局限
仅限稀疏推理场景:S30 强在结构化稀疏模型(如 GPT-J 稀疏化后);稠密模型(如原生 H100 优化的 GPT-3/4、Llama)推理,H100 仍强得多。
仅限推理,不能训练:S30 是推理专用卡,完全不能做 AI 训练;H100 是训练 + 推理全能卡,训练能力全球顶尖。
MLPerf 版本较旧:3.1 是2023 年 9 月结果;2026 年最新 v6.0中,英伟达 Blackwell(GB200/300)在多数大模型推理上又拉开差距,S30 未参与最新 v6.0。
生态成熟度差距大:H100 有CUDA 全生态、全球最完善的模型适配与工具链;S30 生态仍在建设,主流大模型稠密部署支持有限。
三、结论:理性看待 “国产第一”
✅ 在 “稀疏大模型推理 + 低功耗” 赛道,墨芯 S30 是全球第一,确实强于 H100,这是国产 AI 算力的重大突破。
❌ 不能等同于 “全面碾压 H100” 或 “全球最强算力卡”:
稠密推理、训练、生态,H100/Blackwell 仍绝对领先。
S30 是推理专用、稀疏优化的细分赛道冠军,而非通用算力王者。
四、一句话总结
墨芯 S30 在稀疏大模型推理(GPT-J 60B)上,以 1.8 倍 H100 的性能、250W 低功耗,拿下 MLPerf 3.1 全球第一,是国产推理算力的里程碑;但 “碾压 H100”“全球第一” 需限定场景,不能泛化。
需求留言: