AI 热点快报:AMD MI355X 跑 GLM5.2 推理成本仅为 Blackwell 一半(2026-07-04)
事件与背景
2026 年 7 月 3 日,AI 推理基础设施提供商 Wafer 发布了一份详实的性能基准报告,展示了智谱 AI 最新模型 GLM5.2 在 AMD Instinct MI355X 上的推理表现。在典型生产负载(20k 输入 / 1k 输出,60% 缓存命中率)下,单节点实现了 2626 tok/s 聚合吞吐,同时推理总成本较 NVIDIA B200/B300 方案降低 2 倍以上。
这是继 Qwen3.5 397B 在 AMD 平台上的成功优化后,又一款前沿模型在非 NVIDIA 硬件上取得接近甚至优于 Blackwell 的经济性数据。此前,业界普遍认为 AMD 的 ROCm 软件栈在面对新模型时往往需要数月适配,但这一纪录正在被快速打破。
为什么现在重要
推理需求爆发,供给缺口倒逼多元化
随着 Claude Fable、GLM5.2、Minimax M3 等前沿模型密集发布,推理 Token 需求呈指数级增长,NVIDIA Blackwell 的产能已无法覆盖全部需求,GPU 价格持续攀升。AMD MI355X 的单卡成本仅为 B300 的约 36%(2.75 倍价差),性价比优势显著。
量化+框架优化弥补软件差距
Wafer 团队用 AMD Quark 将 GLM5.2 从 bf16 量化为 MXFP4,在 GPQA-Diamond、tau2、GSM8K 等基准上无损。推理框架选择了 sglang(而非 vLLM 或 ATOM),仅需少量内核选择调优即可达到生产级性能——这次甚至没有编写任何自定义内核。
“CUDA 护城河”正在以肉眼可见的速度消融
过去两年,NVIDIA 的 CUDA 生态被视为不可逾越的壁垒,但 Wafer 团队明确指出:SOTA on AMD 现在更多是支持问题而非软件问题。当 AI Agent 本身可以辅助 kernel 优化和框架适配时,AMD 的追赶周期从数月缩短到数周甚至数天。
对创业公司/中型团队的实际意义
对于预算有限的 AI 团队,Blackwell 集群的高昂成本是扩量的主要瓶颈。AMD MI355X 方案让同等预算下的推理吞吐翻倍,使得更多团队可以承担大规模推理部署,加速从模型研发到产品落地的闭环。
开源模型+开放硬件组合正在形成正向循环
GLM5.2 是开源模型,AMD 硬件是开放生态,sglang 是开源推理框架——这种全栈开源的组合正在取代专有闭环成为性价比最优解,对行业竞争格局有深远影响。
工程师/产品人今天能做什么
-
评估自身推理负载的 AMD 适配可行性:如果你的生产推理以批量预填充(prefill-heavy)为主,AMD MI355X 的性价比优势尤为突出,建议用你的实际模型和 sglang 做一轮 POC。
-
关注 MXFP4 量化工具链:AMD Quark 的 MXFP4 量化在 GLM5.2 上做到了无损,建议检查你的模型在 MXFP4 精度下的质量损失,准备迁移计划。
-
建立 GPU 选型的第二供应商策略:不要把所有推理绑定在单一 GPU 供应商上。AMD MI355X、甚至未来 Intel 的方案都值得纳入长期路线图,以应对 Blackwell 产能瓶颈和定价波动。
-
在推理堆栈中预留框架抽象层:vLLM、sglang、ATOM 之间的迁移成本目前在数周量级。建议在推理服务架构中做框架无关抽象,方便在不同硬件-框架组合间切换。
-
关注 Wafer 和类似服务商的定价变化:推理即服务(Inference-as-a-Service)的定价正在快速下探,AMD 方案的规模化部署将进一步压低 Token 成本。如果你的业务对推理成本敏感,现在是重新谈判供应商的好时机。
待观察
- Multi-node 性能数据尚未公布:本次报告仅覆盖单节点。对于需要跨节点扩展的分布式推理负载,AMD 的表现尚待验证。
- Anthropic Claude Mythos 发布后 CVE 漏洞数量激增 3.5 倍:Epoch AI 数据显示,2026 年 6 月高/严重级别 CVE 披露量达约 1,500 件,较 Mythos 发布前月纪录高出 3.5 倍。AI 辅助漏洞挖掘正在改变安全行业生产关系,值得持续关注。
- NVIDIA 的回应:B300 的供应紧张是短期还是中期问题?NVIDIA 是否会通过定价调整或推出降级产品来回应 AMD 的性价比攻势?这将是未来 1-2 个季度的关键看点。