Jul 4, 2026

AI 热点快报：AMD MI355X 跑 GLM5.2 推理成本仅为 Blackwell 一半（2026-07-04）

事件与背景

2026 年 7 月 3 日，AI 推理基础设施提供商 Wafer 发布了一份详实的性能基准报告，展示了智谱 AI 最新模型 GLM5.2 在 AMD Instinct MI355X 上的推理表现。在典型生产负载（20k 输入 / 1k 输出，60% 缓存命中率）下，单节点实现了 2626 tok/s 聚合吞吐，同时推理总成本较 NVIDIA B200/B300 方案降低 2 倍以上。

这是继 Qwen3.5 397B 在 AMD 平台上的成功优化后，又一款前沿模型在非 NVIDIA 硬件上取得接近甚至优于 Blackwell 的经济性数据。此前，业界普遍认为 AMD 的 ROCm 软件栈在面对新模型时往往需要数月适配，但这一纪录正在被快速打破。

为什么现在重要

推理需求爆发，供给缺口倒逼多元化

随着 Claude Fable、GLM5.2、Minimax M3 等前沿模型密集发布，推理 Token 需求呈指数级增长，NVIDIA Blackwell 的产能已无法覆盖全部需求，GPU 价格持续攀升。AMD MI355X 的单卡成本仅为 B300 的约 36%（2.75 倍价差），性价比优势显著。

量化+框架优化弥补软件差距

Wafer 团队用 AMD Quark 将 GLM5.2 从 bf16 量化为 MXFP4，在 GPQA-Diamond、tau2、GSM8K 等基准上无损。推理框架选择了 sglang（而非 vLLM 或 ATOM），仅需少量内核选择调优即可达到生产级性能——这次甚至没有编写任何自定义内核。

“CUDA 护城河”正在以肉眼可见的速度消融

过去两年，NVIDIA 的 CUDA 生态被视为不可逾越的壁垒，但 Wafer 团队明确指出：SOTA on AMD 现在更多是支持问题而非软件问题。当 AI Agent 本身可以辅助 kernel 优化和框架适配时，AMD 的追赶周期从数月缩短到数周甚至数天。

对创业公司/中型团队的实际意义

对于预算有限的 AI 团队，Blackwell 集群的高昂成本是扩量的主要瓶颈。AMD MI355X 方案让同等预算下的推理吞吐翻倍，使得更多团队可以承担大规模推理部署，加速从模型研发到产品落地的闭环。

开源模型+开放硬件组合正在形成正向循环

GLM5.2 是开源模型，AMD 硬件是开放生态，sglang 是开源推理框架——这种全栈开源的组合正在取代专有闭环成为性价比最优解，对行业竞争格局有深远影响。

工程师/产品人今天能做什么

评估自身推理负载的 AMD 适配可行性：如果你的生产推理以批量预填充（prefill-heavy）为主，AMD MI355X 的性价比优势尤为突出，建议用你的实际模型和 sglang 做一轮 POC。
关注 MXFP4 量化工具链：AMD Quark 的 MXFP4 量化在 GLM5.2 上做到了无损，建议检查你的模型在 MXFP4 精度下的质量损失，准备迁移计划。
建立 GPU 选型的第二供应商策略：不要把所有推理绑定在单一 GPU 供应商上。AMD MI355X、甚至未来 Intel 的方案都值得纳入长期路线图，以应对 Blackwell 产能瓶颈和定价波动。
在推理堆栈中预留框架抽象层：vLLM、sglang、ATOM 之间的迁移成本目前在数周量级。建议在推理服务架构中做框架无关抽象，方便在不同硬件-框架组合间切换。
关注 Wafer 和类似服务商的定价变化：推理即服务（Inference-as-a-Service）的定价正在快速下探，AMD 方案的规模化部署将进一步压低 Token 成本。如果你的业务对推理成本敏感，现在是重新谈判供应商的好时机。

待观察

Multi-node 性能数据尚未公布：本次报告仅覆盖单节点。对于需要跨节点扩展的分布式推理负载，AMD 的表现尚待验证。
Anthropic Claude Mythos 发布后 CVE 漏洞数量激增 3.5 倍：Epoch AI 数据显示，2026 年 6 月高/严重级别 CVE 披露量达约 1,500 件，较 Mythos 发布前月纪录高出 3.5 倍。AI 辅助漏洞挖掘正在改变安全行业生产关系，值得持续关注。
- Epoch AI: Disclosed CVEs Spike After Claude Mythos
NVIDIA 的回应：B300 的供应紧张是短期还是中期问题？NVIDIA 是否会通过定价调整或推出降级产品来回应 AMD 的性价比攻势？这将是未来 1-2 个季度的关键看点。