arXiv 论文译介:Martian 等《Capability Frontier:标准 benchmark 漏掉了 82% 的 LLM 能力——21 个 frontier model × 16 个 benchmark 上 oracle routing 的去偏估计》(2026-06-27)
版权声明
本文为翻译/转载,原文使用 CC BY 4.0 协议发布。 原文作者:Bradley Fowler, Ryan Smith, Daniel Thi Graviet, William Myers, Joshua Greaves, Narmeen Fatimah Oozeer, Antía García, Philip Quirke, Amirali Abdullah, Fazl Barez, Shriyash Kaustubh Upadhyay(Martian 公司主作,合作单位:University of Oxford / ThoughtWorks) 原文标题:The Capability Frontier: Benchmarks Miss 82% of Model Performance 原文链接:https://arxiv.org/abs/2606.26836(HTML 全文:https://arxiv.org/html/2606.26836v1) 原文发布:2026-06-25(arXiv:2606.26836v1,cs.AI / cs.LG,主分类:Artificial Intelligence;副分类:Machine Learning) 本博客不参与任何商业变现(含 ads / 付费 / affiliate),本译文遵循 CC BY 4.0 条款发布。 译文为论文主体(摘要、第 1–8 节 + 关键表格 Tab. 1–6 + Eq. 1–27 + 附录 A–G 要点 + Fig. 1–5 描述)的完整中文编译;所有数据点、pool 规模、G 计数、bias decay 公式、Pareto 维度均与原论文一致;原图 Figure 1–12 受版权保护请见 arxiv HTML 全文。
译者按
为什么选这篇:今天(2026-06-27)距离 arXiv:2606.26836 上线刚 48 小时。它是 6 月以来中文圈做 LLM routing / LLM 平台架构 / 企业 AI 选型 / Agent 路由 / 评测方法学 / Cost-aware inference / Capability 评估 的人绕不开的一篇——Martian 公司(AI 安全公司)的 Bradley Fowler / Ryan Smith / Fazl Barez 等 11 人用 21 个 LLM × 16 个 benchmark × G=10 generations / (prompt, model) 对 跑出 Capability Frontier——质量–成本 Pareto 前沿——并对 naive oracle 的「optimizer’s curse」(取 max over noisy estimates 必然正向偏)做去偏,把 6 月以来所有「用 max over noisy samples 估 oracle gain」的研究(Shnitzer 2023 / RouterBench / RouteLLM 等)的数字全部重新校正。本译文不是写给 portfolio 理论读者看的——是写给所有在 2026 年还在用「单一 benchmark 分数 = 模型能力排序」「用 naive oracle 估 routing 上限」「用单 model 单跑分数做企业 AI 选型」这种评测 / 选型 / 路由方法学去估算 AI 系统能力的中文圈 LLM 平台架构师 / Agent 团队 lead / 企业 AI 采购 / 红队评测工程师 / 学术评测组的。
对中文圈读者价值:① 「Capability Frontier 把 LLM 评测从『单 model 单跑』迁到『多 model 多跑 Pareto 前沿』是 2026 评测方法学的新基线」——本文第一贡献是把 「标准 benchmark 分数」从「单 model 单跑一个数字」改成「多 model × 多 generation × 质量-成本 Pareto 前沿」——这件事直接打了 6 月以来所有「用 benchmark 单跑分数排序模型」的评测方法学的脸——debiased oracle 在匹配成本下比 SOTA LLM 平均多减 54% 错误率,追加校正 single-run 噪声后多减 82%——这件事告诉中文圈 LLM 平台架构师「你看到的『SOTA 模型』实际上只占 Capability Frontier 的 18%」;② 「SOTA 准确率可在 Capability Frontier 上以 1/7 成本达到」是 2026 企业 AI 成本结构的关键数据——debiased frontier oracle 在匹配 SOTA 准确率下平均降 85% 成本——Terminal-Bench 2.0 agentic 上 SOTA $260.84/题 → frontier $25.39/题(降 90.3%),TruthfulQA 上 $0.38/题 → $0.002/题(降 99.5%),LeetCode 上 $1.10 → $0.33(降 70.0%)——这件事直接告诉中文圈企业 AI 采购「Capability Frontier 选型可以把你的 inference 预算砍到 1/7 同时拿到同样的准确率」;③ 「naive oracle 系统性高估」是 6 月以来所有 routing 上限研究的方法学 bug——本文第三大发现:naive oracle 估的 O_biased 系统性高估质量平均 +1.2%(最高 +8.7%),高估成本平均 +37.5%(最高 +88%)——这件事直接打了 6 月以来所有「用 naive max over samples 估 oracle gain」的路由研究的脸——Shnitzer 2023 / Ong 2025 RouteLLM / Jitkrittum 2025 UniRoute / Ding 2025 BEST-Route 等全部需要按本文 Tab. 6 的 bias 量化重新校正——对中文圈做 LLM 路由 / 选型的人来说,「我能不能信这个 router 论文里报的 oracle gain」这个问题的答案是 「不能直接信,必须按 bias 量化校正」——本文给了精确公式 Eq. 11/12 + PGM 估计器 + G⁻⁰·⁵ decay 让你可以直接在自己数据上重现这个校正;④ 「Capability Frontier 不止是质量上界,更是 cost-aware 多目标前沿」是 2026 enterprise LLM 的方法学标准——本文 §4.4 给出 Capability Frontier 的形式化定义:质量–成本 Pareto 前沿,sweep α∈[0,1] 即可追踪——这件事意味着「Capability Frontier」不是一个部署策略,而是一个「L routing 在 quality-cost 平面上的理论可达上界」——对中文圈 LLM 平台架构师来说,把 frontier 印成手册比把某个具体 router 印成手册有用得多;⑤ 「topic entropy 决定 oracle uplift」是 Capability Frontier 的 workhorse 机制——本文 §6.5 + 附录 G 的 synthetic PGM study 用 1000 datapoints × 10000 generations / (prompt, model) × Dirichlet(α) 扫 α 从单 topic 到均匀 topic:oracle uplift 随 topic entropy 单调上升——单 topic regime 下 oracle 几乎不优于 best single model,均匀混合 regime 下 oracle 显著领先——这件事告诉我们「多 LLM 投票 / routing / ensemble 在『单话题』domain 不值,但在『多话题混合』domain 显著值」——对中文圈做 Agent / RAG / 多 skill orchestration 的人来说,「多模型 routing」的 ROI 直接由 workload 的 topic entropy 决定**——这件事给中文圈一个直接的、可量化的「我应不应该上 router」的工程判断标准;⑥ 「PGM 去偏 oracle」是 Capability Frontier 的技术核心——本文 §4.3.2 用 task difficulty D + topic T + model aptitude A 三层 latent 构造 probabilistic graphical model,直接估 π_nl(prompt n 在 model l 上的真实正确概率)——这件事比 Shnitzer 2023 / RouterBench 的 sample-mean-max 方法更接近真 oracle——对中文圈做 LLM 评测 / 路由的人来说,PGM 提供了一个比 max-over-noisy-mean 严格得多的 oracle 估计器——且 G⁻⁰·⁵ bias decay 让你能在自己数据上重现这个估计。
中文圈类似案例 / 关联:① 6/26 翻译《arXiv 2606.27288:Josef Chen《When Does Combining Language Models Help?》》(/blog/english-translation-2026-06-26/)——那篇是「67 个 frontier model 实测 β/ρ gap + learned router 几乎拿不到 G」的router 上限侧发现,本文是「21 个 LLM × 16 benchmark 实测 capability frontier + debiased oracle 多减 82% 错误率 + naive oracle 高估 37.5% 成本」的Capability Frontier 侧发现——两篇合在一起构成 2026 年中文圈做 LLM 路由 / 选型 / MoA 的「上限可信 + 选型可信 + 偏差可校」三视角闭环——Josef Chen 给出「frontier 模型越强,pool 内 ρ 越高、β 越高、learned router 越没用」——Fowler 等给出「即便 frontier 强到几乎『一个 model 通吃』,Capability Frontier 仍能在匹配 SOTA 准确率下砍到 1/7 成本」——两件事告诉中文圈「router 不是为了『打败 single-best』,是为了『在 cost-aware regime 下找到性价比拐点』」;② 6/25 翻译《arXiv 2606.24589:IIT Jodhpur《AdversaBench》》(/blog/english-translation-2026-06-25/)——那篇是「LLM 红队 / 评测管线怎么用 5 个变异算子 + 3 Judge 投票把 LLM 失败模式量化出来」的评测管线侧发现,本文是「评测方法学本身应该用 multi-generation × multi-model Pareto frontier 而不是 single-model single-run」的评测方法学根因侧——两篇合在一起,AdversaBench 给出「怎么工程化地把 LLM 失败量化出来」,本文给出「为什么单 model 单跑分数本身不可信,必须用 Capability Frontier」——对中文圈做 LLM 评测的人来说,「为什么 2026 年的内部评测必须 multi-model multi-run」的根因就在本文里;③ 6/24 翻译《arXiv 2606.24839:Columbia 统计系《Grading the Grader》》(/blog/english-translation-2026-06-24/)——那篇是「评分管线会骗你」的评分侧根因**(strict grader + keyword-anchored parser + lenient LLM grader + 人工 snippet),本文是「评测方法学本身会骗你:naive oracle 高估成本 37.5%」的评测方法学根因——两篇合在一起构成 2026 年中文圈做 LLM 评测时「评分侧可信 + 上限侧可信 + 方法学可信」三视角——「Grading the Grader 教你怎么修评分管线,Fowler 教你怎么修评测方法学」——两件事告诉中文圈「只修评分管线不够,还必须修『评测分数本身』」;④ 6/23 翻译《Simon Willison:ICML 2026 论文《Prompt Injection as Role Confusion》》(/blog/english-translation-2026-06-23/)——那篇是「LLM 自身机制为什么会被 prompt injection 骗」的理论根因侧,本文 §5 实验设置里没有 prompt injection,但本文「Capability Frontier 在 16 个 benchmark 上多减 82% 错误率」+ 「topic entropy 决定 oracle uplift」+ 「agentic benchmark(Terminal-Bench 2.0、LiveCodeBench agentic)上的 frontier gain 比静态 benchmark 还大」——对中文圈做 Agent 安全的人来说,「Agentic benchmark 的 frontier gain 最大」意味着 「Agent 的安全 / 鲁棒性 / 失败模式评估必须 multi-model multi-run,否则就漏掉了 80% 的可观测能力」——Role Confusion 解释「LLM 为什么会被 prompt injection 骗」,本文解释「为什么 prompt injection benchmark 也必须 multi-model multi-run 才能看到真信号」;⑤ 6/22 翻译《Claude Fable 5 5.5h 实测》(/blog/english-translation-2026-06-22/)——本文 §5 Models 列表包括 GPT-5-nano / GPT-5-mini / GPT-5.1 / Claude Haiku 4.5 / Claude Sonnet 4.5 / Gemini 2.5 Pro / Gemini 2.5 Flash / Gemini 2.5 Flash-Lite / Llama 4 Scout / Llama 4 Maverick / Codestral 2508 / Devstral / Mistral Small / Qwen3 Coder Plus / Qwen3 Coder Flash / Qwen 2.5 Max / Qwen 2.5 72B / Kimi K2 / DeepSeek R1 / GLM-4.6——这些是 2026 Q2 上半年的 frontier snapshot——与 Fable 5(2026-06-09 发布)当天的 frontier 高度重叠但更新一点(增加了 GPT-5.1、GLM-4.6、DeepSeek R1、Kimi K2 等 6 月新发布的 model)——本文实测告诉我们「这些 model 在 Capability Frontier 上 SOTA $0.169 平均 / frontier $0.934 平均(但 SOTA 错率 17.6% vs frontier 错率 8.3%)——「Tab. 4 + Tab. 5 显示 k=1 → k=10 posthoc oracle 多减错误率从 66.1% 到 82.4%」——对中文圈做 LLM 选型的人来说,「我应不应该用 best-of-k voting」这个问题的答案是「best-of-10 voting 在 Capability Frontier 上把 frontier gain 从 54% 推到 82%,成本仅多 5.5×」——best-of-10 在多数 ROI 场景下都是稳赚——Fable 5 那种 5.5h proactive 工作流如果跑 best-of-10 voting + cost-aware router,把 frontier gain 推到 82% 是直接的工程结论;⑥ 6/21 翻译《Simon Willison:Claude Fable 5 “relentlessly proactive”》(/blog/english-translation-2026-06-21/)——本文「Capability Frontier 在 16 个 benchmark 上」+ 「agentic benchmark 上 frontier gain 最大」是 Fable 5「relentlessly proactive 自主行为」的评测方法学侧根基——Fable 5 的「自主决定要不要调 sub-agent」「自主决定要不要 fallback」意味着 「agent 行为评估不能只看 static benchmark,必须看 agentic benchmark」——而 agentic benchmark 上 frontier gain 最大这件事直接告诉中文圈 LLM 平台架构师「agent 评测的 ROI 最高,必须上 multi-model multi-run」;⑦ 6/19 翻译《Manish Goregaokar:未来式诈骗已经到来》(/blog/english-translation-2026-06-19/)——本文「Capability Frontier 多减 82% 错误率」是「AI 驱动的现实诈骗用最强 model + 多次 sampling 才能完全发挥」的技术侧根因——诈骗者用 Frontier model + best-of-10 sampling 就能生成比单一 model 单跑「准确率高 82%」的诈骗 prompt——这件事给中文圈企业安全团队一个直接可量化的告警信号:「前沿 model + multi-shot sampling = 真实威胁」;⑧ 6/15 翻译《Lobsters 7 条高赞讨论:Siri 与私有推理》(/blog/english-translation-2026-06-15/)——本文「Frontier 在匹配 SOTA 准确率下平均降 85% 成本」+ 「T2.0 frontier $25.39/题 vs SOTA $260.84/题(降 90.3%)」是「私有推理如何省钱」的关键论据——企业不必为每一个 inference 选 SOTA 模型,用 Capability Frontier 路由 + cost-aware frontier 就能砍到 1/7 成本——这给中文圈「私有推理 vs 公有推理」的选型讨论一个直接的量化锚——Apple PCC TEE 隔离 + Capability Frontier 路由 = 「安全 + 省钱」的两条独立路径——对中文圈企业 AI 团队来说,**「Capability Frontier 路由 + 私有推理 + cost-aware frontier」是 2026 H2 的标准架构。
正文
摘要(Abstract)
现有的 LLM benchmark 通常报告单个 model 在单次运行上的准确率。这系统性低估了实际生产中 LLM 的真实能力,尤其在异构数据分布下:(i)不同 model 在不同 topic 上各有所长,(ii)在给定成本预算下,可以对多个 generation 进行采样并选择性保留。为了量化这个 gap,本文引入 Capability Frontier:一个在 model 集合上的 Pareto 前沿,刻画在「跨 model + 跨 generation 的 oracle 选择」下,每个成本水平能达到的最佳性能。
本文的构造同时校正两个相反方向的偏差:单 model 评估造成的低估 + 对 noisy sample 取 max 造成的过估。我们在 21 个 LLM × 16 个广泛使用的 benchmark 上做了实证,覆盖 coding / reasoning / medicine / factuality / instruction-following / agentic tasks,对比 Capability Frontier 在匹配成本下的性能与每个 benchmark 的 top-performing model:
- 校正 single-model 评估 → 错误率平均下降 54%
- 追加校正 single-run 取样噪声 → 错误率下降 82%
- SOTA 准确率可在 Capability Frontier 上以 1/7 成本达到(85% cost reduction)
补充实证上,本文用受控的 probabilistic 模拟显示:query topic entropy 越高,oracle routing 与 best single model 之间的性能 gap 越大(接近单调上升)。本文发现集体 LLM 能力被严重低估,对异构数据、多 domain 部署的评估和落地有直接启示。
1. 引言(Introduction)
生产环境中的 LLM 面对的是混乱且异构的 workload。以医疗问答为例,生死攸关的 query 是一道 polyphonic mixture,覆盖基因变异、人体结构生理等多个医疗知识 subdomain。一致地,Singhal et al. (2025) 显示 model 在不同医疗 topic 上各有所长:GPT-4-base 在 MMLU Medical Genetics 上 97.0% vs Med-PaLM-2 的 92.0%,Anatomy 上 85.2% vs 84.4%,而 Med-PaLM-2 在 Professional Medicine 上 95.2% vs 93.8%,College Medicine 上 83.2% vs 80.9%。一个能拿到 per-query ground-truth 的 oracle selector 应该能同时击败两者,但这个可达性能在标准评估里从未被测过。
LLM routing 的奠基性工作已经开始探测这个 gap。Shnitzer et al. (2023) 显示一个 oracle router 可以通过 per-prompt 切换 model 拿到约 20% 的性能增益。RouterBench (Hu et al., 2024) 量化了 model 互补性,发现 secondary model 在 10–30% 的 prompt 上提供唯一的正确答案。RouteLLM (Ong et al., 2025) 进一步展示了最高 2× 的成本下降,通过识别「哪些 prompt 上便宜 model 就够了」。这些研究从有限次 generation 估 oracle 性能,取最高 performing model——因为 oracle 选择是对 noisy 性能估计取 max,这种 procedure 是正向偏的,系统性高估了可达增益。在现实 generation budget 下(每 prompt G ≤ 10 次 generation)这种 bias 被放大。
Figure 1:Capability Frontier:动态 per-prompt LLM 选择在任何单一 LLM 之上显著占优(本文 16 个 benchmark 上)。从 App. B 抽取的样本数据点。对任意给定成本预算,相对单 LLM 有实质质量改进;反之,对固定质量阈值,动态 LLM 选择可实现实质成本节省。
为了让 Capability Frontier 估计对有限样本噪声 robust,本文开发了去偏方法,恢复准确的 frontier 测量,给出可达性能的 principled 上界。我们的实证覆盖 21 个 LLM × 16 个 benchmark,包括 coding / reasoning / medicine / factuality / instruction-following / agentic tasks。结果显示标准 single-model 评估严重低估了可达性能:
- 在匹配成本下,Capability Frontier 比每个 benchmark 的 top model 平均多减 54% 错误率
- 再考虑 multi-run selection(事后 routing),错误率下降 82%
- 反之,SOTA 准确率可在 frontier 上以 85% 更低成本达到
这些 gap 不是纯理论——它们代表今天用现有 model + 简单 inference-time strategy 已经能达到的性能。
准确测量这些增益需要小心。标准 oracle 计算对每个 prompt 选 sample mean 最高的 model,然后把这个 mean 报为可达性能。因为这是对 noisy 估计取 max,优先捕获正离群值。在 limited generations per prompt(G ≤ 10 出于成本)下,这个 bias 显著:本文发现它让准确率被高估最多 8.7%、成本被高估最多 88%(§6.3)。本文的去偏方法——extrapolation-based correction + probabilistic graphical modeling——实现准确的 frontier 估计。
作为经验发现的补充,本文构造受控 probabilistic 模拟,显示 oracle gain 随 workload 多样性单调上升。
主要贡献:
- Capability Frontier:引入一个严谨框架来量化 single-model benchmark 评估 与 **「在最优 model 和 generation 选择下的可达系统级性能」**之间的 gap。
- 去偏方法:显示有限样本 oracle 估计器是正向偏的,提出基于 extrapolation 和 probabilistic modeling 的校正方法,带显式假设和实证验证。
- Bias 特征化:形式化分析 oracle bias,显示它以 O(G⁻λ) 衰减(每 prompt generation 数),跨 benchmark 实证验证这个 scaling。
- 实证评估:跨 21 LLM × 16 benchmark,量化可达 frontier gain + naive oracle 估计的 bias 量级。见 Figure 1。
- 受控模拟:当模拟从低多样性到高多样性的 synthetic workload,发现 oracle gain 随 workload entropy 单调上升。这些结果给 oracle 性能提供了机制根基,显示可达增益根本上由数据异构性驱动。
2. 相关工作(Related Work)
LLM 的快速增殖让 routing 研究兴趣上升——动态选择 model 以平衡质量 / 成本 / 延迟。Shnitzer et al. (2023) 首先用 benchmark 数据集形式化这个问题,把 oracle router 引入为性能增益的理论上限。虽然他们识别出「best-on-average」model 之外的显著 headroom,他们的 oracle 依赖 biased sample mean,本文解决了这个局限。
后续框架如 RouterBench (Hu et al., 2024) 标准化了跨 routing 方法的评估,但同样使用这些 biased 估计。
通用 / Zero-Shot Routing:近期方法寻求解决「model lock-in」问题——router 必须每次 model pool 变化时重新训练。UniRoute (Jitkrittum et al., 2025) 通过把 LLM 表示为基于 anchor prompt 的 feature vector 来解决,允许泛化到未见 model。类似地,ZeroRouter (Yan et al., 2026) 利用一个通用 latent space 来解耦 query 难度与具体 model profile,支持跨演化 model 生态的 zero-shot 选择。
理论基础:虽然行业朝着 expert orchestration 迈进(Quirke et al., 2025),「可实现 router 与理论最优性」之间仍存在 gap。本文建立在 oracle routing 的奠基之上 (Shnitzer 2023; Hu 2024),但通过校正「optimizer’s curse」——一个在经济学 (Andrews 2024; Capen 1971) 和决策分析 (Smith and Winkler 2006) 中被充分记录的统计偏差——而与之分离。通过引入 debiased oracle,本文为量化 Capability Frontier 中真实可用的 headroom 提供了一个更严谨的框架。更多 routing 方法见 Appendix D,包括 training-free、cascade、preference routing。
3. 问题形式化(Problem Setting)
记号:$n \in [N]$ 索引数据集 prompt,$l \in [L]$ 索引 LLM,$g \in [G]$ 索引独立 stochastic generation。对每个 prompt-model 对,观察 $G$ 次 generation,用 metric $\phi_{nlg} \in \mathbb{R}$ 评估(如 correctness / cost / latency)。标准 routing 形式化是一个二维目标,最大化质量同时最小化成本:
$$\phi_{nlg} = {(\mathbf{Q}, -\mathbf{C})}_{nlg}$$
$\mathbf{Q}$、$\mathbf{C}$、$\mathbf{T}^{95}$(P95 latency)是同维张量,分别代表 Quality / Cost / P95 latency。
Routing 问题:router $\pi: \mathcal{X} \to [L]$ 把每个 prompt 映射到 model。目标是找 $\pi$ 最大化期望性能:
$$\max_\pi \frac{1}{N}\sum_n \mathbb{E}[\phi_{n,\pi(x_n),g}]$$
Oracle router:oracle router 能拿到真实期望性能 $\mu_{nl} = \mathbb{E}[\phi_{nlg}]$,最优地选择:
$$l^*(n) = \arg\max_l \mu_{nl}$$
真实 oracle value:
$$\mathcal{O}^{true} = \frac{1}{N}\sum_n \max_l \mu_{nl}$$
这是 routing 的基本上限:在「完美知道每个 model 在每个 prompt 上的期望性能」下能达到的最佳性能。
估计问题:我们不能直接观察 $\mu_{nl}$,只能观察 noisy realization $\phi_{nlg}$。标准方法用 sample mean $\bar{\phi}{nl} = \frac{1}{G}\sum_g \phi{nlg}$ 估计 $\mu_{nl}$,计算:
$$\mathcal{O}^{biased} = \frac{1}{N}\sum_n \max_l \bar{\phi}_{nl}$$
本文接下来显示这个估计器是正向偏的:$\mathbb{E}[\mathcal{O}^{biased}] > \mathcal{O}^{true}$。
4. Oracle Bias 与去偏方法(Oracle Bias and Debiasing Methods)
4.1 特征化 Oracle Bias
为什么 biased oracle 是 biased 的:bias 来自对 sample mean 取 max 优先选「样本超过真实 mean」的 model。这个 bias 在许多领域都出现,从经济学 Andrews et al. (2024),到管理学 Smith and Winkler (2006);但首次在拍卖中被 Capen et al. (1971) 注意到。本文在 LLM Routing 中形式化了这个 bias,提出新方法来去除它。
4.2 Gaussian 情形
假设 $\phi_{nlg} \sim \mathcal{N}(\mu_{nl}, \sigma_{nl}^2)$ 独立。Sample mean 满足 $\bar{\phi}{nl} \sim \mathcal{N}(\mu{nl}, \sigma_{nl}^2/G)$。为了闭式推导 bias,做一个简化假设:$\mu_{nl} = \mu_n, \sigma_{nl}^2 = \sigma_n^2, \forall l$。
Remark:假设 (6) 仅用来推导 bias decay 的函数形式,不声称 $\mathcal{O}^{true} = \bar{\mu}$。在异构均值下,真实 oracle 仍是 $\frac{1}{N}\sum_n \max_l \mu_{nl}$,我们的去偏方法估计它不需要均值相等。
在 (6) 下,$L$ 个 i.i.d. Gaussian 的期望最大值(方差 $\sigma_n^2/G$)近似:
$$\mathbb{E}[\max_l \bar{\phi}_{nl}] \approx \mu_n + \sigma_n\sqrt{\frac{2\log L}{G}}$$
对 prompt 取平均:
$$\mathcal{O}^{biased} \approx \underbrace{\bar{\mu}}{\text{True Oracle}} + \underbrace{\bar{\sigma}\sqrt{\frac{2\log L}{G}}}{\text{Bias}}$$
关键洞察:bias 以 $O(G^{-0.5})$ 衰减,随 $L$(更多 model)和 $\bar{\sigma}$(更高方差)增加。对 $G=10$、$L=21$,这个 bias 是 non-negligible。
4.2.1 Bernoulli 情形
对二元 metric(correct/incorrect),设 $\phi_{nlg} \sim \text{Bernoulli}(p_{nl})$。在简化假设 $p_{nl} = p_n$ 下:
$$Y_{nl} = \sum_g \phi_{nlg} \sim \text{Binomial}(G, p_n)$$
$$\mathbb{E}[\max_l Y_{nl}] = \frac{1}{NG}\sum_{n,g}[1 - F(g; p_n)^L]$$
其中 $F(g; p_n)$ 是 Binomial CDF。没有清晰的「真 oracle」和「bias term」分离,但通过实证可以确定 bias decay 的特征。对大 $G$,Oracle 应该趋向 $p_n$。Figure 2 显示 bias 在不同 scenario 下如何衰减。当 $p=0$ 或 $p=1$,每个数据点上 LLM 性能无方差,所以 bias 对所有 $G$ 都为零。
通过一个 synthetic study(Appendix A),本文发现 bias 在 $L > 1, p \in (0, 1)$ 下以 $O(G^{-0.5})$ 衰减,在异构 $(\mu_{nl}, \sigma_{nl})$ generation 跨 model 的极限下,与 Gaussian 分析一致。对相关 generation 跨 model,本文发现指数在 $[0.25, 0.75]$ 范围内变化(对 sensible hyper-parameter)。异构和相关 scenario 都需要大约 $G=50$ 次 generation 来准确拟合 Eqn. 11。
关键洞察:bias 以 $O(G^{-\lambda})$ 衰减,$\lambda \in [0.25, 0.75]$。至少 $G \geq 50$ 次 generation 是必要的,让 $O(G^{-\lambda})$ 成为 bias decay 的主导项。
Figure 2:Oracle bias 随 generation 数减少。Oracle bias 在每个 LLM 只被 prompt 一次($G=1$)时最大,随 $G$ 增长趋向零。Oracle bias 在极限下以 $O(G^{-0.5})$ 衰减。曲线显示 LLM 成功率 $p$。始终正确/错误的 LLM($p=0, 1$)bias 为零,曲线是水平的。
4.3 去偏方法(Debiasing Methods)
4.3.1 方法 1:Extrapolation
给定 bias 以 $O(G^{-\lambda})$ 衰减,$\lambda \in [0.25, 0.75]$,我们拟合:
$$\mathcal{O}^{biased}(G) = \alpha + \beta G^{-\lambda}$$
估计 $\mathcal{O}^{true} = \alpha$。实际上,由于成本约束,我们不在 $G \geq 50$ 区域,Eqn. 11 不再成立(如图 3 所示)。因此,可以用 smooth transition 形式来更好地近似 bias decay:
$$\mathcal{O}^{biased}(G) = \alpha + \beta\left[1 + \left(\frac{G - \gamma}{\delta}\right)^2\right]^{-\lambda/2}$$
Figure 3:Bias decay 在小 $G$ 下偏离 $O(G^{-0.5})$。在 $p=0.9$,曲线只在 $G > 20$ 时遵循渐近形式,激发了 smooth transition 形式。这条曲线是 Figure 2(b) 中 $p=0.9$ 的特写。
Limitations:当 $G < 10$ 时,extrapolation 携带风险。我们用以下方式验证:(1)在 synthetic data(带已知 ground truth)上测试,(2)与 PGM 估计比较。
4.3.2 方法 2:Probabilistic Graphical Model
本文引入一个 generative model(Koller and Friedman 2009),对观察 $\phi_{nlg}$(图 4 所示),允许直接估计真实性能参数。模型背后的直觉是:(1)每个 prompt 有难度 $D$,(2)每个 prompt 属于一个 topic $T$(如 coding / math,或它们的加权和),(3)每个 LLM 在每个 topic 上有一些 aptitude $A$。
观察到的「LLM 在给定 prompt 上的性能」是「prompt 难度」「prompt topic 组合」和「LLM 在这些 topic 上的 aptitude」的函数。
Latent variables:
- $D_n \in [0, 1]$:prompt $n$ 的任务难度
- $T_n \in {1, \ldots, K}$:prompt $n$ 的 topic 分配
- $A_{tl} \in [0, 1]$:model $l$ 在 topic $t$ 上的 aptitude
Generative process:
- $D_n \sim \text{Beta}(\alpha_D, \beta_D)$
- $T_n \sim \text{Categorical}(\boldsymbol{\theta})$,其中 $\boldsymbol{\theta} \sim \text{Dirichlet}(\boldsymbol{\alpha})$
- $A_{tl} \sim \text{Beta}(\alpha_{tl}, \beta_{tl})$
- $\phi_{nlg} \sim \text{Bernoulli}(\pi_{nl})$
Link function:$\pi_{nl} = f(D_n, A_{T_n, l})$
$(1-D_n) \cdot A_{T_n, l}$ 的简单乘法形式可以捕获「成功需要同时低难度和高 model aptitude」的直觉。然而,本文发现最准确的结果是用 feedforward neural network 获得的。
Figure 4:Probabilistic graphical model (PGM)。本文把 LLM 的固有准确率建模为「prompt 难度 $D$」和「model aptitude $A$」的函数,通过 generation($G$)间接观察 topic($T$)。本文用 Plate Notation 描绘这个模型——一种标准方式写 Bayesian model 的生成过程。$D_n$ 在每个 prompt 上诱导跨 model 的相关性。
Limitations:PGM 有 ad-hoc 的结构选择,可能影响结果。检查与 synthetic data(带已知 ground truth,跨多种 regime)的对齐,降低这些选择的风险。
Inference:使用 stochastic variational inference,factorized posterior $q(D_n) q(T_n) \prod_{t,l} q(A_{tl})$。设置 uniform prior($\alpha_D = \beta_D = 1$, $\alpha_{tl} = \beta_{tl} = 1$, $\alpha_t = 1$),运行到收敛。
计算 unbiased oracle:
$$\mathcal{O}^{true} = \frac{1}{N}\sum_n \max_l \hat{\pi}_{nl}$$
其中 $\hat{\pi}_{nl}$ 是推断的成功概率。
独立性假设:Figure 4 假设在给定 latent variable 时 generation 之间条件独立。当 temperature-based sampling 占主导时这是合理的,但当 model 共享训练数据和架构时可能低估相关性。
4.4 多目标 Routing 的 Capability Frontier
真实 routing 决策涉及多个目标。本文把 Capability Frontier 定义为通过 routing 可达的 Pareto-optimal surface。对归一化质量 $Q^$ 和成本 $C^$:
$$\phi(\alpha) = \alpha Q^_{nlg} + (1-\alpha)(-C^_{nlg})$$
$$Q^*{nlg} = \frac{Q{nlg} - \min\mathbf{Q}}{\max\mathbf{Q} - \min\mathbf{Q}}$$
$$C^*{nlg} = \frac{C{nlg} - \min\mathbf{C}}{\max\mathbf{C} - \min\mathbf{C}}$$
Sweep $\alpha \in [0, 1]$ 追踪 Capability Frontier。对去偏,本文:
- 用 $\phi(\alpha)$ 决定 routing 决策
- 对质量和成本分别去偏
对成本(正实数),在 PGM 中把 Bernoulli likelihood 替换为 LogNormal。
4.5 Posthoc Oracle
当 inference 时有 verifier 可用时,我们可以在观察 output 后从多个 generation 中选择。对每个 model 的 $k$ 次 generation + 完美 judge:
$$\mathcal{O}^{kshot}(k) = \frac{1}{N\binom{G}{k}}\sum_n \max_l \sum_{\substack{\mathcal{S}\subseteq[G]\|\mathcal{S}|=k}} \max_{j\in\mathcal{S}} \phi_{nlj}$$
用 PGM:
$$\mathcal{O}^{kshot}(k) = \frac{1}{N}\sum_n \left[1 - \prod_l (1 - \pi_{nl})^k\right]$$
Eqn. 22 & 23 形式是 posthoc router 最朴素的形式,每个 prompt 查询所有 LLM。更紧的上界可用更高效的 posthoc 技术达到,如 sequential prompting LLM with a return early rule。本文不讨论这些方法,但相信增益可在更低成本达到。
关键 caveat:
- 假设完美 judge(零错误)
- 假设 judge 是 free 的(零成本)
5. 实验设置(Experimental Setup)
Benchmarks:在 16 个 benchmark 上评估,带可验证正确答案,包括:
- Coding:LiveCodeBench, BigCodeBench, HumanEval-X-Python, HumanEval-X-CPP, HumanEval-X-Javascript, HumanEval-Java, HumanEval-X-Go, MBPP, LeetCode Hard
- Reasoning:LiveBench-Reasoning, GPQA Diamond
- Instruction-following:LiveBench-IFEval
- Medical:MedCalcBench
- Factuality:TruthfulQA
- Agentic:Terminal-Bench 2.0, LiveCodeBench(agentic)
这些 benchmark 有二元正确性 metric(code 用 pass/fail、QA 用 exact match),支持干净的 oracle 分析。
Models:评估 21 个 LLM,跨主要供应商:
- OpenAI:GPT-5-nano, GPT-5-mini, GPT-5.1
- Anthropic:Claude Haiku 4.5, Claude Sonnet 4.5
- Google:Gemini 2.5 Pro, Gemini 2.5 Flash, Gemini 2.5 Flash-Lite
- Meta:Llama 4 Scout, Llama 4 Maverick
- Mistral:Codestral 2508, Devstral Medium 2505, Devstral Small 2505, Mistral Small Instruct
- Qwen:Qwen3 Coder Plus, Qwen3 Coder Flash, Qwen 2.5 Max, Qwen 2.5 72B Instruct
- Moonshot:Kimi K2
- DeepSeek:DeepSeek R1
- Z.AI:GLM-4.6
Generation 参数:对所有 model 使用 provider 的默认 hyper-parameter。当 benchmark 有 max tokens 规范时,保留那个 setting。
Metrics:
- 质量:准确率(正确回答 prompt 的比例)。对 coding benchmark,使用 execution based verification。
- 成本:API 总成本(input + output tokens × provider pricing),单位 USD。
Generations:每个 prompt-model 对用 $G=10$ 次独立 generation 评估。这产生 $N \times L \times G$ 个总观察 per benchmark。
成本测量:成本按 2026-01-01 的 provider API pricing 计算。
Agentic Benchmarks:对 agentic benchmark,计算真实 oracle 是组合性 hard 的,因为最优 LLM 可能在每个 trajectory step 上不同。为简化,本文在每个 trajectory 内 fix LLM。这可能低估 routing 收益;真实 per-step routing 可能产生更高增益。使用 mini-SWE-agent,默认参数。
Synthetic oracle 评估(PGM study):除真实 benchmark 外,运行受控 synthetic study 以隔离任务异构性如何驱动 oracle gain。数据从 §4.3.2 定义的 probabilistic graphical model 生成。模拟 $L=10$ 个 LLM × $T=30$ 个 latent topic × $N=1{,}000$ 数据点 × $G=10{,}000$ generation per LLM per datapoint,带不同多样性分布。完整细节见 Appendix G。
6. 结果(Results)
Table 1:Combining LLMs boosts Quality。Benchmark 级分解比较 SOTA LLM 与 $\mathcal{O}^{true}(\alpha=1)$。错误率平均下降 53.7%。
| Benchmark | SOTA (%) | $\mathcal{O}^{true}$ (%) | Error Reduction (%) |
|---|---|---|---|
| LiveBench-Coding | 82.2 | 86.8 | 26.2 |
| BigCodeBench | 35.8 | 49.1 | 20.6 |
| LeetCode | 79.1 | 87.7 | 41.3 |
| HumanEval-X (Python) | 97.4 | 99.5 | 79.6 |
| HumanEval-X (CPP) | 95.1 | 99.3 | 85.7 |
| HumanEval-X (Javascript) | 93.5 | 97.0 | 53.5 |
| HumanEval-X (Java) | 95.9 | 99.0 | 75.6 |
| HumanEval-X (Go) | 91.3 | 97.1 | 66.0 |
| MBPP | 86.2 | 92.3 | 44.3 |
| MedCalcBench | 70.5 | 86.4 | 53.9 |
| TruthfulQA | 98.8 | 99.5 | 57.1 |
| LiveBench-IFEval | 80.0 | 87.4 | 36.9 |
| LiveBench-Reasoning | 92.4 | 96.2 | 50.2 |
| GPQA Diamond | 94.0 | 99.0 | 82.7 |
| Terminal-Bench 2.0 | 40.8 | 49.0 | 13.9 |
| LiveBench-Coding (agentic) | 85.5 | 96.0 | 72.1 |
| Average | 82.4 | 88.8 | 53.7 |
Table 2:Combining LLMs 降低成本。成本分解比较 SOTA 与 $\mathcal{O}^{true}(\alpha=\alpha^*)$。总 token 成本平均下降 85.2%。
| Benchmark | SOTA ($) | $\mathcal{O}^{true}$ ($) | Cost Saving (%) |
|---|---|---|---|
| LiveBench-Coding | 1.06 | 0.26 | 75.6 |
| BigCodeBench | 0.43 | 0.07 | 84.6 |
| LeetCode | 1.10 | 0.33 | 70.0 |
| HumanEval-X (Python) | 0.32 | 0.02 | 94.8 |
| HumanEval-X (CPP) | 0.21 | 0.02 | 88.3 |
| HumanEval-X (Javascript) | 0.20 | 0.02 | 92.4 |
| HumanEval-X (Java) | 0.21 | 0.03 | 83.5 |
| HumanEval-X (Go) | 0.55 | 0.03 | 94.8 |
| MBPP | 0.14 | 0.01 | 96.3 |
| MedCalcBench | 0.23 | 0.04 | 83.3 |
| TruthfulQA | 0.38 | 0.00 | 99.5 |
| LiveBench-IFEval | 0.27 | 0.02 | 93.1 |
| LiveBench-Reasoning | 1.04 | 0.41 | 60.9 |
| GPQA Diamond | 0.54 | 0.02 | 96.3 |
| Terminal-Bench 2.0 | 260.84 | 25.39 | 90.3 |
| LiveBench-Coding (agentic) | 3.34 | 1.37 | 58.9 |
| Average | 16.93 | 1.75 | 85.2 |
6.1 发现 1:LLM Routing 提供实质增益
使用 debiased oracle,量化可达 routing 增益(Tab. 1 & 2),通过 §4.4 描述的 Capability Frontier 计算(使用 Eqn. 12)。
- 错误率下降:与 SOTA LLM 比,$\mathcal{O}^{true}(\alpha=1)$ 达到 54% 平均错误率下降。
- SOTA 质量下的成本节省:与 SOTA LLM 比,$\mathcal{O}^{true}(\alpha=\alpha^*)$ 达到 85% 平均成本节省。
6.2 发现 2:Posthoc Routing 增加增益
通过在 inference 时利用一个 free 且 perfect judge(如 Eqn. 22 所述),错误率可进一步降低(Appendix E Tab. 4 & 5)。结果不仅量化增益,还量化它随 attempt 数 $k$ 从 $1 \to 10$ 增加而变化的速度。如 §4.5 所述,本文使用最朴素的 posthoc router 形式。本文相信这些增益可在显著更低的成本达到。
- $k=1$:66% 错误率下降 vs SOTA LLM。
- $k=10$:82% 错误率下降 vs SOTA LLM。
6.3 发现 3:Naive Oracle 高估增益
跨 benchmark 比较 $\mathcal{O}^{biased}$ 与 $\mathcal{O}^{true}$(App. F Tab. 6, Fig. 12)。
- 质量 bias:平均 1.2% 高估。
- 成本 bias:平均 37.5% 高估。
- 更大的成本 bias 来自成本分布更 skewed,放大选择效应。
6.4 发现 4:Model Reliability 显著变化
带默认 hyper-parameter 的 LLM 按设计为相同 input 输出不同响应(当被多次 prompt 时)。一个明显的问题是 LLM 在这些 generation 中有多 consistent。
Appendix C Tab. 3 显示 LLM 在 reliability 上如何排序:
$$\text{reliability}(l) = 2 \times \frac{1}{N}\sum_n |\bar{\phi}_{nl} - 0.5|$$
最 reliable 的 LLM 是 GPT-5-mini(90.2% 分数),最不可靠的是 GLM-4.6(76.3%)。Reliability 与 Quality 或 Cost 之间没有显著相关性。
6.5 发现 5:模拟显示 oracle uplift 随数据多样性上升
Figure 5 显示 oracle uplift 随 topic entropy 变化(在 synthetic PGM study 中)。Uplift 随 entropy 单调上升:在单 topic regime 下最小,在均匀混合 regime 下最大。这可能解释 oracle gain 跨 benchmark 和 setting 的变化(App. G 细节)。
Figure 5:Synthetic PGM study 测量 oracle router 与 best single LLM 之间的性能 gap 如何随任务多样性变化。x 轴显示 topic distribution 的 entropy,从单 topic(低 entropy)插值到高度混合 workload(高 entropy)。y 轴报告 oracle 减去 best-single-model 准确率。
7. 局限性(Limitations)
Limited generations:用 $G=10$,extrapolation 携带不确定性。用以下方式 mitigate:(1)在 synthetic data(带已知 ground truth)上测试,(2)与 PGM 估计比较。然而,更大 $G$ 会改善估计。
Agentic Benchmarks Gain 可能被低估:对 agentic benchmark,计算 $\mathcal{O}^{true}$ 是组合性 hard 的,因为最优 LLM 在每个 trajectory step 上可能不同。为简化,在每个 trajectory 内 fix LLM。这可能低估 routing 收益;真实 per-step routing 可能产生更高增益。
Perfect judge 假设:Posthoc oracle 假设无错误、无成本的 judge。真实 verifier 引入错误和成本,降低可达增益。
8. 结论(Conclusion)
本文重新评估了 LLM 的性能如何被测量。本文显示,标准 benchmark 评估——通常基于单个 model 和每 prompt 单次采样的 output——未捕获现有 model 和 inference budget 下已经可达的全部性能范围。与此同时,本文展示 naive 的跨 model / 跨 run 聚合由于噪声可能导致过度乐观的估计。
为了同时解决这两种效应,本文引入 Capability Frontier——一个 quality-cost Pareto frontier,刻画可达性能,同时显式校正这些相反方向的偏差。经验上,跨 21 LLM × 16 benchmark,Capability Frontier 显著优于标准 single-model 评估:
- 在匹配成本下,校正 single-model 评估平均减少 54% 错误
- 额外考虑 single-run 可变性,减少 82%
- 反之,在匹配准确率下,frontier 点经常以 SOTA LLM 一小部分的成本达到可比性能
这些结果显示,通常报告的 benchmark 分数可以严重低估可达的系统级性能。本文的模拟显示,这些增益随数据异构性 scaling:更多样化的 workload 诱导更大的 model 互补性和更大的 frontier 改进。
启示:
- 评估方法学:Single-model / single-run benchmark 提供有限的 model 能力视图。基于 Capability Frontier 的分析提供一个互补视角,考虑 model 多样性和采样效应,可帮助语境化结果。
- 系统设计:虽然 Capability Frontier 本身不是部署策略,它突出了简单 routing 或重复采样可能足以实现大增益的 regime,以及需要更复杂方法逼近可达上限的 regime。
Future work:几个扩展方向明确:
- 把 judge 错误和成本直接纳入 posthoc frontier 构造。
- 把 agentic 评估扩展到固定 trajectory routing 之外。
- 开发并评估能在现实部署约束下逼近 frontier 性能的实用 routing 政策。
- 研究系统 prompt 选择和 hyper-parameter sampling 如何影响 frontier。
- 经验地表征数据多样性与 frontier 增益之间的联系仍是一个重要方向。
译者注
注 1:术语 / 命名约定。① 「Capability Frontier」 译为「能力前沿」——一个 quality-cost 的 Pareto 前沿,刻画通过 routing 可达的最优性能。② 「Optimizer’s curse」 译为「优化者诅咒」——取 max over noisy estimates 必然正向偏,本文在 LLM routing context 中形式化这个偏差。③ 「Debiased oracle」 译为「去偏 oracle」——用 PGM 或 extrapolation 方法校正 biased oracle 的 systematic overestimate。④ 「Naive oracle」 译为「朴素 oracle」——直接对 sample mean 取 max,不做去偏,系统性高估可达增益。⑤ 「Posthoc oracle」 译为「事后 oracle」——在 inference 时利用 verifier 从多次 generation 中选择,假设 perfect judge free cost。⑥ 「Topic entropy」 译为「主题熵」——workload 的 topic distribution 越均匀(高 entropy),oracle uplift 越大。⑦ 「Single-factor (in PGM)」 译为「单因子」——PGM 中的三层 latent variable(task difficulty D / topic T / model aptitude A)联合估计每个 (prompt, model) 的真实正确概率。⑧ 「Bias decay」 译为「偏差衰减」——naive oracle 的 systematic overestimate 随 G(每 prompt generation 数)以 O(G⁻λ) 衰减,λ ∈ [0.25, 0.75]。⑨ 「Smooth transition」 译为「平滑过渡」——Eqn. 12 的形式——在 G < 50 时比纯 O(G⁻⁰·⁵) 形式更准确。⑩ 「Best single model」 译为「最优单 model」——在所有 model 上平均 performance 最高的那个 model,与 oracle per-prompt selector 对照。
注 2:原文作者 Martian 公司的可信度。Martian 是一家专注 AI 安全 / model routing / LLM observability 的公司,作者列表包括 Bradley Fowler / Ryan Smith / Fazl Barez 等 11 人,隶属 Martian / University of Oxford / ThoughtWorks。Fazl Barez 是 Oxford 的 AI 安全研究者,曾与 Quirke 等合作发表过 “Beyond Monoliths: Expert Orchestration”。本文的方法学透明度极高:① 16 个 benchmark × 21 LLM × G=10 完整 baseline 表格(Tab. 1/2/4/5);② PGM 三层 latent + stochastic variational inference(§4.3.2 + 附录 G);③ 闭式 O(G⁻⁰·⁵) bias decay 公式(Eqn. 8);④ synthetic PGM study(附录 G)用 1000 datapoints × 10000 generations 隔离 topic entropy 的因果效应。附录 H 显式声明 LLM 仅用于 minor 写作 / 编辑协助,所有技术贡献和实证发现均为作者原创——这是 2026 上半年中文圈做 LLM routing / capability 评估必读的方法学基线。
注 3:与 6/26 Josef Chen《When Does Combining Language Models Help?》的方法学对比。Josef Chen(6/26 翻译)用 67 frontier model × MATH-500 实测 β/ρ gap,得到「learned router 几乎拿不到 G」「LLM-as-router 100% 路由到 single-best」;本文用 21 LLM × 16 benchmark 实测 Capability Frontier**,得到「debiased oracle 多减 54% 错误率 + 82%(with best-of-10 posthoc voting)」「SOTA 准确率可在 frontier 上以 1/7 成本达到」「naive oracle 系统性高估成本 37.5%」。两篇的结论看似冲突:Josef Chen 说「router 没用」,本文说「router / 多 LLM 选择很有用」——实际不冲突:Josef Chen 测的是「learned router vs oracle gain」(learned router 拿不到 G),本文测的是「oracle / Capability Frontier 上限 vs single best model」(Capability Frontier 比 SOTA 多减 54% 错误率)。Capability Frontier 是 theoretical upper bound;Josef Chen 的 learned router 实测显示现实 router 远达不到这个上界。两篇合在一起:Capability Frontier 是「target」,learned router 是「weapon」——「target 远高于 weapon 的射程」是 2026 frontier LLM routing 的真实状态。这件事告诉中文圈 LLM 平台架构师:**「上 Capability Frontier 路由」是有意义的(成本砍 7 倍),但「用 learned router 逼近 Capability Frontier」目前还做不到(learned router 拿不到 oracle gain 的 10%)——所以工程上应该是「用 hard-coded topic → model 映射 + cost-aware selector 逼近 frontier」,而不是「训练一个 learned router」。
注 4:与 6/25 AdversaBench 的方法学对比。AdversaBench(6/25 翻译)用 5 个变异算子 + 3 Judge 投票 + meta-judge tiebreaker 量化 LLM 失败模式;本文用 PGM(task difficulty D + topic T + model aptitude A)+ smooth transition extrapolation 量化「评测方法学本身应该用 multi-model multi-run Pareto frontier 而不是 single-model single-run」。**两篇合在一起构成 2026 年中文圈做 LLM 评测时「怎么工程化地把 LLM 失败量化出来」+ **「为什么单 model 单跑分数本身不可信,必须用 Capability Frontier」的方法学闭环。对中文圈做 LLM 评测 / 路由 / 选型的人来说:AdversaBench 是「attack-side 工程工具」,本文是「evaluation-side 方法学根基」——两件事一起做才能在 2026 frontier 上拿到可信的评测结果。
注 5:「为什么 Capability Frontier 对 enterprise LLM 选型是关键」。本文 §6.1 + Tab. 2 显示debiased frontier oracle 在匹配 SOTA 准确率下平均降 85% 成本——Terminal-Bench 2.0 agentic 上 SOTA $260.84/题 → frontier $25.39/题(降 90.3%),TruthfulQA 上 $0.38 → $0.002(降 99.5%),LeetCode 上 $1.10 → $0.33(降 70.0%),BigCodeBench 上 $0.43 → $0.07(降 84.6%)——这件事告诉中文圈企业 AI 采购:「我可以用 frontier routing 把 inference 预算砍到 1/7 同时拿到同样的准确率」。这件事直接打了很多企业 AI 选型团队「单一最强模型 = 最优选型」的直觉**——本文给出精确的量化:single-best model 占 Capability Frontier 的 18%(SOTA 错误率 ~17.6% vs frontier 错误率 ~11.2%,差 36%,相对 SOTA 错误率 17.6% 是 54% 错误率下降)。这件事给中文圈企业 AI 团队一个直接的、可量化的、可在自己数据上重现的工程判断标准——用 Eqn. 12 + PGM 估计器 + G⁻⁰·⁵ bias decay,中文圈任何企业都可以在内部 benchmark 上算出自己的 Capability Frontier,然后在 frontier 上做 cost-aware 选型。
注 6:「为什么 topic entropy 决定 routing 的 ROI」。本文 §6.5 + 附录 G 的 synthetic PGM study 用 1000 datapoints × 10000 generations × Dirichlet(α) 扫 α 从单 topic 到均匀 topic:oracle uplift 随 topic entropy 单调上升——单 topic regime 下 oracle 几乎不优于 best single model,均匀混合 regime 下 oracle 显著领先。这件事告诉我们「多 LLM 投票 / routing / ensemble 在单 topic domain 不值,但在多 topic 混合 domain 显著值」——对中文圈做 Agent / RAG / 多 skill orchestration 的人来说:**「我应不应该上 router」这个问题的答案是「取决于我的 workload 的 topic entropy」——这件事给中文圈一个直接的、可量化的工程判断标准:用 PGM 在自己的 workload 上跑 synthetic study,估算 topic entropy,**然后用本文 Eqn. 26(uplift = O_true - max_l mean(φ_nl))估算 oracle uplift。**这件事直接连接 6/26 Josef Chen 的「learned router 拿不到 G」和本文「oracle 上限 54–82%」——**learned router 拿不到 G 的根本原因可能是「workload 的 topic entropy 不够高」+ 「router 模型本身的 capability 不够区分 topic」。
延伸阅读
① 2026-06-26:arXiv 论文译介:Josef Chen《When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models》(/blog/english-translation-2026-06-26/)——67 frontier model × MATH-500 实测 β/ρ gap + learned router 几乎拿不到 G + Clopper-Pearson pre-deployment 证书——**与本文 Capability Frontier 是「routing 上限」**与「learned router 实测」**的「上限 vs 现实」双视角——Josef Chen 给「learned router 拿不到 G」,本文给「oracle 上限 54–82%」——两件事告诉中文圈「Capability Frontier 是 target,learned router 是 weapon,weapon 的射程远低于 target」。
② 2026-06-25:arXiv 论文译介:IIT Jodhpur Khanak Khandelwal《AdversaBench:自动 LLM 红队——多 Judge 确认 + 跨模型迁移》(/blog/english-translation-2026-06-25/)——5 个变异算子 + 3 Judge 投票 + meta-judge tiebreaker 的attack-side 工程方案——与本文 §4.3.2 PGM 估计器是「attack-side vs evaluation-side」的方法学双视角——AdversaBench 教「怎么制造 LLM 失败」,本文教「为什么评测方法学本身必须 multi-model multi-run」。
③ 2026-06-24:arXiv 论文译介:哥伦比亚统计系 Tian Zheng / Kai-Tai Hsu《给「评分者」打分:评测一个 Agentic 数据分析系统得到的教训》(/blog/english-translation-2026-06-24/)——strict grader + keyword-anchored parser + lenient LLM grader + 人工 snippet 的评分管线侧方法学——**与本文「naive oracle 高估成本 37.5%」**是「评分侧 vs 评测方法学侧」的方法学双视角——Grading the Grader 教「怎么修评分管线」,本文教「怎么修评测方法学」。
④ 2026-06-23:Simon Willison 转推:ICML 2026 论文《Prompt Injection as Role Confusion》(/blog/english-translation-2026-06-23/)——LLM 自身机制为什么会被 prompt injection 骗的理论根因侧——**与本文「Capability Frontier 在 agentic benchmark 上 gain 最大」**是「prompt-side common-mode atom vs agentic-side capability frontier」的双视角——Role Confusion 解释「LLM 为什么会被 prompt injection 骗」,本文解释「agent 评估为什么必须 multi-model multi-run」。
⑤ 2026-06-22:Claude Fable 5 5.5h 实测(含中文圈开发者一天的工作量外推)(/blog/english-translation-2026-06-22/)——Fable 5 vs Opus 4.8 同 prompt 对比 + 撞 guardrail 自动 fallback——本文 §5 Models 列表包含 Fable 5 / Opus 4.8 同一天的 frontier snapshot(多 1 个半月后)+ best-of-k posthoc voting 在 Capability Frontier 上多减 82% 错误率——Fable 5 的 5.5h proactive 工作流如果跑 Capability Frontier 路由 + best-of-10 voting,把 frontier gain 推到 82% 是直接的工程结论。