post cover

arXiv 论文译介:Martian 等《Capability Frontier:标准 benchmark 漏掉了 82% 的 LLM 能力——21 个 frontier model × 16 个 benchmark 上 oracle routing 的去偏估计》(2026-06-27)


版权声明

本文为翻译/转载,原文使用 CC BY 4.0 协议发布。 原文作者:Bradley Fowler, Ryan Smith, Daniel Thi Graviet, William Myers, Joshua Greaves, Narmeen Fatimah Oozeer, Antía García, Philip Quirke, Amirali Abdullah, Fazl Barez, Shriyash Kaustubh Upadhyay(Martian 公司主作,合作单位:University of Oxford / ThoughtWorks) 原文标题:The Capability Frontier: Benchmarks Miss 82% of Model Performance 原文链接:https://arxiv.org/abs/2606.26836(HTML 全文:https://arxiv.org/html/2606.26836v1) 原文发布:2026-06-25(arXiv:2606.26836v1,cs.AI / cs.LG,主分类:Artificial Intelligence;副分类:Machine Learning) 本博客不参与任何商业变现(含 ads / 付费 / affiliate),本译文遵循 CC BY 4.0 条款发布。 译文为论文主体(摘要、第 1–8 节 + 关键表格 Tab. 1–6 + Eq. 1–27 + 附录 A–G 要点 + Fig. 1–5 描述)的完整中文编译;所有数据点、pool 规模、G 计数、bias decay 公式、Pareto 维度均与原论文一致;原图 Figure 1–12 受版权保护请见 arxiv HTML 全文。

译者按

为什么选这篇:今天(2026-06-27)距离 arXiv:2606.26836 上线刚 48 小时。它是 6 月以来中文圈做 LLM routing / LLM 平台架构 / 企业 AI 选型 / Agent 路由 / 评测方法学 / Cost-aware inference / Capability 评估 的人绕不开的一篇——Martian 公司(AI 安全公司)的 Bradley Fowler / Ryan Smith / Fazl Barez 等 11 人用 21 个 LLM × 16 个 benchmark × G=10 generations / (prompt, model) 对 跑出 Capability Frontier——质量–成本 Pareto 前沿——并对 naive oracle 的「optimizer’s curse」(取 max over noisy estimates 必然正向偏)做去偏,把 6 月以来所有「用 max over noisy samples 估 oracle gain」的研究(Shnitzer 2023 / RouterBench / RouteLLM 等)的数字全部重新校正。本译文不是写给 portfolio 理论读者看的——是写给所有在 2026 年还在用「单一 benchmark 分数 = 模型能力排序」「用 naive oracle 估 routing 上限」「用单 model 单跑分数做企业 AI 选型」这种评测 / 选型 / 路由方法学去估算 AI 系统能力的中文圈 LLM 平台架构师 / Agent 团队 lead / 企业 AI 采购 / 红队评测工程师 / 学术评测组的。

对中文圈读者价值:① 「Capability Frontier 把 LLM 评测从『单 model 单跑』迁到『多 model 多跑 Pareto 前沿』是 2026 评测方法学的新基线」——本文第一贡献是把 「标准 benchmark 分数」从「单 model 单跑一个数字改成多 model × 多 generation × 质量-成本 Pareto 前沿——这件事直接打了 6 月以来所有「用 benchmark 单跑分数排序模型」的评测方法学的脸——debiased oracle 在匹配成本下比 SOTA LLM 平均多减 54% 错误率,追加校正 single-run 噪声后多减 82%——这件事告诉中文圈 LLM 平台架构师「你看到的『SOTA 模型』实际上只占 Capability Frontier 的 18%;② 「SOTA 准确率可在 Capability Frontier 上以 1/7 成本达到」是 2026 企业 AI 成本结构的关键数据——debiased frontier oracle 在匹配 SOTA 准确率下平均降 85% 成本——Terminal-Bench 2.0 agentic 上 SOTA $260.84/题 → frontier $25.39/题(降 90.3%),TruthfulQA 上 $0.38/题 → $0.002/题(降 99.5%),LeetCode 上 $1.10 → $0.33(降 70.0%——这件事直接告诉中文圈企业 AI 采购「Capability Frontier 选型可以把你的 inference 预算砍到 1/7 同时拿到同样的准确率;③ 「naive oracle 系统性高估」是 6 月以来所有 routing 上限研究的方法学 bug——本文第三大发现:naive oracle 估的 O_biased 系统性高估质量平均 +1.2%(最高 +8.7%),高估成本平均 +37.5%(最高 +88%)——这件事直接打了 6 月以来所有「用 naive max over samples 估 oracle gain」的路由研究的脸——Shnitzer 2023 / Ong 2025 RouteLLM / Jitkrittum 2025 UniRoute / Ding 2025 BEST-Route 等全部需要按本文 Tab. 6 的 bias 量化重新校正——对中文圈做 LLM 路由 / 选型的人来说我能不能信这个 router 论文里报的 oracle gain这个问题的答案是 不能直接信,必须按 bias 量化校正——本文给了精确公式 Eq. 11/12 + PGM 估计器 + G⁻⁰·⁵ decay 让你可以直接在自己数据上重现这个校正;④ 「Capability Frontier 不止是质量上界,更是 cost-aware 多目标前沿」是 2026 enterprise LLM 的方法学标准——本文 §4.4 给出 Capability Frontier 的形式化定义:质量–成本 Pareto 前沿,sweep α∈[0,1] 即可追踪——这件事意味着「Capability Frontier」不是一个部署策略而是一个「L routing 在 quality-cost 平面上的理论可达上界——对中文圈 LLM 平台架构师来说把 frontier 印成手册比把某个具体 router 印成手册有用得多;⑤ 「topic entropy 决定 oracle uplift」是 Capability Frontier 的 workhorse 机制——本文 §6.5 + 附录 G 的 synthetic PGM study 用 1000 datapoints × 10000 generations / (prompt, model) × Dirichlet(α) 扫 α 从单 topic 到均匀 topic:oracle uplift 随 topic entropy 单调上升——单 topic regime 下 oracle 几乎不优于 best single model,均匀混合 regime 下 oracle 显著领先——这件事告诉我们「多 LLM 投票 / routing / ensemble 在『单话题』domain 不值,但在『多话题混合』domain 显著值——对中文圈做 Agent / RAG / 多 skill orchestration 的人来说多模型 routing」的 ROI 直接由 workload 的 topic entropy 决定**——这件事给中文圈一个直接的、可量化的「我应不应该上 router」的工程判断标准;⑥ 「PGM 去偏 oracle」是 Capability Frontier 的技术核心——本文 §4.3.2 用 task difficulty D + topic T + model aptitude A 三层 latent 构造 probabilistic graphical model,直接估 π_nl(prompt n 在 model l 上的真实正确概率)——这件事比 Shnitzer 2023 / RouterBench 的 sample-mean-max 方法更接近真 oracle——对中文圈做 LLM 评测 / 路由的人来说PGM 提供了一个比 max-over-noisy-mean 严格得多的 oracle 估计器——且 G⁻⁰·⁵ bias decay 让你能在自己数据上重现这个估计

中文圈类似案例 / 关联:① 6/26 翻译《arXiv 2606.27288:Josef Chen《When Does Combining Language Models Help?》》/blog/english-translation-2026-06-26/)——那篇是「67 个 frontier model 实测 β/ρ gap + learned router 几乎拿不到 G」的router 上限侧发现,本文是「21 个 LLM × 16 benchmark 实测 capability frontier + debiased oracle 多减 82% 错误率 + naive oracle 高估 37.5% 成本」的Capability Frontier 侧发现——两篇合在一起构成 2026 年中文圈做 LLM 路由 / 选型 / MoA 的「上限可信 + 选型可信 + 偏差可校」三视角闭环——Josef Chen 给出「frontier 模型越强,pool 内 ρ 越高、β 越高、learned router 越没用——Fowler 等给出「即便 frontier 强到几乎『一个 model 通吃』,Capability Frontier 仍能在匹配 SOTA 准确率下砍到 1/7 成本——两件事告诉中文圈「router 不是为了『打败 single-best』,是为了『在 cost-aware regime 下找到性价比拐点』;② 6/25 翻译《arXiv 2606.24589:IIT Jodhpur《AdversaBench》》/blog/english-translation-2026-06-25/)——那篇是「LLM 红队 / 评测管线怎么用 5 个变异算子 + 3 Judge 投票把 LLM 失败模式量化出来」的评测管线侧发现,本文是「评测方法学本身应该用 multi-generation × multi-model Pareto frontier 而不是 single-model single-run」的评测方法学根因侧——两篇合在一起AdversaBench 给出「怎么工程化地把 LLM 失败量化出来本文给出「为什么单 model 单跑分数本身不可信,必须用 Capability Frontier——对中文圈做 LLM 评测的人来说为什么 2026 年的内部评测必须 multi-model multi-run」的根因就在本文里;③ 6/24 翻译《arXiv 2606.24839:Columbia 统计系《Grading the Grader》》/blog/english-translation-2026-06-24/)——那篇是「评分管线会骗你」的评分侧根因**(strict grader + keyword-anchored parser + lenient LLM grader + 人工 snippet),本文是「评测方法学本身会骗你:naive oracle 高估成本 37.5%」的评测方法学根因——两篇合在一起构成 2026 年中文圈做 LLM 评测时「评分侧可信 + 上限侧可信 + 方法学可信」三视角——Grading the Grader 教你怎么修评分管线,Fowler 教你怎么修评测方法学——两件事告诉中文圈「只修评分管线不够,还必须修『评测分数本身』;④ 6/23 翻译《Simon Willison:ICML 2026 论文《Prompt Injection as Role Confusion》》/blog/english-translation-2026-06-23/)——那篇是「LLM 自身机制为什么会被 prompt injection 骗」的理论根因侧,本文 §5 实验设置里没有 prompt injection,但本文「Capability Frontier 在 16 个 benchmark 上多减 82% 错误率+ topic entropy 决定 oracle uplift+ agentic benchmark(Terminal-Bench 2.0、LiveCodeBench agentic)上的 frontier gain 比静态 benchmark 还大——对中文圈做 Agent 安全的人来说Agentic benchmark 的 frontier gain 最大意味着 Agent 的安全 / 鲁棒性 / 失败模式评估必须 multi-model multi-run,否则就漏掉了 80% 的可观测能力——Role Confusion 解释「LLM 为什么会被 prompt injection 骗」,本文解释「为什么 prompt injection benchmark 也必须 multi-model multi-run 才能看到真信号;⑤ 6/22 翻译《Claude Fable 5 5.5h 实测》/blog/english-translation-2026-06-22/)——本文 §5 Models 列表包括 GPT-5-nano / GPT-5-mini / GPT-5.1 / Claude Haiku 4.5 / Claude Sonnet 4.5 / Gemini 2.5 Pro / Gemini 2.5 Flash / Gemini 2.5 Flash-Lite / Llama 4 Scout / Llama 4 Maverick / Codestral 2508 / Devstral / Mistral Small / Qwen3 Coder Plus / Qwen3 Coder Flash / Qwen 2.5 Max / Qwen 2.5 72B / Kimi K2 / DeepSeek R1 / GLM-4.6——这些是 2026 Q2 上半年的 frontier snapshot——与 Fable 5(2026-06-09 发布)当天的 frontier 高度重叠但更新一点(增加了 GPT-5.1、GLM-4.6、DeepSeek R1、Kimi K2 等 6 月新发布的 model)——本文实测告诉我们「这些 model 在 Capability Frontier 上 SOTA $0.169 平均 / frontier $0.934 平均(但 SOTA 错率 17.6% vs frontier 错率 8.3%——Tab. 4 + Tab. 5 显示 k=1 → k=10 posthoc oracle 多减错误率从 66.1% 到 82.4%——对中文圈做 LLM 选型的人来说我应不应该用 best-of-k voting这个问题的答案是「best-of-10 voting 在 Capability Frontier 上把 frontier gain 从 54% 推到 82%,成本仅多 5.5×——best-of-10 在多数 ROI 场景下都是稳赚——Fable 5 那种 5.5h proactive 工作流如果跑 best-of-10 voting + cost-aware router,把 frontier gain 推到 82% 是直接的工程结论;⑥ 6/21 翻译《Simon Willison:Claude Fable 5 “relentlessly proactive”》/blog/english-translation-2026-06-21/)——本文「Capability Frontier 在 16 个 benchmark 上+ agentic benchmark 上 frontier gain 最大是 Fable 5「relentlessly proactive 自主行为」的评测方法学侧根基——Fable 5 的「自主决定要不要调 sub-agent」「自主决定要不要 fallback意味着 agent 行为评估不能只看 static benchmark,必须看 agentic benchmark——而 agentic benchmark 上 frontier gain 最大这件事直接告诉中文圈 LLM 平台架构师「agent 评测的 ROI 最高,必须上 multi-model multi-run;⑦ 6/19 翻译《Manish Goregaokar:未来式诈骗已经到来》/blog/english-translation-2026-06-19/)——本文「Capability Frontier 多减 82% 错误率是「AI 驱动的现实诈骗用最强 model + 多次 sampling 才能完全发挥」的技术侧根因——诈骗者用 Frontier model + best-of-10 sampling 就能生成比单一 model 单跑「准确率高 82%」的诈骗 prompt——这件事给中文圈企业安全团队一个直接可量化的告警信号:「前沿 model + multi-shot sampling = 真实威胁」;⑧ 6/15 翻译《Lobsters 7 条高赞讨论:Siri 与私有推理》/blog/english-translation-2026-06-15/)——本文「Frontier 在匹配 SOTA 准确率下平均降 85% 成本+ T2.0 frontier $25.39/题 vs SOTA $260.84/题(降 90.3%是「私有推理如何省钱」的关键论据——企业不必为每一个 inference 选 SOTA 模型用 Capability Frontier 路由 + cost-aware frontier 就能砍到 1/7 成本——这给中文圈「私有推理 vs 公有推理」的选型讨论一个直接的量化锚——Apple PCC TEE 隔离 + Capability Frontier 路由 = 安全 + 省钱」的两条独立路径——对中文圈企业 AI 团队来说,**「Capability Frontier 路由 + 私有推理 + cost-aware frontier是 2026 H2 的标准架构

正文

摘要(Abstract)

现有的 LLM benchmark 通常报告单个 model 在单次运行上的准确率。这系统性低估了实际生产中 LLM 的真实能力,尤其在异构数据分布下:(i)不同 model 在不同 topic 上各有所长,(ii)在给定成本预算下,可以对多个 generation 进行采样并选择性保留。为了量化这个 gap,本文引入 Capability Frontier一个在 model 集合上的 Pareto 前沿刻画在「跨 model + 跨 generation 的 oracle 选择」下每个成本水平能达到的最佳性能

本文的构造同时校正两个相反方向的偏差单 model 评估造成的低估 + 对 noisy sample 取 max 造成的过估。我们在 21 个 LLM × 16 个广泛使用的 benchmark 上做了实证,覆盖 coding / reasoning / medicine / factuality / instruction-following / agentic tasks,对比 Capability Frontier 在匹配成本下的性能与每个 benchmark 的 top-performing model

  • 校正 single-model 评估 → 错误率平均下降 54%
  • 追加校正 single-run 取样噪声 → 错误率下降 82%
  • SOTA 准确率可在 Capability Frontier 上以 1/7 成本达到(85% cost reduction)

补充实证上,本文用受控的 probabilistic 模拟显示:query topic entropy 越高,oracle routing 与 best single model 之间的性能 gap 越大(接近单调上升)。本文发现集体 LLM 能力被严重低估,对异构数据、多 domain 部署的评估和落地有直接启示。

1. 引言(Introduction)

生产环境中的 LLM 面对的是混乱且异构的 workload。以医疗问答为例,生死攸关的 query 是一道 polyphonic mixture,覆盖基因变异、人体结构生理等多个医疗知识 subdomain。一致地,Singhal et al. (2025) 显示 model 在不同医疗 topic 上各有所长:GPT-4-base 在 MMLU Medical Genetics 上 97.0% vs Med-PaLM-2 的 92.0%,Anatomy 上 85.2% vs 84.4%,而 Med-PaLM-2 在 Professional Medicine 上 95.2% vs 93.8%,College Medicine 上 83.2% vs 80.9%。一个能拿到 per-query ground-truth 的 oracle selector 应该能同时击败两者,但这个可达性能在标准评估里从未被测过

LLM routing 的奠基性工作已经开始探测这个 gap。Shnitzer et al. (2023) 显示一个 oracle router 可以通过 per-prompt 切换 model 拿到约 20% 的性能增益。RouterBench (Hu et al., 2024) 量化了 model 互补性,发现 secondary model 在 10–30% 的 prompt 上提供唯一的正确答案。RouteLLM (Ong et al., 2025) 进一步展示了最高 2× 的成本下降,通过识别「哪些 prompt 上便宜 model 就够了」。这些研究从有限次 generation 估 oracle 性能取最高 performing model——因为 oracle 选择是对 noisy 性能估计取 max这种 procedure 是正向偏的系统性高估了可达增益。在现实 generation budget 下(每 prompt G ≤ 10 次 generation)这种 bias 被放大。

Figure 1Capability Frontier:动态 per-prompt LLM 选择在任何单一 LLM 之上显著占优(本文 16 个 benchmark 上)。从 App. B 抽取的样本数据点。对任意给定成本预算相对单 LLM 有实质质量改进反之对固定质量阈值动态 LLM 选择可实现实质成本节省

为了让 Capability Frontier 估计对有限样本噪声 robust,本文开发了去偏方法恢复准确的 frontier 测量给出可达性能的 principled 上界我们的实证覆盖 21 个 LLM × 16 个 benchmark包括 coding / reasoning / medicine / factuality / instruction-following / agentic tasks。结果显示标准 single-model 评估严重低估了可达性能

  • 在匹配成本下Capability Frontier 比每个 benchmark 的 top model 平均多减 54% 错误率
  • 再考虑 multi-run selection(事后 routing)错误率下降 82%
  • 反之SOTA 准确率可在 frontier 上以 85% 更低成本达到

这些 gap 不是纯理论——它们代表今天用现有 model + 简单 inference-time strategy 已经能达到的性能

准确测量这些增益需要小心。标准 oracle 计算对每个 prompt 选 sample mean 最高的 model然后把这个 mean 报为可达性能。因为这是对 noisy 估计取 max,优先捕获正离群值。在 limited generations per prompt(G ≤ 10 出于成本)下,这个 bias 显著:本文发现它让准确率被高估最多 8.7%、成本被高估最多 88%(§6.3)本文的去偏方法——extrapolation-based correction + probabilistic graphical modeling——实现准确的 frontier 估计

作为经验发现的补充,本文构造受控 probabilistic 模拟显示 oracle gain 随 workload 多样性单调上升

主要贡献

  1. Capability Frontier:引入一个严谨框架来量化 single-model benchmark 评估 与 **「在最优 model 和 generation 选择下的可达系统级性能」**之间的 gap。
  2. 去偏方法:显示有限样本 oracle 估计器是正向偏的提出基于 extrapolation 和 probabilistic modeling 的校正方法带显式假设和实证验证
  3. Bias 特征化形式化分析 oracle bias显示它以 O(G⁻λ) 衰减(每 prompt generation 数),跨 benchmark 实证验证这个 scaling
  4. 实证评估:跨 21 LLM × 16 benchmark量化可达 frontier gain + naive oracle 估计的 bias 量级。见 Figure 1。
  5. 受控模拟当模拟从低多样性到高多样性的 synthetic workload发现 oracle gain 随 workload entropy 单调上升。这些结果给 oracle 性能提供了机制根基,显示可达增益根本上由数据异构性驱动

2. 相关工作(Related Work)

LLM 的快速增殖让 routing 研究兴趣上升——动态选择 model 以平衡质量 / 成本 / 延迟。Shnitzer et al. (2023) 首先用 benchmark 数据集形式化这个问题把 oracle router 引入为性能增益的理论上限。虽然他们识别出「best-on-average」model 之外的显著 headroom,他们的 oracle 依赖 biased sample mean本文解决了这个局限

后续框架如 RouterBench (Hu et al., 2024) 标准化了跨 routing 方法的评估但同样使用这些 biased 估计

通用 / Zero-Shot Routing:近期方法寻求解决「model lock-in」问题——router 必须每次 model pool 变化时重新训练。UniRoute (Jitkrittum et al., 2025) 通过把 LLM 表示为基于 anchor prompt 的 feature vector 来解决允许泛化到未见 model。类似地,ZeroRouter (Yan et al., 2026) 利用一个通用 latent space 来解耦 query 难度与具体 model profile支持跨演化 model 生态的 zero-shot 选择

理论基础:虽然行业朝着 expert orchestration 迈进(Quirke et al., 2025),可实现 router 与理论最优性」之间仍存在 gap。本文建立在 oracle routing 的奠基之上 (Shnitzer 2023; Hu 2024),但通过校正「optimizer’s curse——一个在经济学 (Andrews 2024; Capen 1971) 和决策分析 (Smith and Winkler 2006) 中被充分记录的统计偏差——而与之分离通过引入 debiased oracle本文为量化 Capability Frontier 中真实可用的 headroom 提供了一个更严谨的框架。更多 routing 方法见 Appendix D,包括 training-free、cascade、preference routing

3. 问题形式化(Problem Setting)

记号:$n \in [N]$ 索引数据集 prompt,$l \in [L]$ 索引 LLM,$g \in [G]$ 索引独立 stochastic generation。对每个 prompt-model 对观察 $G$ 次 generation用 metric $\phi_{nlg} \in \mathbb{R}$ 评估(如 correctness / cost / latency)。标准 routing 形式化是一个二维目标最大化质量同时最小化成本

$$\phi_{nlg} = {(\mathbf{Q}, -\mathbf{C})}_{nlg}$$

$\mathbf{Q}$、$\mathbf{C}$、$\mathbf{T}^{95}$(P95 latency)是同维张量分别代表 Quality / Cost / P95 latency

Routing 问题:router $\pi: \mathcal{X} \to [L]$ 把每个 prompt 映射到 model。目标是找 $\pi$ 最大化期望性能

$$\max_\pi \frac{1}{N}\sum_n \mathbb{E}[\phi_{n,\pi(x_n),g}]$$

Oracle router:oracle router 能拿到真实期望性能 $\mu_{nl} = \mathbb{E}[\phi_{nlg}]$最优地选择

$$l^*(n) = \arg\max_l \mu_{nl}$$

真实 oracle value

$$\mathcal{O}^{true} = \frac{1}{N}\sum_n \max_l \mu_{nl}$$

这是 routing 的基本上限在「完美知道每个 model 在每个 prompt 上的期望性能」下能达到的最佳性能

估计问题我们不能直接观察 $\mu_{nl}$只能观察 noisy realization $\phi_{nlg}$。标准方法用 sample mean $\bar{\phi}{nl} = \frac{1}{G}\sum_g \phi{nlg}$ 估计 $\mu_{nl}$计算

$$\mathcal{O}^{biased} = \frac{1}{N}\sum_n \max_l \bar{\phi}_{nl}$$

本文接下来显示这个估计器是正向偏的:$\mathbb{E}[\mathcal{O}^{biased}] > \mathcal{O}^{true}$。

4. Oracle Bias 与去偏方法(Oracle Bias and Debiasing Methods)

4.1 特征化 Oracle Bias

为什么 biased oracle 是 biased 的:bias 来自对 sample mean 取 max 优先选「样本超过真实 mean」的 model。这个 bias 在许多领域都出现从经济学 Andrews et al. (2024)到管理学 Smith and Winkler (2006)但首次在拍卖中被 Capen et al. (1971) 注意到本文在 LLM Routing 中形式化了这个 bias提出新方法来去除它

4.2 Gaussian 情形

假设 $\phi_{nlg} \sim \mathcal{N}(\mu_{nl}, \sigma_{nl}^2)$ 独立Sample mean 满足 $\bar{\phi}{nl} \sim \mathcal{N}(\mu{nl}, \sigma_{nl}^2/G)$为了闭式推导 bias做一个简化假设:$\mu_{nl} = \mu_n, \sigma_{nl}^2 = \sigma_n^2, \forall l$。

Remark假设 (6) 仅用来推导 bias decay 的函数形式不声称 $\mathcal{O}^{true} = \bar{\mu}$在异构均值下真实 oracle 仍是 $\frac{1}{N}\sum_n \max_l \mu_{nl}$我们的去偏方法估计它不需要均值相等

在 (6) 下$L$ 个 i.i.d. Gaussian 的期望最大值(方差 $\sigma_n^2/G$)近似

$$\mathbb{E}[\max_l \bar{\phi}_{nl}] \approx \mu_n + \sigma_n\sqrt{\frac{2\log L}{G}}$$

对 prompt 取平均

$$\mathcal{O}^{biased} \approx \underbrace{\bar{\mu}}{\text{True Oracle}} + \underbrace{\bar{\sigma}\sqrt{\frac{2\log L}{G}}}{\text{Bias}}$$

关键洞察bias 以 $O(G^{-0.5})$ 衰减随 $L$(更多 model)和 $\bar{\sigma}$(更高方差)增加对 $G=10$、$L=21$这个 bias 是 non-negligible

4.2.1 Bernoulli 情形

对二元 metric(correct/incorrect)设 $\phi_{nlg} \sim \text{Bernoulli}(p_{nl})$在简化假设 $p_{nl} = p_n$ 下

$$Y_{nl} = \sum_g \phi_{nlg} \sim \text{Binomial}(G, p_n)$$

$$\mathbb{E}[\max_l Y_{nl}] = \frac{1}{NG}\sum_{n,g}[1 - F(g; p_n)^L]$$

其中 $F(g; p_n)$ 是 Binomial CDF。没有清晰的「真 oracle」和「bias term」分离但通过实证可以确定 bias decay 的特征对大 $G$Oracle 应该趋向 $p_n$。Figure 2 显示 bias 在不同 scenario 下如何衰减。当 $p=0$ 或 $p=1$每个数据点上 LLM 性能无方差所以 bias 对所有 $G$ 都为零

通过一个 synthetic study(Appendix A),本文发现 bias 在 $L > 1, p \in (0, 1)$ 下以 $O(G^{-0.5})$ 衰减在异构 $(\mu_{nl}, \sigma_{nl})$ generation 跨 model 的极限下与 Gaussian 分析一致对相关 generation 跨 model本文发现指数在 $[0.25, 0.75]$ 范围内变化(对 sensible hyper-parameter)。异构和相关 scenario 都需要大约 $G=50$ 次 generation 来准确拟合 Eqn. 11。

关键洞察bias 以 $O(G^{-\lambda})$ 衰减$\lambda \in [0.25, 0.75]$至少 $G \geq 50$ 次 generation 是必要的让 $O(G^{-\lambda})$ 成为 bias decay 的主导项

Figure 2Oracle bias 随 generation 数减少Oracle bias 在每个 LLM 只被 prompt 一次($G=1$)时最大随 $G$ 增长趋向零Oracle bias 在极限下以 $O(G^{-0.5})$ 衰减。曲线显示 LLM 成功率 $p$。始终正确/错误的 LLM($p=0, 1$)bias 为零曲线是水平的

4.3 去偏方法(Debiasing Methods)

4.3.1 方法 1:Extrapolation

给定 bias 以 $O(G^{-\lambda})$ 衰减,$\lambda \in [0.25, 0.75]$,我们拟合

$$\mathcal{O}^{biased}(G) = \alpha + \beta G^{-\lambda}$$

估计 $\mathcal{O}^{true} = \alpha$实际上由于成本约束我们不在 $G \geq 50$ 区域Eqn. 11 不再成立(如图 3 所示)。因此可以用 smooth transition 形式来更好地近似 bias decay:

$$\mathcal{O}^{biased}(G) = \alpha + \beta\left[1 + \left(\frac{G - \gamma}{\delta}\right)^2\right]^{-\lambda/2}$$

Figure 3Bias decay 在小 $G$ 下偏离 $O(G^{-0.5})$在 $p=0.9$曲线只在 $G > 20$ 时遵循渐近形式激发了 smooth transition 形式。这条曲线是 Figure 2(b) 中 $p=0.9$ 的特写。

Limitations当 $G < 10$ 时extrapolation 携带风险我们用以下方式验证:(1)在 synthetic data(带已知 ground truth)上测试(2)与 PGM 估计比较

4.3.2 方法 2:Probabilistic Graphical Model

本文引入一个 generative model(Koller and Friedman 2009)对观察 $\phi_{nlg}$(图 4 所示),允许直接估计真实性能参数。模型背后的直觉是:(1)每个 prompt 有难度 $D$(2)每个 prompt 属于一个 topic $T$(如 coding / math,或它们的加权和),(3)每个 LLM 在每个 topic 上有一些 aptitude $A$

观察到的「LLM 在给定 prompt 上的性能」是「prompt 难度」「prompt topic 组合」和「LLM 在这些 topic 上的 aptitude」的函数

Latent variables

  • $D_n \in [0, 1]$:prompt $n$ 的任务难度
  • $T_n \in {1, \ldots, K}$:prompt $n$ 的 topic 分配
  • $A_{tl} \in [0, 1]$:model $l$ 在 topic $t$ 上的 aptitude

Generative process

  • $D_n \sim \text{Beta}(\alpha_D, \beta_D)$
  • $T_n \sim \text{Categorical}(\boldsymbol{\theta})$,其中 $\boldsymbol{\theta} \sim \text{Dirichlet}(\boldsymbol{\alpha})$
  • $A_{tl} \sim \text{Beta}(\alpha_{tl}, \beta_{tl})$
  • $\phi_{nlg} \sim \text{Bernoulli}(\pi_{nl})$

Link function:$\pi_{nl} = f(D_n, A_{T_n, l})$

$(1-D_n) \cdot A_{T_n, l}$ 的简单乘法形式可以捕获「成功需要同时低难度和高 model aptitude」的直觉然而本文发现最准确的结果是用 feedforward neural network 获得的

Figure 4Probabilistic graphical model (PGM)本文把 LLM 的固有准确率建模为「prompt 难度 $D$」和「model aptitude $A$」的函数通过 generation($G$)间接观察 topic($T$)。本文用 Plate Notation 描绘这个模型——一种标准方式写 Bayesian model 的生成过程。$D_n$ 在每个 prompt 上诱导跨 model 的相关性

LimitationsPGM 有 ad-hoc 的结构选择可能影响结果检查与 synthetic data(带已知 ground truth,跨多种 regime)的对齐降低这些选择的风险

Inference使用 stochastic variational inferencefactorized posterior $q(D_n) q(T_n) \prod_{t,l} q(A_{tl})$设置 uniform prior($\alpha_D = \beta_D = 1$, $\alpha_{tl} = \beta_{tl} = 1$, $\alpha_t = 1$),运行到收敛

计算 unbiased oracle

$$\mathcal{O}^{true} = \frac{1}{N}\sum_n \max_l \hat{\pi}_{nl}$$

其中 $\hat{\pi}_{nl}$ 是推断的成功概率

独立性假设Figure 4 假设在给定 latent variable 时 generation 之间条件独立当 temperature-based sampling 占主导时这是合理的但当 model 共享训练数据和架构时可能低估相关性

4.4 多目标 Routing 的 Capability Frontier

真实 routing 决策涉及多个目标本文把 Capability Frontier 定义为通过 routing 可达的 Pareto-optimal surface对归一化质量 $Q^$ 和成本 $C^$

$$\phi(\alpha) = \alpha Q^_{nlg} + (1-\alpha)(-C^_{nlg})$$

$$Q^*{nlg} = \frac{Q{nlg} - \min\mathbf{Q}}{\max\mathbf{Q} - \min\mathbf{Q}}$$

$$C^*{nlg} = \frac{C{nlg} - \min\mathbf{C}}{\max\mathbf{C} - \min\mathbf{C}}$$

Sweep $\alpha \in [0, 1]$ 追踪 Capability Frontier对去偏本文

  1. 用 $\phi(\alpha)$ 决定 routing 决策
  2. 对质量和成本分别去偏

对成本(正实数)在 PGM 中把 Bernoulli likelihood 替换为 LogNormal

4.5 Posthoc Oracle

当 inference 时有 verifier 可用时我们可以在观察 output 后从多个 generation 中选择对每个 model 的 $k$ 次 generation + 完美 judge

$$\mathcal{O}^{kshot}(k) = \frac{1}{N\binom{G}{k}}\sum_n \max_l \sum_{\substack{\mathcal{S}\subseteq[G]\|\mathcal{S}|=k}} \max_{j\in\mathcal{S}} \phi_{nlj}$$

用 PGM

$$\mathcal{O}^{kshot}(k) = \frac{1}{N}\sum_n \left[1 - \prod_l (1 - \pi_{nl})^k\right]$$

Eqn. 22 & 23 形式是 posthoc router 最朴素的形式每个 prompt 查询所有 LLM更紧的上界可用更高效的 posthoc 技术达到如 sequential prompting LLM with a return early rule本文不讨论这些方法但相信增益可在更低成本达到

关键 caveat

  • 假设完美 judge(零错误)
  • 假设 judge 是 free 的(零成本)

5. 实验设置(Experimental Setup)

Benchmarks在 16 个 benchmark 上评估带可验证正确答案包括

  • Coding:LiveCodeBench, BigCodeBench, HumanEval-X-Python, HumanEval-X-CPP, HumanEval-X-Javascript, HumanEval-Java, HumanEval-X-Go, MBPP, LeetCode Hard
  • Reasoning:LiveBench-Reasoning, GPQA Diamond
  • Instruction-following:LiveBench-IFEval
  • Medical:MedCalcBench
  • Factuality:TruthfulQA
  • Agentic:Terminal-Bench 2.0, LiveCodeBench(agentic)

这些 benchmark 有二元正确性 metric(code 用 pass/fail、QA 用 exact match)支持干净的 oracle 分析

Models评估 21 个 LLM跨主要供应商

  • OpenAI:GPT-5-nano, GPT-5-mini, GPT-5.1
  • Anthropic:Claude Haiku 4.5, Claude Sonnet 4.5
  • Google:Gemini 2.5 Pro, Gemini 2.5 Flash, Gemini 2.5 Flash-Lite
  • Meta:Llama 4 Scout, Llama 4 Maverick
  • Mistral:Codestral 2508, Devstral Medium 2505, Devstral Small 2505, Mistral Small Instruct
  • Qwen:Qwen3 Coder Plus, Qwen3 Coder Flash, Qwen 2.5 Max, Qwen 2.5 72B Instruct
  • Moonshot:Kimi K2
  • DeepSeek:DeepSeek R1
  • Z.AI:GLM-4.6

Generation 参数对所有 model 使用 provider 的默认 hyper-parameter当 benchmark 有 max tokens 规范时保留那个 setting

Metrics

  • 质量:准确率(正确回答 prompt 的比例)。对 coding benchmark使用 execution based verification
  • 成本:API 总成本(input + output tokens × provider pricing),单位 USD

Generations每个 prompt-model 对用 $G=10$ 次独立 generation 评估这产生 $N \times L \times G$ 个总观察 per benchmark

成本测量成本按 2026-01-01 的 provider API pricing 计算

Agentic Benchmarks对 agentic benchmark计算真实 oracle 是组合性 hard 的因为最优 LLM 可能在每个 trajectory step 上不同为简化本文在每个 trajectory 内 fix LLM这可能低估 routing 收益真实 per-step routing 可能产生更高增益使用 mini-SWE-agent默认参数

Synthetic oracle 评估(PGM study)除真实 benchmark 外运行受控 synthetic study 以隔离任务异构性如何驱动 oracle gain数据从 §4.3.2 定义的 probabilistic graphical model 生成模拟 $L=10$ 个 LLM × $T=30$ 个 latent topic × $N=1{,}000$ 数据点 × $G=10{,}000$ generation per LLM per datapoint带不同多样性分布完整细节见 Appendix G

6. 结果(Results)

Table 1Combining LLMs boosts QualityBenchmark 级分解比较 SOTA LLM 与 $\mathcal{O}^{true}(\alpha=1)$错误率平均下降 53.7%

BenchmarkSOTA (%)$\mathcal{O}^{true}$ (%)Error Reduction (%)
LiveBench-Coding82.286.826.2
BigCodeBench35.849.120.6
LeetCode79.187.741.3
HumanEval-X (Python)97.499.579.6
HumanEval-X (CPP)95.199.385.7
HumanEval-X (Javascript)93.597.053.5
HumanEval-X (Java)95.999.075.6
HumanEval-X (Go)91.397.166.0
MBPP86.292.344.3
MedCalcBench70.586.453.9
TruthfulQA98.899.557.1
LiveBench-IFEval80.087.436.9
LiveBench-Reasoning92.496.250.2
GPQA Diamond94.099.082.7
Terminal-Bench 2.040.849.013.9
LiveBench-Coding (agentic)85.596.072.1
Average82.488.853.7

Table 2Combining LLMs 降低成本成本分解比较 SOTA 与 $\mathcal{O}^{true}(\alpha=\alpha^*)$总 token 成本平均下降 85.2%

BenchmarkSOTA ($)$\mathcal{O}^{true}$ ($)Cost Saving (%)
LiveBench-Coding1.060.2675.6
BigCodeBench0.430.0784.6
LeetCode1.100.3370.0
HumanEval-X (Python)0.320.0294.8
HumanEval-X (CPP)0.210.0288.3
HumanEval-X (Javascript)0.200.0292.4
HumanEval-X (Java)0.210.0383.5
HumanEval-X (Go)0.550.0394.8
MBPP0.140.0196.3
MedCalcBench0.230.0483.3
TruthfulQA0.380.0099.5
LiveBench-IFEval0.270.0293.1
LiveBench-Reasoning1.040.4160.9
GPQA Diamond0.540.0296.3
Terminal-Bench 2.0260.8425.3990.3
LiveBench-Coding (agentic)3.341.3758.9
Average16.931.7585.2

6.1 发现 1:LLM Routing 提供实质增益

使用 debiased oracle量化可达 routing 增益(Tab. 1 & 2),通过 §4.4 描述的 Capability Frontier 计算(使用 Eqn. 12)。

  • 错误率下降与 SOTA LLM 比$\mathcal{O}^{true}(\alpha=1)$ 达到 54% 平均错误率下降
  • SOTA 质量下的成本节省与 SOTA LLM 比$\mathcal{O}^{true}(\alpha=\alpha^*)$ 达到 85% 平均成本节省

6.2 发现 2:Posthoc Routing 增加增益

通过在 inference 时利用一个 free 且 perfect judge(如 Eqn. 22 所述),错误率可进一步降低(Appendix E Tab. 4 & 5)。结果不仅量化增益还量化它随 attempt 数 $k$ 从 $1 \to 10$ 增加而变化的速度如 §4.5 所述本文使用最朴素的 posthoc router 形式本文相信这些增益可在显著更低的成本达到

  • $k=1$:66% 错误率下降 vs SOTA LLM
  • $k=10$:82% 错误率下降 vs SOTA LLM

6.3 发现 3:Naive Oracle 高估增益

跨 benchmark 比较 $\mathcal{O}^{biased}$ 与 $\mathcal{O}^{true}$(App. F Tab. 6, Fig. 12)。

  • 质量 bias平均 1.2% 高估
  • 成本 bias平均 37.5% 高估
  • 更大的成本 bias 来自成本分布更 skewed放大选择效应

6.4 发现 4:Model Reliability 显著变化

带默认 hyper-parameter 的 LLM 按设计为相同 input 输出不同响应(当被多次 prompt 时)。一个明显的问题是 LLM 在这些 generation 中有多 consistent

Appendix C Tab. 3 显示 LLM 在 reliability 上如何排序

$$\text{reliability}(l) = 2 \times \frac{1}{N}\sum_n |\bar{\phi}_{nl} - 0.5|$$

最 reliable 的 LLM 是 GPT-5-mini90.2% 分数),最不可靠的是 GLM-4.676.3%)。Reliability 与 Quality 或 Cost 之间没有显著相关性

6.5 发现 5:模拟显示 oracle uplift 随数据多样性上升

Figure 5 显示 oracle uplift 随 topic entropy 变化(在 synthetic PGM study 中)。Uplift 随 entropy 单调上升在单 topic regime 下最小在均匀混合 regime 下最大这可能解释 oracle gain 跨 benchmark 和 setting 的变化(App. G 细节)。

Figure 5Synthetic PGM study 测量 oracle router 与 best single LLM 之间的性能 gap 如何随任务多样性变化x 轴显示 topic distribution 的 entropy从单 topic(低 entropy)插值到高度混合 workload(高 entropy)y 轴报告 oracle 减去 best-single-model 准确率

7. 局限性(Limitations)

Limited generations用 $G=10$extrapolation 携带不确定性用以下方式 mitigate:(1)在 synthetic data(带已知 ground truth)上测试(2)与 PGM 估计比较然而更大 $G$ 会改善估计

Agentic Benchmarks Gain 可能被低估对 agentic benchmark计算 $\mathcal{O}^{true}$ 是组合性 hard 的因为最优 LLM 在每个 trajectory step 上可能不同为简化在每个 trajectory 内 fix LLM这可能低估 routing 收益真实 per-step routing 可能产生更高增益

Perfect judge 假设Posthoc oracle 假设无错误、无成本的 judge真实 verifier 引入错误和成本降低可达增益

8. 结论(Conclusion)

本文重新评估了 LLM 的性能如何被测量本文显示标准 benchmark 评估——通常基于单个 model 和每 prompt 单次采样的 output——未捕获现有 model 和 inference budget 下已经可达的全部性能范围与此同时本文展示 naive 的跨 model / 跨 run 聚合由于噪声可能导致过度乐观的估计

为了同时解决这两种效应本文引入 Capability Frontier——一个 quality-cost Pareto frontier刻画可达性能同时显式校正这些相反方向的偏差经验上跨 21 LLM × 16 benchmarkCapability Frontier 显著优于标准 single-model 评估

  • 在匹配成本下校正 single-model 评估平均减少 54% 错误
  • 额外考虑 single-run 可变性减少 82%
  • 反之在匹配准确率下frontier 点经常以 SOTA LLM 一小部分的成本达到可比性能

这些结果显示通常报告的 benchmark 分数可以严重低估可达的系统级性能本文的模拟显示这些增益随数据异构性 scaling更多样化的 workload 诱导更大的 model 互补性和更大的 frontier 改进

启示

  • 评估方法学Single-model / single-run benchmark 提供有限的 model 能力视图基于 Capability Frontier 的分析提供一个互补视角考虑 model 多样性和采样效应可帮助语境化结果
  • 系统设计虽然 Capability Frontier 本身不是部署策略它突出了简单 routing 或重复采样可能足以实现大增益的 regime以及需要更复杂方法逼近可达上限的 regime

Future work几个扩展方向明确

  1. 把 judge 错误和成本直接纳入 posthoc frontier 构造
  2. 把 agentic 评估扩展到固定 trajectory routing 之外
  3. 开发并评估能在现实部署约束下逼近 frontier 性能的实用 routing 政策
  4. 研究系统 prompt 选择和 hyper-parameter sampling 如何影响 frontier
  5. 经验地表征数据多样性与 frontier 增益之间的联系仍是一个重要方向。

译者注

注 1:术语 / 命名约定。① 「Capability Frontier」 译为「能力前沿」——一个 quality-cost 的 Pareto 前沿刻画通过 routing 可达的最优性能。② 「Optimizer’s curse」 译为「优化者诅咒」——取 max over noisy estimates 必然正向偏本文在 LLM routing context 中形式化这个偏差。③ 「Debiased oracle」 译为「去偏 oracle」——用 PGM 或 extrapolation 方法校正 biased oracle 的 systematic overestimate。④ 「Naive oracle」 译为「朴素 oracle」——直接对 sample mean 取 max不做去偏系统性高估可达增益。⑤ 「Posthoc oracle」 译为「事后 oracle」——在 inference 时利用 verifier 从多次 generation 中选择假设 perfect judge free cost。⑥ 「Topic entropy」 译为「主题熵」——workload 的 topic distribution 越均匀(高 entropy),oracle uplift 越大。⑦ 「Single-factor (in PGM)」 译为「单因子」——PGM 中的三层 latent variable(task difficulty D / topic T / model aptitude A)联合估计每个 (prompt, model) 的真实正确概率。⑧ 「Bias decay」 译为「偏差衰减」——naive oracle 的 systematic overestimate 随 G(每 prompt generation 数)以 O(G⁻λ) 衰减λ ∈ [0.25, 0.75]。⑨ 「Smooth transition」 译为「平滑过渡」——Eqn. 12 的形式——在 G < 50 时比纯 O(G⁻⁰·⁵) 形式更准确。⑩ 「Best single model」 译为「最优单 model」——在所有 model 上平均 performance 最高的那个 model与 oracle per-prompt selector 对照

注 2:原文作者 Martian 公司的可信度Martian 是一家专注 AI 安全 / model routing / LLM observability 的公司作者列表包括 Bradley Fowler / Ryan Smith / Fazl Barez 等 11 人隶属 Martian / University of Oxford / ThoughtWorksFazl Barez 是 Oxford 的 AI 安全研究者曾与 Quirke 等合作发表过 “Beyond Monoliths: Expert Orchestration”本文的方法学透明度极高:① 16 个 benchmark × 21 LLM × G=10 完整 baseline 表格(Tab. 1/2/4/5);② PGM 三层 latent + stochastic variational inference(§4.3.2 + 附录 G);③ 闭式 O(G⁻⁰·⁵) bias decay 公式(Eqn. 8);④ synthetic PGM study(附录 G)用 1000 datapoints × 10000 generations 隔离 topic entropy 的因果效应附录 H 显式声明 LLM 仅用于 minor 写作 / 编辑协助所有技术贡献和实证发现均为作者原创——这是 2026 上半年中文圈做 LLM routing / capability 评估必读的方法学基线

注 3:与 6/26 Josef Chen《When Does Combining Language Models Help?》的方法学对比Josef Chen(6/26 翻译)用 67 frontier model × MATH-500 实测 β/ρ gap得到「learned router 几乎拿不到 G」「LLM-as-router 100% 路由到 single-best本文用 21 LLM × 16 benchmark 实测 Capability Frontier**,得到「debiased oracle 多减 54% 错误率 + 82%(with best-of-10 posthoc voting)」「SOTA 准确率可在 frontier 上以 1/7 成本达到」「naive oracle 系统性高估成本 37.5%两篇的结论看似冲突Josef Chen 说「router 没用本文说「router / 多 LLM 选择很有用——实际不冲突Josef Chen 测的是「learned router vs oracle gain」(learned router 拿不到 G),本文测的是「oracle / Capability Frontier 上限 vs single best model」(Capability Frontier 比 SOTA 多减 54% 错误率Capability Frontier 是 theoretical upper boundJosef Chen 的 learned router 实测显示现实 router 远达不到这个上界两篇合在一起Capability Frontier 是「targetlearned router 是「weapon——target 远高于 weapon 的射程是 2026 frontier LLM routing 的真实状态这件事告诉中文圈 LLM 平台架构师:**「上 Capability Frontier 路由是有意义的成本砍 7 倍),但「用 learned router 逼近 Capability Frontier目前还做不到learned router 拿不到 oracle gain 的 10%——所以工程上应该是「用 hard-coded topic → model 映射 + cost-aware selector 逼近 frontier而不是「训练一个 learned router

注 4:与 6/25 AdversaBench 的方法学对比AdversaBench(6/25 翻译)用 5 个变异算子 + 3 Judge 投票 + meta-judge tiebreaker 量化 LLM 失败模式本文PGM(task difficulty D + topic T + model aptitude A)+ smooth transition extrapolation 量化「评测方法学本身应该用 multi-model multi-run Pareto frontier 而不是 single-model single-run。**两篇合在一起构成 2026 年中文圈做 LLM 评测时「怎么工程化地把 LLM 失败量化出来」+ **「为什么单 model 单跑分数本身不可信,必须用 Capability Frontier的方法学闭环对中文圈做 LLM 评测 / 路由 / 选型的人来说AdversaBench 是「attack-side 工程工具本文是「evaluation-side 方法学根基——两件事一起做才能在 2026 frontier 上拿到可信的评测结果

注 5:「为什么 Capability Frontier 对 enterprise LLM 选型是关键。本文 §6.1 + Tab. 2 显示debiased frontier oracle 在匹配 SOTA 准确率下平均降 85% 成本——Terminal-Bench 2.0 agentic 上 SOTA $260.84/题 → frontier $25.39/题(降 90.3%),TruthfulQA 上 $0.38 → $0.002(降 99.5%),LeetCode 上 $1.10 → $0.33(降 70.0%),BigCodeBench 上 $0.43 → $0.07(降 84.6%——这件事告诉中文圈企业 AI 采购我可以用 frontier routing 把 inference 预算砍到 1/7 同时拿到同样的准确率这件事直接打了很多企业 AI 选型团队「单一最强模型 = 最优选型」的直觉**——本文给出精确的量化single-best model 占 Capability Frontier 的 18%SOTA 错误率 ~17.6% vs frontier 错误率 ~11.2%,差 36%,相对 SOTA 错误率 17.6% 是 54% 错误率下降)。这件事给中文圈企业 AI 团队一个直接的、可量化的、可在自己数据上重现的工程判断标准——用 Eqn. 12 + PGM 估计器 + G⁻⁰·⁵ bias decay中文圈任何企业都可以在内部 benchmark 上算出自己的 Capability Frontier然后在 frontier 上做 cost-aware 选型

注 6:「为什么 topic entropy 决定 routing 的 ROI。本文 §6.5 + 附录 G 的 synthetic PGM study 用 1000 datapoints × 10000 generations × Dirichlet(α) 扫 α 从单 topic 到均匀 topicoracle uplift 随 topic entropy 单调上升——单 topic regime 下 oracle 几乎不优于 best single model均匀混合 regime 下 oracle 显著领先这件事告诉我们「多 LLM 投票 / routing / ensemble 在单 topic domain 不值,但在多 topic 混合 domain 显著值——对中文圈做 Agent / RAG / 多 skill orchestration 的人来说:**「我应不应该上 router这个问题的答案是「取决于我的 workload 的 topic entropy——这件事给中文圈一个直接的、可量化的工程判断标准用 PGM 在自己的 workload 上跑 synthetic study估算 topic entropy,**然后用本文 Eqn. 26(uplift = O_true - max_l mean(φ_nl))估算 oracle uplift。**这件事直接连接 6/26 Josef Chen 的「learned router 拿不到 G和本文「oracle 上限 54–82%——**learned router 拿不到 G 的根本原因可能是「workload 的 topic entropy 不够高」+ router 模型本身的 capability 不够区分 topic

延伸阅读

2026-06-26:arXiv 论文译介:Josef Chen《When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models》/blog/english-translation-2026-06-26/)——67 frontier model × MATH-500 实测 β/ρ gap + learned router 几乎拿不到 G + Clopper-Pearson pre-deployment 证书——**与本文 Capability Frontier 是「routing 上限」**与「learned router 实测」**的「上限 vs 现实双视角——Josef Chen 给「learned router 拿不到 G本文给「oracle 上限 54–82%——两件事告诉中文圈「Capability Frontier 是 target,learned router 是 weapon,weapon 的射程远低于 target

2026-06-25:arXiv 论文译介:IIT Jodhpur Khanak Khandelwal《AdversaBench:自动 LLM 红队——多 Judge 确认 + 跨模型迁移》/blog/english-translation-2026-06-25/)——5 个变异算子 + 3 Judge 投票 + meta-judge tiebreakerattack-side 工程方案——与本文 §4.3.2 PGM 估计器是「attack-side vs evaluation-side的方法学双视角——AdversaBench 教「怎么制造 LLM 失败本文教「为什么评测方法学本身必须 multi-model multi-run

2026-06-24:arXiv 论文译介:哥伦比亚统计系 Tian Zheng / Kai-Tai Hsu《给「评分者」打分:评测一个 Agentic 数据分析系统得到的教训》/blog/english-translation-2026-06-24/)——strict grader + keyword-anchored parser + lenient LLM grader + 人工 snippet评分管线侧方法学——**与本文「naive oracle 高估成本 37.5%」**是「评分侧 vs 评测方法学侧的方法学双视角——Grading the Grader 教「怎么修评分管线本文教「怎么修评测方法学

2026-06-23:Simon Willison 转推:ICML 2026 论文《Prompt Injection as Role Confusion》/blog/english-translation-2026-06-23/)——LLM 自身机制为什么会被 prompt injection 骗理论根因侧——**与本文「Capability Frontier 在 agentic benchmark 上 gain 最大」**是「prompt-side common-mode atom vs agentic-side capability frontier的双视角——Role Confusion 解释「LLM 为什么会被 prompt injection 骗本文解释「agent 评估为什么必须 multi-model multi-run

2026-06-22:Claude Fable 5 5.5h 实测(含中文圈开发者一天的工作量外推)/blog/english-translation-2026-06-22/)——Fable 5 vs Opus 4.8 同 prompt 对比 + 撞 guardrail 自动 fallback——本文 §5 Models 列表包含 Fable 5 / Opus 4.8 同一天的 frontier snapshot(多 1 个半月后)+ best-of-k posthoc voting 在 Capability Frontier 上多减 82% 错误率——Fable 5 的 5.5h proactive 工作流如果跑 Capability Frontier 路由 + best-of-10 voting,把 frontier gain 推到 82% 是直接的工程结论