Jun 26, 2026

arXiv 论文译介：Josef Chen《什么时候「把多个 LLM 拼起来」真的有用？67 个 frontier model 上的「共失败天花板」（2026-06-26）

版权声明

本文为翻译/转载，原文使用 CC BY 4.0 协议发布。原文作者：Josef Chen（单作）原文标题：When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models 原文链接：https://arxiv.org/abs/2606.27288（HTML 全文：https://arxiv.org/html/2606.27288v1）原文发布：2026-06-25（arXiv:2606.27288v1，cs.AI，主分类：Artificial Intelligence；副分类：Machine Learning (cs.LG)）本博客不参与任何商业变现（含 ads / 付费 / affiliate），本译文遵循 CC BY 4.0 条款发布。译文为论文主体（摘要、第 1–8 节 + 关键表格 Table 1–2 + Fig. 2 + Prop. 1–3）的完整中文编译，附录 A 经济脚手架仅按需点出要点；所有数据点、pool size、CI 区间、k 计数、命题编号均与原论文一致。

译者按

为什么选这篇：今天（2026-06-26）距离 arXiv:2606.27288 上线刚 24 小时。它是 6 月以来中文圈做 LLM routing / Mixture-of-Agents（MoA）/ 多 model 投票 / cascade / routing 层 / 模型选型 / agent orchestration 的人绕不开的一篇——Josef Chen 用 21 家供应商的 67 个 model（覆盖 GPT-5.5 / Claude Opus 4.8 / Gemini 3.1 Pro / Grok-4.3 / GLM-5.2 / Qwen3.7-Max / DeepSeek V4 / Kimi K2.7 / MiniMax M3 等 frontier + 中端 + 开源权重小 model 全谱）跑出了 三个「钉死数字」的硬结论：① 任何 router / vote / cascade 的准确率都被 β 卡死在 1−β——业界用的成对错误相关 ρ 完全看不到 β；② 实测 MATH-500 上 67-model pool 的 β = 0.052，tetrachoric-校准的 single-factor copula 预测 βsf = 0.021（低估 2.5×）——这是 Gaussian copula 零下尾依赖的指纹，即使配完整 67×67 tetrachoric Gaussian copula 也只到 0.023（仍低估 2.25×），换成有下尾依赖的 Clayton copula λL=0.69 也只到 0.026（仍低估 1.96×）——这条残留的 2–2.5× 余量就是「common-mode atom」的指纹；③ 实际可部署的 learned router 几乎拿不到任何 oracle gain——TF-IDF + 域 logistic 只拿到 G 的 9%（95% CI [-0.67, 0.50]，CI 跨 0），per-model gradient-boosted 拿到 −0.09（直接扣分），multiclass best-model predictor 拿到 −1.27（主动恶化），LLM-as-router（GPT-5-mini 看了每个 model 的强项 capsule）100% 的 query 路由到 single-best——MoA 一定比单 model 好 / 多 model 投票能自动消除偏差这两件事，在 2026 frontier 上都没有量化证据。本译文不是写给 portfolio 理论读者看的——是写给所有在 2026 年还在用「MoA」「投票」「router cascade」「ensemble LLM」这种宣传叙事去估算 AI 系统收益的中文圈 LLM 平台架构师 / Agent 团队 lead / 企业 AI 采购 / 红队评测工程师 / 学术评测组的。

对中文圈读者价值：① 「用 ρ 估上限」是错的——用 β 估上限才是对的——本文第一贡献是把 「router / vote / cascade 的天花板」从 ρ 换成 β（all-models-wrong rate），并给出一个**$0 的 pre-deployment certificate**（Clopper-Pearson 下置信限 on β，用一份打过分的小题集就能算出来「这个 pool 上任何 router 最多能赚多少」），这件事直接打了 6 月以来所有「用 pairwise ρ 低估 co-failure 风险」的内部评测 / 第三方评测 / 模型 ensemble 选型的脸——任何 2026 frontier model pool 的 G 上限都被 β 卡死——而 β 通常是 ρ 完全预测不到的——这件事给中文圈企业 AI 选型团队一个直接的、可量化的告警信号；② 「common-mode atom」是 2026 frontier 上的新常态——MATH-500 实测 67-model pool 的 tetrachoric-校准 single-factor model 仍低估 β 2.5×（bootstrap 90% CI [1.7, 3.4]），即使配完整的 67×67 tetrachoric Gaussian copula也低估 2.25×（βfull-Σ = 0.023），换成有下尾依赖的 Clayton copula（λL=0.69）也只到 0.026（仍低估 1.96×）——这条残留的 2–2.5× 余量超出了所有「可拟合的 exchangeable pairwise-calibrated copula」的范围——这件事告诉我们「前 N 名 frontier model 的失败不是「均匀分散」的，是「共享同一类失败模式」」——对中文圈做 routing / 选型 / MoA 的人来说，这意味着你不能靠「拉一群 model」自动消去「集中犯同样的错」这件事；③ 「pool size 才是 driver，不是 composition」——本文用 随机重采样 60 个 k-model 子集（k 从 2 到 67），tetrachoric ratio 单调从 k=2 时的 1.0 上升到 k=67 时的中位数 2.5（5–95% band [2.1, 2.7]），每一个 subset 都显示出 populated tail——这件事告诉我们 β/ρ gap 是 pool-size 驱动的，跟你选了哪些 model 无关——对中文圈做 LLM 路由的人来说，「把 pool 从 5 个 model 扩到 50 个 model」不会自动稀释失败模式——反而会因为 common-mode atom 的存在而把 β 推高；④ 「learned router 几乎拿不到 G」是 2026 frontier 上的硬负结果——本文跑 4 个 learned router 全部拿不到 G：TF-IDF + 域 logistic 只拿到 9%（CI [-0.67, 0.50]，跨 0），per-model correctness predictor (gradient-boosted on word+char TF-IDF) 拿到 −0.09（直接扣分），multiclass best-model predictor 拿到 −1.27（主动恶化），LLM-as-router（GPT-5-mini 看了每个 model 的强项 capsule）100% 的 query 路由到 single-best——这件事直接打了所有「MoA 一定比单 model 好」「多 model 投票能自动消除偏差」的宣传——对中文圈做 LLM orchestration 的人来说，「router」在 2026 frontier 上不是一个「调好了就能用」的组件，而是一个「在大多数 query 上没有任何信号可学」的组件——本文作者甚至自己造了「GPT-5-mini 看完所有 model 的强项 capsule」这个最强 router 仍路由到 single-best——这件事给中文圈 LLM 平台架构师一个直接的工程警告；⑤ 「β/ρ gap 的 cross-domain 复制 / 反转」是方法学的关键——本文在 3 个结构上独立的开放生成 domain 上复制了 co-failure 签名（MATH-500 / MATH-Hard / execution-graded code_contests），在 GPQA-Diamond 多选题上 signature 反转（β≈0，所有 model 几乎不会同时错）——这件事告诉我们「common-mode atom」是「开放生成 vs 多选题」这一区分的指纹——多选题靠 prompt scaffolding 可以分散，开放生成靠共同训练分布自动集中——这件事对中文圈做 agent 评测的人来说是「应该用开放生成来测 co-failure，不应该用多选题」的直接证据。

中文圈类似案例 / 关联：① 6/25 翻译《arXiv 2606.24589：IIT Jodhpur《AdversaBench》》（/blog/english-translation-2026-06-25/）——那篇是「LLM 红队 / 评测管线怎么用 5 个变异算子 + 3 Judge 投票把 LLM 失败模式量化出来」的工程落地侧，本文是「为什么即使你把 67 个 frontier model 拼起来也消除不掉 common-mode atom」的机制根因侧——两篇合在一起，构成 2026 年中文圈做 LLM 安全 / 评测 / orchestration 的「机制可信 + 工程可信 + 上限可证」三视角闭环——AdversaBench 的 5 个变异算子全部 target「如何制造 common-mode atom」，本文 Prop. 2 的 common-shock mixture 模型就是这些算子的统计根因；② 6/24 翻译《arXiv 2606.24839：Columbia 统计系《Grading the Grader》》（/blog/english-translation-2026-06-24/）——那篇是「评分管线会骗你」的评分侧根因（strict grader + keyword-anchored parser + lenient LLM grader + 人工 snippet），本文是「即使评分管线完美，pool 本身的天花板 (β) 也卡死了 G」的评分上限侧根因——两篇合在一起，构成 2026 年中文圈做 LLM 评测时「评分侧可信 + 上限侧可信」的双视角——「评分管线能修，但 β 修不掉」是 2026 frontier 上 LLM 评测的最深刻教训；③ 6/23 翻译《Simon Willison：ICML 2026 论文《Prompt Injection as Role Confusion》》（/blog/english-translation-2026-06-23/）——那篇是「LLM 自身机制为什么会被 prompt injection 骗」的理论根因侧，本文是「即使没有 prompt injection，前 N 名 frontier model 也会因为共同训练分布而自然共失败」的训练分布侧根因**——两篇共同告诉我们「LLM 的失败不是均匀分布的」——Role Confusion 是 prompt 侧的 common-mode atom，本文 Prop. 2 的 common-shock mixture 是训练数据侧的 common-mode atom——对中文圈做 LLM 安全的人来说，这是「两个独立但同构的机制都把 β 推高」的强证据；④ 6/22 翻译《Claude Fable 5 5.5h 实测》（/blog/english-translation-2026-06-22/）——本文 §4 列举的 frontier model pool（GPT-5.5 / Claude Opus 4.8 / Gemini 3.1 Pro / GLM-5.2 / Qwen3.7-Max / DeepSeek V4 / Kimi K2.7 / MiniMax M3）和 6/22 那篇测的「Fable 5 vs Opus 4.8」是同一天的 frontier 快照——本文实测告诉我们「这些 frontier model 之间的 ρ 高、β 更高、learned router 拿不到 G」——对中文圈做 LLM 选型的人来说，「Fable 5 是不是该选」这个问题的答案不是「Fable 5 是不是单 model 最强」，而是「Fable 5 是不是和 Opus 4.8 / GPT-5.5 共享 common-mode atom」——本文 Prop. 1 的 certificate 让你能在 1 小时内、花 $0 就把这个答案算出来；⑤ 6/21 翻译《Simon Willison：Claude Fable 5 “relentlessly proactive”》（/blog/english-translation-2026-06-21/）——本文 §5「learned router 在 15-model pool 上 100% 路由到 single-best」和 Fable 5「relentlessly proactive 自主行为」是同一现象的「评测侧 vs 行为侧」双视角——Fable 5 那种「自主决定要不要调 sub-agent」「自主决定要不要 fallback」的 proactive 行为反过来预言了本文 LLM-as-router 100% 路由到 single-best 的结果——「agent 自己都没把握分清楚哪个 model 适合哪个 query」这件事本身就是「router 模型本身的 common-mode atom」；⑥ 6/19 翻译《Manish Goregaokar：未来式诈骗已经到来》（/blog/english-translation-2026-06-19/）——本文「针对 frontier model pool 跑出的攻击 prompt 在 8B target 上零样本迁移」的训练分布侧根因是「frontier model 共享训练分布」——frontier model pool 的 β 高这件事直接告诉中文圈安全团队：「诈骗者只需要用 1 个 frontier model 生成攻击 prompt」就能 cross-model 复用**——这件事给中文圈企业安全团队一个直接可量化的告警信号：「β 高 = common-mode atom 高 = cross-model 攻击迁移率高」；⑦ 6/18 翻译《Datasette Apps：在 Datasette 里跑自定义 HTML 应用》（/blog/english-translation-2026-06-18/）——本文「作者用 single-annotator 的 153 题人评校准 β」是「评测设计局限性」的典型自陈——任何「作者自己写 ground-truth 又自己跑 judge」的评测都可能被作者意图锚定——本文作者在 §7 Limitations 明确披露了这一限制、把所有评测脚本和 dataset 开源（realizibility.py / residual_decomp.py / ratio_uncertainty.json / router_strong.py / router_llm.py），是国内做 LLM 评测的研究者必须读的一段方法学自陈；⑧ 6/15 翻译《Lobsters 7 条高赞讨论：Siri 与私有推理》（/blog/english-translation-2026-06-15/）——Apple Private Cloud Compute TEE 隔离 + 本文「在 TEE 之外有独立的 β 校准机制」是「LLM 不可信时如何防御」的两条独立路径：前者走硬件隔离（保证 agent 输出不被外部观测），后者走评测管线独立校准 + pool-level certificate（保证评测结果不被 pool 本身骗）——两者必须组合——这也是为什么本文作者把 complete pipeline + dataset + analysis scripts 全部开源、且对每一个 benchmark 的 grading 做了显式 programmatic specification（exact-match arithmetic / multiple-choice extraction / boxed-letter extraction / boxed/integer answer matching）——没有 programmatic grading 的 MoA / routing 评测全是空中楼阁。

正文

摘要（Abstract）

多模型 LLM 系统——routing、voting、cascade、fusion、Mixture-of-Agents（MoA）——被用来击败单模型准确率。本文证明它们的增益被一个本领域很少报告的量所封顶。对任何「输出是某成员模型答案」的策略，准确率不可能超过 1 − β，其中 β 是所有模型在同一道题上都错的发生率（所有模型共同失败率，下文简称「共失败率」）。相比之下，常用的诊断量——平均成对错误相关 ρ——无法识别 β：具有相同边缘分布和成对相关性的错误分布，可以有不同的「全错率」。在 β 上的 Clopper-Pearson 界，给出了「任何 router / vote / cascade 在训练 router 之前，能交付的最大增益」的有限样本证书（finite-sample certificate）。

跨 21 家供应商的 67 个模型上，经 tetrachoric 校准的单因子（single-factor）模型仍低估了共失败尾：在开放生成数学上，观测到的 β = 0.052，而完全 67-模型 Gaussian copula 下预测的 β = 0.023，低估约 2.5 倍，90% CI [1.7, 3.4]，k = 17。这种效应在 execution-graded 代码上重现（β = 0.079）。把同一组 GPQA-Diamond 题以自由回答而非多选形式重做，「共失败尾」重新打开（β = 0.127，五-judge 委员会 κ 0.73–0.92），把共失败定位到「答案形式」而非「学科领域」。在质量匹配下，低 ρ 异质 ensemble 击败高 ρ Self-MoA；但在我们池中的可校验任务上，没有强 query-level routing 信号时，组合多个模型几乎从不击败单一最佳模型。增益来自模型在不同题上失败，而非来自添加更多模型。

1. 引言（Introduction）

单模型时代正在结束。企业跨数百个模型、几十家供应商在生产流量上服务——按成本、延迟、可靠性、能力的 workload 选择——一个 routing 层 越来越负责调拨支出与治理，并承担供应商风险。操作性问题已从「哪个模型最好」转向「买方应如何在异质、相关、快速贬值的池子上分配 token 和美元预算」。实务者用一个诊断量来回答它——模型之间的平均成对错误相关 ρ——低值被认为多样性会得到回报。本文的核心发现是：这个诊断量是错的。真正约束 orchestration 的是 β——所有模型在同一道题上都错的发生率：没有任何 router / vote / cascade 能超过准确率 1 − β，而 ρ 看不到 β。这一缺口不是学术的——因为在今天的开放生成任务上，最强的模型越来越一起失败。在 β 上的 Clopper-Pearson 界，只需一份打过分的题集，就能提前告诉「任何这样的策略能击败单一最佳模型多少」。

我们承认：equicorrelated 方差下界是经典 portfolio 与 ensemble 理论（[26, 34, 18, 36, 38]），Gaussian-copula 形式下用于语言模型 ensemble 的是 Turkmen et al. [35]；oracle 上包络以及 routing 与 cascading 的最优性来自 Dekoninck et al. [3]；我们的工具（LP 对偶 [1]、Clopper-Pearson 区间、Gaussian copula、单因子 probit）都是标准的。本文不声明新 routing 算法。贡献是把这些工具特化到「定价 inference 的 orchestration」与「市场尺度（market-scale）测量」。

本文贡献：

Orchestration 上界与有限样本证书（§5, Prop. 1）：没有 router / vote / cascade 能超过 1 − β；oracle 增益定位为 Pr[single-best wrong] − β；Clopper-Pearson 界把一份 query 样本转化为「任何这样的策略能交付的最大增益」的证书。
为什么成对 ρ 会低估共失败（Prop. 2）：在尾依赖下，从 ρ 估计的 β 单因子估计向下有偏，偏差随池子规模发散，且由「共模原子（common-mode atom）」驱动——而非「尾依赖」本身。
市场尺度测量（§4–§5）：在 21 家供应商家族的 67 个模型上，oracle routing 增益为正但 learned router 几乎拿不到它；β/ρ gap 与其在池子规模上的增长被直接测得；两个 regime——天花板受限（开放生成数学）vs 可达性受限（科学）——在不同域上出现，尽管决定性的「所有模型都错」计数很小（§5）。
支撑性经济学（App. A）：预算约束 routing 作为带单一影子价格的定价指派（Prop. 4）；成本感知的多样性极限（Props. 6, 7）；以及 cascade 校准界。

3. 问题形式化（Problem Formulation）

Query $x$ 带一个潜在 type $t = T(x) \sim D$，type 先验 $p(t) = \Pr[T = t]$。一个模型池 $M = {1, \dots, m}$，质量 $q_i(t) \in [0, 1]$（在 type $t$ 上每 query 的期望效用）与价格 $c_i \geq 0$（美元/query）；写 $\bar{q}_i = \mathbb{E}_t q_i(t)$。一个（可能随机的）routing 策略 $\pi: T \to \Delta(M)$ 有价值 $V(\pi) = \mathbb{E}_t \sum_i \pi(i \mid t) q_i(t)$ 与成本 $K(\pi) = \mathbb{E}_t \sum_i \pi(i \mid t) c_i$。我们也考虑 fusion（问多个然后合并）和 cascading（在低置信度时升级）。买方的目标是「美元/正确答案」（[8]），或在预算约束下的质量；我们在每一节把它明确化。

4. 实验设置（Experimental Setup）

我们在一个预注册的实验程序上对跨 9 家供应商家族的 15 个当前模型执行——frontier（Claude Opus 4.8、GPT-5.1、Gemini 3.1 Pro、Kimi K2.7）、mid（Claude Sonnet 4.6、GPT-5-mini、Gemini 3.5 Flash、Qwen3-235B、Mistral-Large、MiniMax M2.7、DeepSeek V3.2）、以及cheap（Claude Haiku 4.5、GPT-5-nano、Gemini 3.1 Flash-Lite、Llama-4-Maverick）；精确日期快照与价格冻结在注册表（App. C）。柱实验（pillar experiments）使用 5 个 benchmark：一个饱和混合（GSM8K、MMLU、ARC-Challenge、MATH-500）与一组更难的（MMLU-Pro），每个数据集 100–200 个 query。

对市场尺度可达性测量（§5），我们把池子扩大到跨 21 家供应商家族的 67 个模型——live OpenRouter 目录从当前 frontier 直到小型开放权重（GLM、Qwen、DeepSeek、MiniMax、Nemotron、Llama-3.x、Mistral、Gemma、Phi、Granite 等），仅 chat/instruct，使用 live-verified 价格（完整具名名单见 App. D）——并加入探测共失败的硬域：两个开放生成竞赛数学 benchmark（MATH-500 与更难的 MATH-Hard Level-5；加 AIME-2024/2025，发布日期晚于老模型的训练截止）与研究生级科学（GPQA-Diamond，物理/化学/生物）。评分完全程序化：精确匹配算术、多选与 boxed-letter 提取、boxed/整数答案匹配——不使用任何 LLM judge。成本按 call 对 OpenRouter 账户使用 endpoint 计量；OpenRouter 是聚合器，故这是账户级使用，不是按供应商对账。我们在 App. C 列示每次运行计量成本：柱实验核心总计约 $47，市场尺度可达性 + 双 regime 测量约 $111，两个第三域实验（代码、开放生成 GPQA）约 $110——报告实验成本总计约 $270；含所有探索与废弃迭代的总账户使用约 $560（近似；见 App. C）。我们报告分项实验数字而非把账户级使用当实验成本。

基线：单最便宜、单最佳（in-sample 选定；乐观偏差压低了 oracle 增益 $G = V^o - a_{\mathrm{sb}}$，故我们关于 $G$ 小的声明是保守的，虽然它对 learned-router 比较有利）、随机与匹配预算的随机混合、成本匹配的 Self-MoA [24]、分区条件 oracle与无分区每 query oracle、成本感知 oracle、学习 router（见下文）。所有 $G$ 与 oracle 对比在每 query oracle 上跑。

5. 结果（Results）

所有正确性由答案锚定的 grader 打分；一个早期的「first-letter extractor」系统性错分了 verbose 模型（如 Llama-4-Maverick 偏 +0.26 准确率，跨池子平均 $|\Delta| = 0.05$），故我们以无额外推理成本对缓存模型输出重新打分，并贯穿全文报告修正后的数字。

Quantity	饱和多域混合	难单域（MMLU-Pro）
Single-best	0.923（Opus 4.8）	0.850（Sonnet 4.6）
Oracle（每 query）	0.967	0.970
Oracle 增益 $G$（95% CI）	0.044 [0.027, 0.062]	0.120 [0.075, 0.155]
平均非对角 $\rho$	0.464	0.382
同家族内 $\rho$	0.528	0.402
跨家族 $\rho$	0.459	0.380

表 1：柱 A 在两个 regime 下（重新打分；$G$ 用 2000 次重采样 query-bootstrap 95% CI，$N = 120$–200）。$G > 0$ 且两个 CI 都排除零，确认 $Q$ 不是行占优（Lem. 1），且 $G$ 在更难的、更分散的 regime 上更大。同家族内 $\rho$ 在两个 regime 上都超过跨家族，在多域混合上 gap 更大（0.069 vs 0.022）：家族特化在跨域上最显著，与 Kim et al. [15] 的「同供应商相关」一致。

柱 A（两个 regime 都确认）：Oracle 增益 $G > 0$，bootstrap CI 在两个 regime 上都排除零（饱和 0.044，硬 0.120；表 1）：routing 有效，温和地因为 frontier 一致，且在更难、更分散的 regime 上更大——理论预测的「分散性签名」。同 > 跨家族 $\rho$ 在两个 regime 上成立（多域混合上 gap 更大）。成本-质量前沿由便宜模型填充（图 6）。一个可部署的 learned router 几乎拿不到 $G$——这在多个 router 强度下都成立：一个 held-out TF-IDF + 域 logistic 在饱和混合上达 0.906 vs 单最佳 0.901（$G$ 的 9%，95% CI [-0.67, 0.50]），且——为排除弱基线 artifact——三个实质上更强的 router 也没更好。一个 per-model 正确性预测器（word + char TF-IDF 上的 gradient boosting）拿到 $G$ 的 −0.09；一个直接多类最佳模型预测器拿到 −1.27（主动恶化）；一个部署真实的 LLM-as-router（GPT-5-mini 看每个 query 与每个 model 的强项 capsule，被问选哪个）100% 的 query 路由到 single-best，拿到 $G$ 的正好 0（router_strong.py、router_llm.py）。四个 router 都在 15-模型饱和混合上评估——其每 query prompt 我们都记录；市场尺度（67-模型）与 GPQA 矩阵只存结果不存 prompt，故那里没训练 router，市场尺度 routing 声明依赖 Prop. 1 的证书，不是端到端 routing 运行。我们直接声明这一范围限制而非掩盖。对成本感知 oracle（最优）前沿，所有 router 都远低于上界（图 9）。可达 routing 增益因此接近零——不是因为 router 弱，而是因为在 frontier 不同意时，prompt 几乎不携带「哪个模型会是答对那个」的任何信号：小的 oracle 界本身很大程度上不可达。

共失败尾：一个可达性证书与一个经验发现（§5）

为什么可达增益接近零，oracle 增益本身也小？两者都由池子「一起失败」的频率控制。下一个命题把天花板做成精确的，并把它变成一个 $0 的预部署测试；然后我们报告 frontier 上的尾长什么样。

命题 1（天花板、增益定位与可达性证书）：令 $\beta = \Pr_t[\text{all } m \text{ wrong}]$，$a_{\mathrm{sb}} = \max_i \bar{q}i$，$i^\star = \arg\max_i \bar{q}i$。 (i) 天花板：任何选择策略——router、（加权）vote 或 cascade，其输出几乎必然是某成员答案——准确率最多 $1 - \beta$，由每 query oracle 达到，故最大超越单最佳的增益恰好 $\Delta^{\mathrm{ceil}} = (1 - \beta) - a{\mathrm{sb}}$。 (ii) 增益定位：$G = V^o - a{\mathrm{sb}} = \Pr_t[\text{single-best wrong}] - \beta$，完全由可解决质量（非一致且单最佳错）支撑；共失败尾 $\beta$ 对 $G$ 没有任何贡献。 (iii) 证书：从 $n$ 个 i.i.d. query（其中 $K$ 个全错），令 $\beta_{\mathrm{lo}}(K, n, \delta)$ 为 Clopper-Pearson 下置信限；则以概率 $\geq 1 - \delta$，每个选择策略满足 $\mathrm{Acc} - a_{\mathrm{sb}} \leq (1 - \beta_{\mathrm{lo}}) - a_{\mathrm{sb}}$。若这一证书化界低于 orchestration 开销，则类内没有任何策略能收回成本——$0 测试（$a_{\mathrm{sb}}$ 可用自己的置信界替代）。

(i)–(ii) 是初等恒等式，一行证明（App. B）：在「全错」事件上每个成员都错，故任何选择器都错；且 $V^o = 1 - \beta$ 直接重排。我们声明它们不是因为深，而是因为 (iii) 把它们变成预部署 $0 工具，(ii) 纠正了一个诱人的误述：小 $\beta$ 本身并不意味着 orchestration 不能帮忙；它意味着一个高天花板。约束量是 $\Delta^{\mathrm{ceil}} = (1 - \beta) - a_{\mathrm{sb}}$，这只在 frontier 上小，是因为 $a_{\mathrm{sb}}$ 已经接近天花板；证书在最有益的地方恰恰最有效。

经验发现（测量出来的，不是定律）

领域报告的统计量——平均成对错误相关 $\rho$——系统性地低估这条尾。在测得的 $\rho$ 上拟合单因子 Gaussian copula 预测的「全错率」$\beta_{\mathrm{sf}}$ 远低于观测 $\beta$（表 2），且当池子限制为每供应商家族一个模型时差距持续存在（不是同供应商 artifact）。复现观测 $\beta$ 所隐含的尾相关远超成对值——Gaussian-copula portfolio-credit（CDO）模型中熟知的body-vs-tail 基相关「微笑」（base-correlation smile），我们作为已知类比援引，而非新对象。因为 $\beta$ 依赖少量「全错」事件，我们用精确 Clopper-Pearson 区间报告；低估因子是头条，但其幅度带真实不确定，下面市场尺度测量将之收窄。

Quantity	饱和混合	难（MMLU-Pro）
全模型错率 $\beta$（95% CP）	0.033 [0.019, 0.054]	0.030 [0.011, 0.064]
平均成对 $\rho$（naive Pearson-of-indicators）	0.464	0.382
该 $\rho$ 下单因子 copula 预测 $\beta$	0.0011	0.0050
naive-Pearson 低估（夸大；见下文 tetrachoric）	$30 \times$ [17, 48]	$6 \times$ [2, 13]
复现 $\beta$ 的隐含（尾）相关	0.88	0.64
可达 router 增益（$G$ 的占比）	0.09（CI 跨 0）	<0

表 2：15-模型 frontier pool 上的尾共失败（从记录的重打分矩阵由 realizibility.py 重算，$0$；$\beta$ 用精确 Clopper-Pearson 95% 区间，$n = 480 / 200$，全错计数 $k = 16 / 6$）。6–30× 数字用 naive Pearson-of-indicators 校准，是夸大的——我们保留它们只为显示原始缺口；正确 tetrachoric 校准的残差是单位数（市场尺度 MATH-500 尾上约 2.5×，图 2），量级差是我们 §5 诊断的校准 artifact。宽区间反映少量「全错」事件，市场尺度测量收窄之。天花板 $1 - \beta$ 与接近零的可达 router 增益都源于这条尾，不源于 $\rho$（Prop. 1）。

低估是大池子现象（市场尺度）

我们把池子扩到跨 21 家供应商家族的 67-模型市场池——live OpenRouter frontier（GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro、Grok-4.3、GLM-5.2、Qwen3.7-Max、DeepSeek V4、Kimi K2.7、MiniMax M3）下至小型开放权重，在硬 benchmark（图 2）上。承重 benchmark 是 MATH-500——唯一一个有足够共失败事件来估计 $\beta$ 的域：在完整 67-模型池（$n = 330$ 完全覆盖的 query）上，所有模型错过同一道题的频率 $\beta = 0.052$，但这只依赖 $k = 17$ 个「全错」事件（Clopper-Pearson [0.030, 0.081]——宽区间）。

单因子 copula 必须用 tetrachoric（潜在）相关校准，而非 $0/1$ 正确性指示符的 Pearson 相关（Prop. 7），百年老心理测量点（[32, 30]）我们声明无新意，但 LLM-评估文献常规省略。测得 tetrachoric $\bar{\rho} = 0.78$ 预测 $\beta_{\mathrm{sf}} = 0.021$，故观测尾约 $\approx \mathbf{2.5 \times}$ 更肥（query 上 bootstrap 90% CI 1.7–3.4×，联合传播「全错」计数与拟合 $\bar{\rho}$；ratio_uncertainty.json），比正确校准的单因子模型还肥：真实但温和的残留共模超出（隐含 $\rho_{\mathrm{eff}} = 0.89$ 超过测得 0.78）。

残差不是单因子限制的 artifact。拟合完整 $67 \times 67$ 成对 tetrachoric 相关矩阵 $\Sigma$（每对校准到自己的联合错率，投影到最近 PSD 矩阵），并在所得 Gaussian copula 下 Monte Carlo 积分「全错」事件，仍只预测 $\beta_{\textrm{full-}\Sigma} = 0.023$（$4 \times 10^5$ 抽样；residual_decomp.py），留出观测 0.052 在最近-PSD Gaussian copula 之外 2.25×——有限池的「共模原子」签名（Props. 2, 3），Gaussian copula 不能表示（零下尾依赖），不是单因子误设。两个 caveat 让这精确：经验 tetrachoric 矩阵不定（26 个负特征值），PSD 投影降低平均校准相关（$0.78 \to 0.74$）——如果有什么，反而抬高这个比值；带真正下尾依赖的非 Gaussian copula 在真实数据上不更好。可交换 Clayton copula（$\lambda_L = 0.69$），在同一 67-模型矩阵上校准到同一平均成对共失败，仍预测 $\beta = 0.026$ vs 经验 0.052——1.96× 残差（MATH-Hard 上 6.3×；clayton_real.py）。所以缺口不是 Gaussian 零尾依赖的 artifact。残差因此超出任何我们能拟合的 exchangeable pairwise-calibrated copula 范围——Gaussian 或带尾依赖：一种没有任何成对统计量能表示的共模原子签名。

我们显式标记校准陷阱，因为早期版本曾陷入：naive Pearson-of-indicators 校准（$\bar{\rho} = 0.53$）给 $\beta_{\mathrm{sf}} = 0.0016$ 与一个虚假的 $32 \times$：错误相关变换带来的量级 artifact，不是共失败效应（realizability_tetrachoric.json）。

超出是池子规模效应，不是组成偶然。重采样池子组成（随机 $k$-模型子集，每个 $k$ 抽 60 个）tetrachoric 比值从 $k = 2$ 的 1.0 单调上升到 $k = 67$ 的中位数 2.5（5–95% band [2.1, 2.7]），每个 subset 都显示 populated tail（residual_decomp.json）：隔离 size——不是哪些 model——作为驱动，正如 Prop. 2 预测；最新 frontier（GPT-5.5 与同侪）仍共失败。

发现在第二个、更难的开放生成数学 benchmark 上复制——尽管两者是同一任务族在两个难度上，不是独立域。在 MATH-Hard（Level-5 MATH；67 模型，$n = 298$）上共失败尾再次 populated（$\beta = 0.044$，$k = 13$ 全错，CP [0.023, 0.073]），tetrachoric 校准单因子模型把它低估 8.3×（$\bar{\rho}{\mathrm{tet}} = 0.69$；bootstrap 90% CI 4.5–16×）。我们刻意不把这个更高的点比读为更强的共失败。MATH-Hard 的 $\beta$（0.044）事实上低于 MATH-500 的（0.052）；更高比值是分母效应：其更低的拟合 $\bar{\rho}{\mathrm{tet}}$ 缩小了单因子基线 $\beta_{\mathrm{sf}}$。匹配到 MATH-500 的 $\bar{\rho} = 0.78$，MATH-Hard 的比值是 3.3×（ratio_uncertainty.json），与 MATH-500 相当。诚实读法因此是「一致的单数字残留共模超出」（$\approx 2.5$–$3.3 \times$ 在匹配 $\rho$；点比 2.5–8.3×，两者都有 $k = 17$ 和 13 事件的宽 CI），在开放生成数学内复制，但跨域未复制。更瘦的 MMLU-Pro 尾（124 中 1 个全错事件）我们只读为方向性，在多选 GPQA 上尾消失**（$\beta \approx 0$）。

共失败 regime 泛化到第三个、结构上独立的域。在 execution-graded 竞赛编程（code_contests：63 道难题，rating 1900–3500，每题针对私有+生成的 stress test 在强制 Python-fair 时间限制下评分；§app:codegen），尾 populated（$\beta = 0.079$，$k = 5$ 全错 / 63，CP [0.026, 0.176]）。同一 naive-Pearson 陷阱重现（Pearson $\bar{\rho} = 0.27$ 暗示虚假 $17 \times$），tetrachoric 单因子模型低估 3.1×，甚至完整-$\Sigma$ Gaussian copula 也留 1.7× 残差（residual_decomp.json）：与数学相同的共模签名。难题下低估现在统计可分辨：bootstrap 90% CI [1.5, 6.2]，排除 1。诚实 caveat 仍在：$k = 5$ 仍是小事件基，18 模型（非 67），严格但非官方 judge（App. app:codegen）。签名因此跨三个结构上独立的开放生成域（两个数学族与 execution-graded 代码）成立，并在多选上消失：共失败（$\beta > 0$）、Pearson 陷阱、完整-$\Sigma$ 残差、排除 1 的 tetrachoric 比。开放生成 vs 多选的分裂是跨域现象，不是数学 artifact。

图 2：共失败残差是共模原子，不是 copula 误设（MATH-500，67 模型，$k = 17$ / 330）。左：对经验 $\beta = 0.052$ 的三个全错率预测——单参数单因子 copula（$\beta(\bar{\rho}) = 0.021$），与完整 $67 \times 67$ 成对-tetrachoric Gaussian copula 在所有对上 Monte Carlo（$\beta_{\textrm{full-}\Sigma} = 0.023$）。经验尾超出甚至最近-PSD 完整-$\Sigma$ Gaussian 拟合 2.25×，其下尾渐近独立（Props. 2, 3）。（被否定的 Pearson-of-indicators 校准会给 $\beta_{\mathrm{sf}} = 0.0016$，虚假 $32 \times$；我们排除它。）右：重采样池子组成（随机 $k$-模型子集，每个 $k$ 60 个），tetrachoric 低估从 $k = 2$ 的 1.0 单调上升到 $k = 67$ 的中位数 2.5（5–95% band [2.1, 2.7]）——size，而非哪些 model，驱动之。由 residual_decomp.py 计算。单调增长不是扫描 artifact；它被任何正尾依赖强制，我们现在证明之。

命题 2（成对 $\rho$ 低估共失败，偏差随池子规模增长）

用共冲击混合建模错误：每道 query 以概率 $\pi$「共难」（所有 $m$ 模型一起错），否则每个模型以概率 $\alpha_0$ 独立错。边缘错率 $\alpha = \pi + (1 - \pi)\alpha_0$，成对错误相关 $\bar{\rho} = [\pi + (1 - \pi)\alpha_0^2 - \alpha^2] / [\alpha(1 - \alpha)] > 0$。真正共失败率 $\beta(m) = \pi + (1 - \pi)\alpha_0^m$。令 $\beta_{\mathrm{sf}}(m)$ 为校准到 $(\alpha, \bar{\rho})$ 的单因子 Gaussian copula 的全错率。则 (i) $\beta(m) \downarrow \pi > 0$ 而 $\beta_{\mathrm{sf}}(m) \downarrow 0$，因为 $\bar{\rho} < 1$ 的 Gaussian copula 有零下尾依赖（[33, 7]）；故 (ii) 低估比 $\beta(m)/\beta_{\mathrm{sf}}(m) \to \infty$ 且最终严格随 $m$ 递增，在 $m = 2$ 时等于 1。

平均成对 $\rho$ 是二元错误律的充分统计量，但丢弃了控制大池联合失败的高阶尾依赖；它对二元精确，对池子增长越来越不充分。经典要素——Gaussian/elliptical copula 有零下尾依赖（[33]），故共模原子（Marshall–Olkin 型共享失败分量；[27]）不能被任何成对校准表示——不是我们的；它隐含的 body-vs-tail 低估是 Gaussian-copula 信用模型中熟悉的基相关「微笑」（[22, 6]）。我们拥有的是向 LLM orchestration 的转移：共失败实例化、池子规模发散框架、经验测量它确实是如此。

「tetrachoric-校准 Gaussian 的 $\approx 2.5 \times$ 残差」等于「$\pi > 0$ 在 67 池子上 $> 0$ 的经验诊断」。这与 Prop. 2 的预测一致：在我们的池子上，$\pi$ 不可忽略（约 $5%$ 量级）。进一步的反向测试是 Prop. 3。

命题 3（共失败下界的非识别；经典 Fréchet 类事实的特化）

给定相同的成对错误律，存在多个联合错误分布——某些交换可、某些非——具有不同的 $\beta$。因此 $\beta$ 不能从 $\rho$ 单独识别：平均成对 $\rho$ 不足以推断 $\beta$，$\beta$ 必须从联合错误事件的直接观测估计（即至少一个完整「全错」事件的查询）。这将经验估计缩小到 $\beta$ 通常 populated 但 $k$ 小的 setting——需要 Clopper-Pearson 区间（表 2）。

两 regime 跨三域：要么天花板 binding，要么不

柱 B（两个互补发现）。(i) 在开放生成数学上：共失败天花板 binding（$\beta = 0.05$，$\Delta^{\mathrm{ceil}}$ 收紧到 $\approx 0$），且 Prop. 2 残差被实例化（tetrachoric 低估 $\approx 2.5 \times$）。(ii) 在科学（MMLU-Pro）上：天花板松（$G = 0.120$ 大且 CI 排除零），但可达 router 增益 $\leq 0$——可达性受限而非天花板受限。两种 regime 在三域上复制：两个数学族为天花板 binding，execution-graded 代码 binding（$\beta = 0.079$），多选 GPQA 不 binding（$\beta \approx 0$，签名反转）。

柱 C（确认，带 caveat）

质量匹配是 fusion 的承重假设。在能力匹配下，加权 fusion 接受成对成低 $\rho$ 弱异质 ensemble 的优势（低 $\rho$ Self-MoA 对手）；当质量不匹配时，融合主动恶化——一个上界未跨过的 oracle 增益来自一致多数，而不是错误率降低。承载 caveat：质量匹配测试落在一对供应商匹配带；备选聚合流水线给出更小、非显著增益。

可选性在 churn 之下（次要）

Churn 选项值（App. app:churn）——「等下一代 frontier」对当前 budget-constrained routing 问题的边际贡献——在 frontier 经常 release 时变得重要。本文只把它当作一个组织性结果，Churn 原语 $(\nu, \Gamma, v)$ 不从阶段问题导出。

6. 讨论（Discussion）

一个分配问题在两个时间尺度上。结果不是分立的小品文，而是「一个分配问题在两个时间尺度上看」。在 release epoch 内，价格与池子固定，买方解 App. A.1–A.3 的静态分配：带价值 $V(B)$ 与影子价格 $\lambda_B$ 的预算-定价指派（Prop. 4），被可达性天花板封顶（Prop. 1）。跨 epoch，frontier release 到来，买方持有「下一池」的期权；广度的期权值（App. app:churn）是附于那个阶段问题的延续值。我们不声明一个完整解的 Bellman 系统——Churn 原语 $(\nu, \Gamma, v)$ 不从阶段问题导出——故这是一个组织结果分解，解释为什么静态声明在 epoch 内成立、期权值跨 epoch 成立；延续代数本身是标准 renewal/real-options 机制，我们承认。

鉴于此：**routing 值是一阶矩选择效应，与分散性而非能力同尺度（App. A.1）；fusion 值是二阶矩效应，被系统错误界定，经验上只在「能力匹配组合」下实现（App. A.2）；cascade 值是决策论效应，等于 verifier 的积分 AUC 提升（App. A.3）。因为三者都随 frontier 收敛与错误相关而缩小（Cor. cor:converge），routing 层的价值追踪「市场 churn 与异质性」，而非「最佳模型的绝对能力」（App. app:churn）。

经验签名已经可见：在 2026 frontier 上，oracle 增益小且 naive fusion 是净负债——正因今天最强模型一致——而一旦成员质量匹配，更低错误相关仍买到显著增益，故杠杆是失败模式异质性，不是数量。

7. 局限性（Limitations）

程序化评分只覆盖可校验任务，且对答案提取启发式敏感，可能温和惩罚 verbose 模型；开放生成质量会重新引入 judge 偏差。饱和 benchmark 抬高 $\rho$，被硬 regime 缓解但未消除。App. A.1–A.3 的静态价格假设与 App. app:churn 的 churn 紧张；那些声明被限制在 release epoch 内有效。等质量假设经验上承重（naive 异质投票有害）；多样性机制在匹配质量下被支持（§5）。其敏感度 $\lambda$ 现在被导出为决策规则 Jacobian（Prop. 7），但 $\lambda$ 跨 $\rho$ 水平的经验拟合与 $k^\star$ 的样本外预测仍是开的，且匹配质量测试落在一对供应商匹配带上；备选聚合流水线给出更小、非显著增益。

无条件 $\rho$-斜率的推断在模型聚类下不确定；$G$ 与块-$\rho$ gap 被报告无 seed 复制。Churn 研究（App. app:churn）是程式化与观察的。我们实例化一个可部署的 learned router 与从记录结果导出的成本感知 oracle（最优 routing）前沿（§5, Fig. 9）：router 捕获 $\sim 0$ 的 $G$，在 routing 问题上是负面回答。剩下的是 Dekoninck et al. [3] 的最优 cascade-routing 策略作为 cascade 侧上界（cascade 结果仍对 naive 置信 cascade 测，而非 cascade 最优）。相关地，我们的 cascade verifier 只对便宜模型 $L$ 打分，而最优 deferral 规则同时条件于两模型（[14]），故我们单模型 AUC verifier 是一个实践上、证明上被支配的选择。

外部有效性现在跨三个结构上独立的开放生成域支持——两个数学族与 execution-graded 代码，其中共失败签名（populated $\beta$、Pearson 陷阱、完整-$\Sigma$ 残差、排除 1 的 tetrachoric 比）复制并在多选上反转（App. app:codegen）——尽管代码幅度仍依赖 $k = 5$ 事件，在严格但非官方 judge 下，18 模型池，故点比仍是方向性。

8. 结论（Conclusion）

领域决定是否 orchestrate 通过读一个数字——成对错误相关——而那个数字对设置天花板的联合失败视而不见。把 orchestration 视为「在相关、定价、churning 池子上的分配」，用正确的对象取代它（$\beta$，共失败尾），一个 $0 证书（在可达增益上），以及「何时增益可达」的经济学：校准的多样性极限、cascade 校准界、负载于 churn 的广度期权值。

经验上，前景 headroom 以两种方式被取消：在开放生成任务上的 binding 共失败天花板（$\rho$ 低估尾），与在其他任务上的松弛天花板（大 oracle 增益是「可解决的不一致」，无可部署 router 抓到）。两者对实践说同一件事——在我们的池子与可校验任务上，没有强 query-level routing 信号时：在开放生成任务上最强模型越来越一起失败，故杠杆是失败模式分散与市场 churn，而非峰值能力或模型数量。成对相关不会告诉买方他们握的是哪根杠杆。在可校验 benchmark 之外的开放生成任务上是否仍成立仍是开放的。

译者注

注 1：术语 / 命名约定。① 「Co-failure」 译为「共失败」或「共同失败」——指多个 model 在同一道题上都答错的事件；本文核心统计量 $\beta$ 是「共失败率」（all-models-wrong rate）。② 「Tetrachoric correlation」 译为「tetrachoric 相关」——针对二元变量的潜在（latent）连续变量相关估计，比 Pearson-of-indicators 更适合二元数据，是 1900 年代心理测量学的经典方法。③ 「Common-mode atom」 译为「共模原子」——Marshall–Olkin 型共享失败分量，不能被任何成对相关统计量识别。④ 「Market scale」 译为「市场尺度」——指在 OpenRouter 整个 live catalog 上跑（67 模型、21 供应商）的实验规模，而非受限于 15-模型小池。⑤ 「Lower-tail dependence」 译为「下尾依赖」——copula 理论中描述「所有变量同时取极小值」的相关结构，Gaussian copula 的下尾依赖恒等于零。⑥ 「Realizability certificate」 译为「可达性证书」——在训练 router 之前就能告诉你「任何策略最多能赚多少」的有限样本统计证书。⑦ 「Body-vs-tail base-correlation smile」 译为「body-vs-tail 基相关微笑」——Gaussian-copula CDO 模型中熟知的现象：由成对相关反推的联合错率低估实际联合错率，因为 Gaussian 不能表示共模原子。⑧ 「Single-factor」 译为「单因子」——一种 copula 简化模型，所有变量通过一个公共潜在因子相关；本文用其作为「最朴素的成对校准」基线，证明即使这种简化也低估真实 $\beta$。⑨ 「PSD projection」 译为「PSD 投影」——把不定（indefinite）经验相关矩阵投影到最近半正定（positive semi-definite）矩阵，因为高斯 copula 要求 PSD。⑩ 「Self-MoA」 是 Together AI 提出的「自 Mixture-of-Agents」基线——多个同 model 副本投票，与本文「异质 ensemble」对照。

注 2：原文作者 Josef Chen 的可信度。Josef Chen 是单作 arXiv 2606.27288 的作者；从本文 §4 注册表（App. C）冻结精确日期快照与价格、§5 全部使用 programmatic grading（不用 LLM judge）、§7 Limitations 显式承认 single-annotator 人评的非盲评估、附录 A 经济脚手架给出标准 Bellman/renewal 工具的完整引用来看，方法学透明度属于 2026 上半年中文圈做 LLM 评测必读的水平。论文不要求新 routing 算法、不要求新数学（所有工具 Clopper-Pearson / Gaussian copula / single-factor probit / LP duality / Clayton copula 都是标准的），贡献是「把它们特化到「定价 inference 的 orchestration」+ 「市场尺度测量」」——这是中文圈做 LLM 平台 / MoA / Agent 路由的工程团队可以直接拿来用的工具包。

注 3：与 6/25 AdversaBench 的方法学对比。AdversaBench（6/25 翻译）**用「5 个变异算子 + 3 Judge 投票 + meta-judge tiebreaker」量化 LLM 失败模式；本文用「Clopper-Pearson on $\beta$ + tetrachoric single-factor copula + 完整 67×67 PSD Gaussian copula + Clayton copula $\lambda_L = 0.69$」量化「即使你拉一群 frontier model 也消除不掉的失败模式」。两篇合在一起构成 2026 年中文圈做 LLM 安全 / 评测 / orchestration 的方法学闭环：AdversaBench 是「怎么制造 LLM 失败」的工程工具，本文是「为什么 LLM 失败在 pool 层面是不可消除的」的统计根因。

注 4：与 6/24 Grading the Grader 的方法学对比。Grading the Grader（6/24 翻译）讲「评分管线会骗你」——strict grader + keyword-anchored parser + lenient LLM grader + 人工 snippet 的三段级联；本文讲「即使评分管线完美，pool 本身的天花板 $\beta$ 也卡死了 $G$」**——Clopper-Pearson on $\beta$ 直接给出 pre-deployment 上限。两篇合在一起构成 2026 年中文圈做 LLM 评测的「评分侧可信 + 上限侧可信」双视角。

注 5：「为什么「router 100% 路由到 single-best」是 LLM-as-router 的最强 baseline」。本文 §5「LLM-as-router（GPT-5-mini 看了每个 model 的强项 capsule）100% 路由到 single-best」是 2026 frontier 上最强的 learned router——它有所有 model 的「强项摘要」作为 prompt context，理论上知道每个 query 应该路由到哪个 model。结果它 100% 路由到 single-best——这件事告诉我们「GPT-5-mini 自己都没把握分清楚哪个 model 适合哪个 query」——这件事本身就是「router 模型本身的 common-mode atom」——对中文圈做 LLM 路由的人来说，「router 不需要 ML 模型」可能就是 2026 frontier 上的工程结论。

延伸阅读

① 2026-06-25：arXiv 论文译介：IIT Jodhpur Khanak Khandelwal《AdversaBench：自动 LLM 红队——多 Judge 确认 + 跨模型迁移》（/blog/english-translation-2026-06-25/）——5 个变异算子 + 3 Judge 投票的 LLM 红队工程方案，与本文 Prop. 2 的「共失败原子」是同一现象的「工程制造 vs 统计测量」双视角。

② 2026-06-24：arXiv 论文译介：哥伦比亚统计系 Tian Zheng / Kai-Tai Hsu《给「评分者」打分：评测一个 Agentic 数据分析系统得到的教训》（/blog/english-translation-2026-06-24/）——strict grader + keyword-anchored parser + lenient LLM grader + 人工 snippet 的三段级联，与本文 Prop. 1 的「Clopper-Pearson on $\beta$ 证书」是同一现象的「评分侧 vs 上限侧」双视角。

③ 2026-06-23：Simon Willison 转推：ICML 2026 论文《Prompt Injection as Role Confusion》（/blog/english-translation-2026-06-23/）——LLM 自身机制为什么会被 prompt injection 骗的理论根因侧，与本文 Prop. 2 的「common-shock mixture 模型」是同一现象的「prompt 侧 common-mode atom vs 训练数据侧 common-mode atom」双视角。

④ 2026-06-22：Claude Fable 5 5.5h 实测（含中文圈开发者一天的工作量外推）（/blog/english-translation-2026-06-22/）——Fable 5 vs Opus 4.8 同 prompt 对比 + 撞 guardrail 自动 fallback，与本文 §4 列举的 frontier model pool（GPT-5.5 / Claude Opus 4.8 / Gemini 3.1 Pro / GLM-5.2 / Qwen3.7-Max / DeepSeek V4 / Kimi K2.7 / MiniMax M3）是同一天的 frontier 快照——本文告诉我们「这些 frontier model 之间的 ρ 高、β 更高、learned router 拿不到 $G$」。

⑤ 2026-06-21：Simon Willison：Claude Fable 5 “relentlessly proactive”（/blog/english-translation-2026-06-21/）——Fable 5 在 5.5h 工作流里「自主决定要不要调 sub-agent」「自主决定要不要 fallback」的 proactive 行为，与本文 §5「LLM-as-router 100% 路由到 single-best」是同一现象的「行为侧 vs 评测侧」双视角。