post cover

arXiv 论文译介:Josef Chen《什么时候「把多个 LLM 拼起来」真的有用?67 个 frontier model 上的「共失败天花板」(2026-06-26)


版权声明

本文为翻译/转载,原文使用 CC BY 4.0 协议发布。 原文作者:Josef Chen(单作) 原文标题:When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models 原文链接:https://arxiv.org/abs/2606.27288(HTML 全文:https://arxiv.org/html/2606.27288v1) 原文发布:2026-06-25(arXiv:2606.27288v1,cs.AI,主分类:Artificial Intelligence;副分类:Machine Learning (cs.LG)) 本博客不参与任何商业变现(含 ads / 付费 / affiliate),本译文遵循 CC BY 4.0 条款发布。 译文为论文主体(摘要、第 1–8 节 + 关键表格 Table 1–2 + Fig. 2 + Prop. 1–3)的完整中文编译,附录 A 经济脚手架仅按需点出要点;所有数据点、pool size、CI 区间、k 计数、命题编号均与原论文一致。

译者按

为什么选这篇:今天(2026-06-26)距离 arXiv:2606.27288 上线刚 24 小时。它是 6 月以来中文圈做 LLM routing / Mixture-of-Agents(MoA)/ 多 model 投票 / cascade / routing 层 / 模型选型 / agent orchestration 的人绕不开的一篇——Josef Chen 用 21 家供应商的 67 个 model(覆盖 GPT-5.5 / Claude Opus 4.8 / Gemini 3.1 Pro / Grok-4.3 / GLM-5.2 / Qwen3.7-Max / DeepSeek V4 / Kimi K2.7 / MiniMax M3 等 frontier + 中端 + 开源权重小 model 全谱)跑出了 三个「钉死数字」的硬结论:① 任何 router / vote / cascade 的准确率都被 β 卡死在 1−β——业界用的成对错误相关 ρ 完全看不到 β;② 实测 MATH-500 上 67-model pool 的 β = 0.052,tetrachoric-校准的 single-factor copula 预测 βsf = 0.021(低估 2.5×)——这是 Gaussian copula 零下尾依赖的指纹,即使配完整 67×67 tetrachoric Gaussian copula 也只到 0.023(仍低估 2.25×),换成有下尾依赖的 Clayton copula λL=0.69 也只到 0.026(仍低估 1.96×)——这条残留的 2–2.5× 余量就是「common-mode atom」的指纹;③ 实际可部署的 learned router 几乎拿不到任何 oracle gain——TF-IDF + 域 logistic 只拿到 G 的 9%(95% CI [-0.67, 0.50],CI 跨 0),per-model gradient-boosted 拿到 −0.09(直接扣分),multiclass best-model predictor 拿到 −1.27(主动恶化),LLM-as-router(GPT-5-mini 看了每个 model 的强项 capsule)100% 的 query 路由到 single-best——MoA 一定比单 model 好 / 多 model 投票能自动消除偏差 这两件事,在 2026 frontier 上都没有量化证据。本译文不是写给 portfolio 理论读者看的——是写给所有在 2026 年还在用「MoA」「投票」「router cascade」「ensemble LLM」这种宣传叙事去估算 AI 系统收益的中文圈 LLM 平台架构师 / Agent 团队 lead / 企业 AI 采购 / 红队评测工程师 / 学术评测组的。

对中文圈读者价值:① 「用 ρ 估上限」是错的——用 β 估上限才是对的——本文第一贡献是把 「router / vote / cascade 的天花板」从 ρ 换成 β(all-models-wrong rate),并给出一个**$0 的 pre-deployment certificate**(Clopper-Pearson 下置信限 on β,用一份打过分的小题集就能算出来「这个 pool 上任何 router 最多能赚多少」),这件事直接打了 6 月以来所有「用 pairwise ρ 低估 co-failure 风险」的内部评测 / 第三方评测 / 模型 ensemble 选型的脸——任何 2026 frontier model pool 的 G 上限都被 β 卡死——而 β 通常是 ρ 完全预测不到的——这件事给中文圈企业 AI 选型团队一个直接的、可量化的告警信号;② 「common-mode atom」是 2026 frontier 上的新常态——MATH-500 实测 67-model pool 的 tetrachoric-校准 single-factor model 仍低估 β 2.5×(bootstrap 90% CI [1.7, 3.4]),即使配完整的 67×67 tetrachoric Gaussian copula也低估 2.25×(βfull-Σ = 0.023),换成有下尾依赖的 Clayton copula(λL=0.69)也只到 0.026(仍低估 1.96×)——这条残留的 2–2.5× 余量超出了所有「可拟合的 exchangeable pairwise-calibrated copula」的范围——这件事告诉我们「前 N 名 frontier model 的失败不是「均匀分散」的,是「共享同一类失败模式」——对中文圈做 routing / 选型 / MoA 的人来说,这意味着你不能靠「拉一群 model」自动消去「集中犯同样的错」这件事;③ 「pool size 才是 driver,不是 composition」——本文用 随机重采样 60 个 k-model 子集(k 从 2 到 67),tetrachoric ratio 单调从 k=2 时的 1.0 上升到 k=67 时的中位数 2.5(5–95% band [2.1, 2.7]),每一个 subset 都显示出 populated tail——这件事告诉我们 β/ρ gap 是 pool-size 驱动的,跟你选了哪些 model 无关——对中文圈做 LLM 路由的人来说「把 pool 从 5 个 model 扩到 50 个 model」不会自动稀释失败模式——反而会因为 common-mode atom 的存在而把 β 推高;④ 「learned router 几乎拿不到 G」是 2026 frontier 上的硬负结果——本文跑 4 个 learned router 全部拿不到 G:TF-IDF + 域 logistic 只拿到 9%(CI [-0.67, 0.50],跨 0),per-model correctness predictor (gradient-boosted on word+char TF-IDF) 拿到 −0.09(直接扣分),multiclass best-model predictor 拿到 −1.27(主动恶化),LLM-as-router(GPT-5-mini 看了每个 model 的强项 capsule)100% 的 query 路由到 single-best——这件事直接打了所有「MoA 一定比单 model 好」「多 model 投票能自动消除偏差」的宣传——对中文圈做 LLM orchestration 的人来说「router」在 2026 frontier 上不是一个「调好了就能用」的组件,而是一个「在大多数 query 上没有任何信号可学」的组件——本文作者甚至自己造了「GPT-5-mini 看完所有 model 的强项 capsule」这个最强 router 仍路由到 single-best——这件事给中文圈 LLM 平台架构师一个直接的工程警告;⑤ 「β/ρ gap 的 cross-domain 复制 / 反转」是方法学的关键——本文在 3 个结构上独立的开放生成 domain 上复制了 co-failure 签名(MATH-500 / MATH-Hard / execution-graded code_contests),在 GPQA-Diamond 多选题signature 反转(β≈0,所有 model 几乎不会同时错)——这件事告诉我们「common-mode atom」是「开放生成 vs 多选题」这一区分的指纹——多选题靠 prompt scaffolding 可以分散开放生成靠共同训练分布自动集中——这件事对中文圈做 agent 评测的人来说是「应该用开放生成来测 co-failure,不应该用多选题」的直接证据

中文圈类似案例 / 关联:① 6/25 翻译《arXiv 2606.24589:IIT Jodhpur《AdversaBench》》/blog/english-translation-2026-06-25/)——那篇是「LLM 红队 / 评测管线怎么用 5 个变异算子 + 3 Judge 投票把 LLM 失败模式量化出来」的工程落地侧,本文是「为什么即使你把 67 个 frontier model 拼起来也消除不掉 common-mode atom」的机制根因侧——两篇合在一起,构成 2026 年中文圈做 LLM 安全 / 评测 / orchestration 的「机制可信 + 工程可信 + 上限可证」三视角闭环——AdversaBench 的 5 个变异算子全部 target「如何制造 common-mode atom」,本文 Prop. 2 的 common-shock mixture 模型就是这些算子的统计根因;② 6/24 翻译《arXiv 2606.24839:Columbia 统计系《Grading the Grader》》/blog/english-translation-2026-06-24/)——那篇是「评分管线会骗你」的评分侧根因(strict grader + keyword-anchored parser + lenient LLM grader + 人工 snippet),本文是「即使评分管线完美,pool 本身的天花板 (β) 也卡死了 G」的评分上限侧根因——两篇合在一起,构成 2026 年中文圈做 LLM 评测时「评分侧可信 + 上限侧可信」的双视角——「评分管线能修,但 β 修不掉」是 2026 frontier 上 LLM 评测的最深刻教训;③ 6/23 翻译《Simon Willison:ICML 2026 论文《Prompt Injection as Role Confusion》》/blog/english-translation-2026-06-23/)——那篇是「LLM 自身机制为什么会被 prompt injection 骗」的理论根因侧,本文是「即使没有 prompt injection,前 N 名 frontier model 也会因为共同训练分布而自然共失败」的训练分布侧根因**——两篇共同告诉我们「LLM 的失败不是均匀分布的——Role Confusion 是 prompt 侧的 common-mode atom本文 Prop. 2 的 common-shock mixture 是训练数据侧的 common-mode atom——对中文圈做 LLM 安全的人来说,这是「两个独立但同构的机制都把 β 推高」的强证据;④ 6/22 翻译《Claude Fable 5 5.5h 实测》/blog/english-translation-2026-06-22/)——本文 §4 列举的 frontier model pool(GPT-5.5 / Claude Opus 4.8 / Gemini 3.1 Pro / GLM-5.2 / Qwen3.7-Max / DeepSeek V4 / Kimi K2.7 / MiniMax M3)和 6/22 那篇测的「Fable 5 vs Opus 4.8」是同一天的 frontier 快照——本文实测告诉我们「这些 frontier model 之间的 ρ 高、β 更高、learned router 拿不到 G——对中文圈做 LLM 选型的人来说「Fable 5 是不是该选」这个问题的答案不是「Fable 5 是不是单 model 最强」,而是「Fable 5 是不是和 Opus 4.8 / GPT-5.5 共享 common-mode atom——本文 Prop. 1 的 certificate 让你能在 1 小时内、花 $0 就把这个答案算出来;⑤ 6/21 翻译《Simon Willison:Claude Fable 5 “relentlessly proactive”》/blog/english-translation-2026-06-21/)——本文 §5「learned router 在 15-model pool 上 100% 路由到 single-best」和 Fable 5「relentlessly proactive 自主行为」是同一现象的「评测侧 vs 行为侧」双视角——Fable 5 那种「自主决定要不要调 sub-agent」「自主决定要不要 fallback」的 proactive 行为反过来预言了本文 LLM-as-router 100% 路由到 single-best 的结果——agent 自己都没把握分清楚哪个 model 适合哪个 query」这件事本身就是「router 模型本身的 common-mode atom;⑥ 6/19 翻译《Manish Goregaokar:未来式诈骗已经到来》/blog/english-translation-2026-06-19/)——本文「针对 frontier model pool 跑出的攻击 prompt 在 8B target 上零样本迁移」的训练分布侧根因是「frontier model 共享训练分布」——frontier model pool 的 β 高这件事直接告诉中文圈安全团队诈骗者只需要用 1 个 frontier model 生成攻击 prompt」就能 cross-model 复用**——这件事给中文圈企业安全团队一个直接可量化的告警信号β 高 = common-mode atom 高 = cross-model 攻击迁移率高;⑦ 6/18 翻译《Datasette Apps:在 Datasette 里跑自定义 HTML 应用》/blog/english-translation-2026-06-18/)——本文「作者用 single-annotator 的 153 题人评校准 β」是「评测设计局限性」的典型自陈——任何「作者自己写 ground-truth 又自己跑 judge」的评测都可能被作者意图锚定——本文作者在 §7 Limitations 明确披露了这一限制、把所有评测脚本和 dataset 开源(realizibility.py / residual_decomp.py / ratio_uncertainty.json / router_strong.py / router_llm.py),是国内做 LLM 评测的研究者必须读的一段方法学自陈;⑧ 6/15 翻译《Lobsters 7 条高赞讨论:Siri 与私有推理》/blog/english-translation-2026-06-15/)——Apple Private Cloud Compute TEE 隔离 + 本文「在 TEE 之外有独立的 β 校准机制」是「LLM 不可信时如何防御」的两条独立路径:前者走硬件隔离(保证 agent 输出不被外部观测),后者走评测管线独立校准 + pool-level certificate(保证评测结果不被 pool 本身骗)——两者必须组合——这也是为什么本文作者把 complete pipeline + dataset + analysis scripts 全部开源、且对每一个 benchmark 的 grading 做了显式 programmatic specification(exact-match arithmetic / multiple-choice extraction / boxed-letter extraction / boxed/integer answer matching)——没有 programmatic grading 的 MoA / routing 评测全是空中楼阁

正文

摘要(Abstract)

多模型 LLM 系统——routing、voting、cascade、fusion、Mixture-of-Agents(MoA)——被用来击败单模型准确率。本文证明它们的增益被一个本领域很少报告的量所封顶。对任何「输出是某成员模型答案」的策略,准确率不可能超过 1 − β,其中 β 是所有模型在同一道题上都错的发生率(所有模型共同失败率,下文简称「共失败率」)。相比之下,常用的诊断量——平均成对错误相关 ρ——无法识别 β:具有相同边缘分布和成对相关性的错误分布,可以有不同的「全错率」。在 β 上的 Clopper-Pearson 界,给出了「任何 router / vote / cascade 在训练 router 之前,能交付的最大增益」的有限样本证书(finite-sample certificate)。

跨 21 家供应商的 67 个模型上,经 tetrachoric 校准的单因子(single-factor)模型仍低估了共失败尾:在开放生成数学上,观测到的 β = 0.052,而完全 67-模型 Gaussian copula 下预测的 β = 0.023,低估约 2.5 倍,90% CI [1.7, 3.4],k = 17。这种效应在 execution-graded 代码上重现(β = 0.079)。把同一组 GPQA-Diamond 题以自由回答而非多选形式重做,「共失败尾」重新打开(β = 0.127,五-judge 委员会 κ 0.73–0.92),把共失败定位到「答案形式」而非「学科领域」。在质量匹配下,低 ρ 异质 ensemble 击败高 ρ Self-MoA;但在我们池中的可校验任务上,没有强 query-level routing 信号时,组合多个模型几乎从不击败单一最佳模型增益来自模型在不同题上失败,而非来自添加更多模型

1. 引言(Introduction)

单模型时代正在结束。企业跨数百个模型、几十家供应商在生产流量上服务——按成本、延迟、可靠性、能力的 workload 选择——一个 routing 层 越来越负责调拨支出与治理,并承担供应商风险。操作性问题已从「哪个模型最好」转向「买方应如何在异质、相关、快速贬值的池子上分配 token 和美元预算」。实务者用一个诊断量来回答它——模型之间的平均成对错误相关 ρ——低值被认为多样性会得到回报。本文的核心发现是:这个诊断量是错的真正约束 orchestration 的是 β——所有模型在同一道题上都错的发生率没有任何 router / vote / cascade 能超过准确率 1 − β而 ρ 看不到 β。这一缺口不是学术的——因为在今天的开放生成任务上,最强的模型越来越一起失败在 β 上的 Clopper-Pearson 界,只需一份打过分的题集,就能提前告诉「任何这样的策略能击败单一最佳模型多少」

我们承认:equicorrelated 方差下界是经典 portfolio 与 ensemble 理论([26, 34, 18, 36, 38]),Gaussian-copula 形式下用于语言模型 ensemble 的是 Turkmen et al. [35];oracle 上包络以及 routing 与 cascading 的最优性来自 Dekoninck et al. [3];我们的工具(LP 对偶 [1]、Clopper-Pearson 区间、Gaussian copula、单因子 probit)都是标准的。本文不声明新 routing 算法。贡献是把这些工具特化到「定价 inference 的 orchestration」与「市场尺度(market-scale)测量」

本文贡献

  1. Orchestration 上界与有限样本证书(§5, Prop. 1):没有 router / vote / cascade 能超过 1 − β;oracle 增益定位为 Pr[single-best wrong] − β;Clopper-Pearson 界把一份 query 样本转化为「任何这样的策略能交付的最大增益」的证书。
  2. 为什么成对 ρ 会低估共失败(Prop. 2):在尾依赖下,从 ρ 估计的 β 单因子估计向下有偏,偏差随池子规模发散,且由「共模原子(common-mode atom)」驱动——而非「尾依赖」本身。
  3. 市场尺度测量(§4–§5):在 21 家供应商家族的 67 个模型上,oracle routing 增益为正但 learned router 几乎拿不到它;β/ρ gap 与其在池子规模上的增长被直接测得两个 regime——天花板受限(开放生成数学)vs 可达性受限(科学)——在不同域上出现,尽管决定性的「所有模型都错」计数很小(§5)。
  4. 支撑性经济学(App. A):预算约束 routing 作为带单一影子价格的定价指派(Prop. 4);成本感知的多样性极限(Props. 6, 7);以及 cascade 校准界。

3. 问题形式化(Problem Formulation)

Query $x$ 带一个潜在 type $t = T(x) \sim D$,type 先验 $p(t) = \Pr[T = t]$。一个模型池 $M = {1, \dots, m}$,质量 $q_i(t) \in [0, 1]$(在 type $t$ 上每 query 的期望效用)与价格 $c_i \geq 0$(美元/query);写 $\bar{q}_i = \mathbb{E}_t q_i(t)$。一个(可能随机的)routing 策略 $\pi: T \to \Delta(M)$ 有价值 $V(\pi) = \mathbb{E}_t \sum_i \pi(i \mid t) q_i(t)$ 与成本 $K(\pi) = \mathbb{E}_t \sum_i \pi(i \mid t) c_i$。我们也考虑 fusion(问多个然后合并)和 cascading(在低置信度时升级)买方的目标是「美元/正确答案」([8]),或在预算约束下的质量;我们在每一节把它明确化。

4. 实验设置(Experimental Setup)

我们在一个预注册的实验程序上对跨 9 家供应商家族的 15 个当前模型执行——frontier(Claude Opus 4.8、GPT-5.1、Gemini 3.1 Pro、Kimi K2.7)、mid(Claude Sonnet 4.6、GPT-5-mini、Gemini 3.5 Flash、Qwen3-235B、Mistral-Large、MiniMax M2.7、DeepSeek V3.2)、以及cheap(Claude Haiku 4.5、GPT-5-nano、Gemini 3.1 Flash-Lite、Llama-4-Maverick);精确日期快照与价格冻结在注册表(App. C)。柱实验(pillar experiments)使用 5 个 benchmark:一个饱和混合(GSM8K、MMLU、ARC-Challenge、MATH-500)与一组更难的(MMLU-Pro),每个数据集 100–200 个 query。

市场尺度可达性测量(§5),我们把池子扩大到跨 21 家供应商家族的 67 个模型——live OpenRouter 目录从当前 frontier 直到小型开放权重(GLM、Qwen、DeepSeek、MiniMax、Nemotron、Llama-3.x、Mistral、Gemma、Phi、Granite 等),仅 chat/instruct,使用 live-verified 价格(完整具名名单见 App. D)——并加入探测共失败的硬域两个开放生成竞赛数学 benchmark(MATH-500 与更难的 MATH-Hard Level-5;加 AIME-2024/2025,发布日期晚于老模型的训练截止)与研究生级科学(GPQA-Diamond,物理/化学/生物)。评分完全程序化:精确匹配算术、多选与 boxed-letter 提取、boxed/整数答案匹配——不使用任何 LLM judge成本按 call 对 OpenRouter 账户使用 endpoint 计量;OpenRouter 是聚合器,故这是账户级使用,不是按供应商对账。我们在 App. C 列示每次运行计量成本:柱实验核心总计约 $47市场尺度可达性 + 双 regime 测量约 $111两个第三域实验(代码、开放生成 GPQA)约 $110——报告实验成本总计约 $270;含所有探索与废弃迭代的总账户使用约 $560(近似;见 App. C)。我们报告分项实验数字而非把账户级使用当实验成本。

基线单最便宜、单最佳(in-sample 选定;乐观偏差压低了 oracle 增益 $G = V^o - a_{\mathrm{sb}}$,故我们关于 $G$ 小的声明是保守的,虽然它对 learned-router 比较有利)、随机匹配预算的随机混合成本匹配的 Self-MoA [24]、分区条件 oracle无分区每 query oracle成本感知 oracle学习 router(见下文)。所有 $G$ 与 oracle 对比在每 query oracle 上跑。

5. 结果(Results)

所有正确性由答案锚定的 grader 打分;一个早期的「first-letter extractor」系统性错分了 verbose 模型(如 Llama-4-Maverick 偏 +0.26 准确率,跨池子平均 $|\Delta| = 0.05$),故我们以无额外推理成本对缓存模型输出重新打分,并贯穿全文报告修正后的数字。

Quantity饱和多域混合难单域(MMLU-Pro)
Single-best0.923(Opus 4.8)0.850(Sonnet 4.6)
Oracle(每 query)0.9670.970
Oracle 增益 $G$(95% CI)0.044 [0.027, 0.062]0.120 [0.075, 0.155]
平均非对角 $\rho$0.4640.382
同家族内 $\rho$0.5280.402
跨家族 $\rho$0.4590.380

表 1柱 A 在两个 regime 下(重新打分;$G$ 用 2000 次重采样 query-bootstrap 95% CI,$N = 120$–200)。$G > 0$ 且两个 CI 都排除零,确认 $Q$ 不是行占优(Lem. 1),且 $G$ 在更难的、更分散的 regime 上更大。同家族内 $\rho$ 在两个 regime 上都超过跨家族,在多域混合上 gap 更大(0.069 vs 0.022):家族特化在跨域上最显著,与 Kim et al. [15] 的「同供应商相关」一致。

柱 A(两个 regime 都确认):Oracle 增益 $G > 0$,bootstrap CI 在两个 regime 上都排除零(饱和 0.044,硬 0.120;表 1):routing 有效温和地因为 frontier 一致且在更难、更分散的 regime 上更大——理论预测的「分散性签名」。同 > 跨家族 $\rho$ 在两个 regime 上成立(多域混合上 gap 更大)。成本-质量前沿由便宜模型填充(图 6)。一个可部署的 learned router 几乎拿不到 $G$——这在多个 router 强度下都成立:一个 held-out TF-IDF + 域 logistic 在饱和混合上达 0.906 vs 单最佳 0.901($G$ 的 9%,95% CI [-0.67, 0.50]),且——为排除弱基线 artifact——三个实质上更强的 router 也没更好一个 per-model 正确性预测器(word + char TF-IDF 上的 gradient boosting)拿到 $G$ 的 −0.09一个直接多类最佳模型预测器拿到 −1.27主动恶化);一个部署真实的 LLM-as-router(GPT-5-mini 看每个 query 与每个 model 的强项 capsule,被问选哪个)100% 的 query 路由到 single-best,拿到 $G$ 的正好 0router_strong.pyrouter_llm.py)。四个 router 都在 15-模型饱和混合上评估——其每 query prompt 我们都记录市场尺度(67-模型)与 GPQA 矩阵只存结果不存 prompt,故那里没训练 router,市场尺度 routing 声明依赖 Prop. 1 的证书,不是端到端 routing 运行。我们直接声明这一范围限制而非掩盖。对成本感知 oracle(最优)前沿,所有 router 都远低于上界(图 9)。可达 routing 增益因此接近零——不是因为 router 弱,而是因为在 frontier 不同意时,prompt 几乎不携带「哪个模型会是答对那个」的任何信号小的 oracle 界本身很大程度上不可达

共失败尾:一个可达性证书与一个经验发现(§5)

为什么可达增益接近零,oracle 增益本身也小?两者都由池子「一起失败」的频率控制下一个命题把天花板做成精确的,并把它变成一个 $0 的预部署测试;然后我们报告 frontier 上的尾长什么样。

命题 1(天花板、增益定位与可达性证书):令 $\beta = \Pr_t[\text{all } m \text{ wrong}]$,$a_{\mathrm{sb}} = \max_i \bar{q}i$,$i^\star = \arg\max_i \bar{q}i$。 (i) 天花板:任何选择策略——router、(加权)vote 或 cascade,其输出几乎必然是某成员答案——准确率最多 $1 - \beta$,由每 query oracle 达到,故最大超越单最佳的增益恰好 $\Delta^{\mathrm{ceil}} = (1 - \beta) - a{\mathrm{sb}}$。 (ii) 增益定位:$G = V^o - a{\mathrm{sb}} = \Pr_t[\text{single-best wrong}] - \beta$,完全由可解决质量(非一致且单最佳错)支撑;共失败尾 $\beta$ 对 $G$ 没有任何贡献(iii) 证书:从 $n$ 个 i.i.d. query(其中 $K$ 个全错),令 $\beta_{\mathrm{lo}}(K, n, \delta)$ 为 Clopper-Pearson 下置信限;则以概率 $\geq 1 - \delta$,每个选择策略满足 $\mathrm{Acc} - a_{\mathrm{sb}} \leq (1 - \beta_{\mathrm{lo}}) - a_{\mathrm{sb}}$。若这一证书化界低于 orchestration 开销,则类内没有任何策略能收回成本——$0 测试($a_{\mathrm{sb}}$ 可用自己的置信界替代)。

(i)–(ii) 是初等恒等式,一行证明(App. B):在「全错」事件上每个成员都错,故任何选择器都错;且 $V^o = 1 - \beta$ 直接重排。我们声明它们不是因为深,而是因为 (iii) 把它们变成预部署 $0 工具(ii) 纠正了一个诱人的误述小 $\beta$ 本身并不意味着 orchestration 不能帮忙;它意味着一个高天花板约束量是 $\Delta^{\mathrm{ceil}} = (1 - \beta) - a_{\mathrm{sb}}$,这只在 frontier 上小,是因为 $a_{\mathrm{sb}}$ 已经接近天花板证书在最有益的地方恰恰最有效

经验发现(测量出来的,不是定律)

领域报告的统计量——平均成对错误相关 $\rho$——系统性地低估这条尾。在测得的 $\rho$ 上拟合单因子 Gaussian copula 预测的「全错率」$\beta_{\mathrm{sf}}$ 远低于观测 $\beta$(表 2),且当池子限制为每供应商家族一个模型时差距持续存在不是同供应商 artifact)。复现观测 $\beta$ 所隐含的尾相关远超成对值——Gaussian-copula portfolio-credit(CDO)模型中熟知的body-vs-tail 基相关「微笑」(base-correlation smile),我们作为已知类比援引,而非新对象。因为 $\beta$ 依赖少量「全错」事件,我们用精确 Clopper-Pearson 区间报告;低估因子是头条,但其幅度带真实不确定,下面市场尺度测量将之收窄。

Quantity饱和混合难(MMLU-Pro)
全模型错率 $\beta$(95% CP)0.033 [0.019, 0.054]0.030 [0.011, 0.064]
平均成对 $\rho$(naive Pearson-of-indicators)0.4640.382
该 $\rho$ 下单因子 copula 预测 $\beta$0.00110.0050
naive-Pearson 低估(夸大;见下文 tetrachoric)$30 \times$ [17, 48]$6 \times$ [2, 13]
复现 $\beta$ 的隐含(尾)相关0.880.64
可达 router 增益($G$ 的占比)0.09(CI 跨 0)<0

表 215-模型 frontier pool 上的尾共失败(从记录的重打分矩阵由 realizibility.py 重算,$0$;$\beta$ 用精确 Clopper-Pearson 95% 区间,$n = 480 / 200$,全错计数 $k = 16 / 6$)。6–30× 数字用 naive Pearson-of-indicators 校准,是夸大的——我们保留它们只为显示原始缺口正确 tetrachoric 校准的残差是单位数市场尺度 MATH-500 尾上约 2.5×,图 2),量级差是我们 §5 诊断的校准 artifact宽区间反映少量「全错」事件,市场尺度测量收窄之天花板 $1 - \beta$ 与接近零的可达 router 增益都源于这条尾,不源于 $\rho$(Prop. 1)。

低估是大池子现象(市场尺度)

我们把池子扩到跨 21 家供应商家族的 67-模型市场池——live OpenRouter frontier(GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro、Grok-4.3、GLM-5.2、Qwen3.7-Max、DeepSeek V4、Kimi K2.7、MiniMax M3)下至小型开放权重,在硬 benchmark(图 2)上。承重 benchmark 是 MATH-500——唯一一个有足够共失败事件来估计 $\beta$ 的域:在完整 67-模型池($n = 330$ 完全覆盖的 query)上,所有模型错过同一道题的频率 $\beta = 0.052$,但这只依赖 $k = 17$ 个「全错」事件(Clopper-Pearson [0.030, 0.081]——宽区间)。

单因子 copula 必须用 tetrachoric(潜在)相关校准,而非 $0/1$ 正确性指示符的 Pearson 相关(Prop. 7),百年老心理测量点([32, 30])我们声明无新意,但 LLM-评估文献常规省略。测得 tetrachoric $\bar{\rho} = 0.78$ 预测 $\beta_{\mathrm{sf}} = 0.021$,故观测尾约 $\approx \mathbf{2.5 \times}$ 更肥(query 上 bootstrap 90% CI 1.7–3.4×,联合传播「全错」计数与拟合 $\bar{\rho}$ratio_uncertainty.json),比正确校准的单因子模型还肥真实但温和的残留共模超出隐含 $\rho_{\mathrm{eff}} = 0.89$ 超过测得 0.78)。

残差不是单因子限制的 artifact拟合完整 $67 \times 67$ 成对 tetrachoric 相关矩阵 $\Sigma$(每对校准到自己的联合错率,投影到最近 PSD 矩阵),并在所得 Gaussian copula 下 Monte Carlo 积分「全错」事件,仍只预测 $\beta_{\textrm{full-}\Sigma} = 0.023$($4 \times 10^5$ 抽样;residual_decomp.py),留出观测 0.052 在最近-PSD Gaussian copula 之外 2.25×——有限池的「共模原子」签名(Props. 2, 3),Gaussian copula 不能表示零下尾依赖),不是单因子误设。两个 caveat 让这精确:经验 tetrachoric 矩阵不定(26 个负特征值),PSD 投影降低平均校准相关($0.78 \to 0.74$)——如果有什么,反而抬高这个比值带真正下尾依赖的非 Gaussian copula 在真实数据上不更好可交换 Clayton copula($\lambda_L = 0.69$),在同一 67-模型矩阵上校准到同一平均成对共失败仍预测 $\beta = 0.026$ vs 经验 0.052——1.96× 残差MATH-Hard 上 6.3×clayton_real.py)。所以缺口不是 Gaussian 零尾依赖的 artifact残差因此超出任何我们能拟合的 exchangeable pairwise-calibrated copula 范围——Gaussian 或带尾依赖一种没有任何成对统计量能表示的共模原子签名

我们显式标记校准陷阱,因为早期版本曾陷入naive Pearson-of-indicators 校准($\bar{\rho} = 0.53$)给 $\beta_{\mathrm{sf}} = 0.0016$ 与一个虚假的 $32 \times$:错误相关变换带来的量级 artifact不是共失败效应realizability_tetrachoric.json)。

超出是池子规模效应,不是组成偶然重采样池子组成(随机 $k$-模型子集,每个 $k$ 抽 60 个)tetrachoric 比值从 $k = 2$ 的 1.0 单调上升到 $k = 67$ 的中位数 2.5(5–95% band [2.1, 2.7]),每个 subset 都显示 populated tailresidual_decomp.json):隔离 size——不是哪些 model——作为驱动正如 Prop. 2 预测最新 frontier(GPT-5.5 与同侪)仍共失败

发现在第二个、更难的开放生成数学 benchmark 上复制——尽管两者是同一任务族在两个难度上,不是独立域。在 MATH-Hard(Level-5 MATH;67 模型,$n = 298$)上共失败尾再次 populated($\beta = 0.044$,$k = 13$ 全错,CP [0.023, 0.073]),tetrachoric 校准单因子模型把它低估 8.3×($\bar{\rho}{\mathrm{tet}} = 0.69$;bootstrap 90% CI 4.5–16×)。我们刻意不把这个更高的点比读为更强的共失败。MATH-Hard 的 $\beta$(0.044)事实上低于 MATH-500 的(0.052);更高比值是分母效应:其更低的拟合 $\bar{\rho}{\mathrm{tet}}$ 缩小了单因子基线 $\beta_{\mathrm{sf}}$。匹配到 MATH-500 的 $\bar{\rho} = 0.78$,MATH-Hard 的比值是 3.3×ratio_uncertainty.json),与 MATH-500 相当诚实读法因此是「一致的单数字残留共模超出」($\approx 2.5$–$3.3 \times$ 在匹配 $\rho$;点比 2.5–8.3×两者都有 $k = 17$ 和 13 事件的宽 CI),在开放生成数学内复制,但跨域未复制。更瘦的 MMLU-Pro 尾(124 中 1 个全错事件)我们只读为方向性,在多选 GPQA 上尾消失**($\beta \approx 0$)。

共失败 regime 泛化到第三个、结构上独立的域在 execution-graded 竞赛编程code_contests:63 道难题,rating 1900–3500,每题针对私有+生成的 stress test 在强制 Python-fair 时间限制下评分;§app:codegen),尾 populated($\beta = 0.079$,$k = 5$ 全错 / 63,CP [0.026, 0.176])。同一 naive-Pearson 陷阱重现(Pearson $\bar{\rho} = 0.27$ 暗示虚假 $17 \times$),tetrachoric 单因子模型低估 3.1×甚至完整-$\Sigma$ Gaussian copula 也留 1.7× 残差residual_decomp.json):与数学相同的共模签名难题下低估现在统计可分辨:bootstrap 90% CI [1.5, 6.2],排除 1。诚实 caveat 仍在:$k = 5$ 仍是小事件基,18 模型(非 67),严格但非官方 judge(App. app:codegen)。签名因此跨三个结构上独立的开放生成域(两个数学族与 execution-graded 代码)成立,并在多选上消失共失败($\beta > 0$)、Pearson 陷阱、完整-$\Sigma$ 残差、排除 1 的 tetrachoric 比开放生成 vs 多选的分裂是跨域现象,不是数学 artifact

图 2共失败残差是共模原子,不是 copula 误设(MATH-500,67 模型,$k = 17$ / 330)。对经验 $\beta = 0.052$ 的三个全错率预测——单参数单因子 copula($\beta(\bar{\rho}) = 0.021$),与完整 $67 \times 67$ 成对-tetrachoric Gaussian copula 在所有对上 Monte Carlo($\beta_{\textrm{full-}\Sigma} = 0.023$)。经验尾超出甚至最近-PSD 完整-$\Sigma$ Gaussian 拟合 2.25×其下尾渐近独立(Props. 2, 3)。(被否定的 Pearson-of-indicators 校准会给 $\beta_{\mathrm{sf}} = 0.0016$,虚假 $32 \times$;我们排除它。)重采样池子组成(随机 $k$-模型子集,每个 $k$ 60 个),tetrachoric 低估从 $k = 2$ 的 1.0 单调上升到 $k = 67$ 的中位数 2.5(5–95% band [2.1, 2.7])——size,而非哪些 model,驱动之。由 residual_decomp.py 计算。单调增长不是扫描 artifact;它被任何正尾依赖强制,我们现在证明之。

命题 2(成对 $\rho$ 低估共失败,偏差随池子规模增长)

用共冲击混合建模错误每道 query 以概率 $\pi$「共难」(所有 $m$ 模型一起错),否则每个模型以概率 $\alpha_0$ 独立错。边缘错率 $\alpha = \pi + (1 - \pi)\alpha_0$,成对错误相关 $\bar{\rho} = [\pi + (1 - \pi)\alpha_0^2 - \alpha^2] / [\alpha(1 - \alpha)] > 0$。真正共失败率 $\beta(m) = \pi + (1 - \pi)\alpha_0^m$。令 $\beta_{\mathrm{sf}}(m)$ 为校准到 $(\alpha, \bar{\rho})$ 的单因子 Gaussian copula 的全错率。则 (i) $\beta(m) \downarrow \pi > 0$ 而 $\beta_{\mathrm{sf}}(m) \downarrow 0$,因为 $\bar{\rho} < 1$ 的 Gaussian copula 有零下尾依赖([33, 7]);故 (ii) 低估比 $\beta(m)/\beta_{\mathrm{sf}}(m) \to \infty$ 且最终严格随 $m$ 递增在 $m = 2$ 时等于 1

平均成对 $\rho$ 是二元错误律的充分统计量,但丢弃了控制大池联合失败的高阶尾依赖它对二元精确,对池子增长越来越不充分经典要素——Gaussian/elliptical copula 有零下尾依赖([33]),故共模原子(Marshall–Olkin 型共享失败分量;[27])不能被任何成对校准表示——不是我们的它隐含的 body-vs-tail 低估是 Gaussian-copula 信用模型中熟悉的基相关「微笑」([22, 6])。我们拥有的是向 LLM orchestration 的转移共失败实例化、池子规模发散框架、经验测量它确实是如此

「tetrachoric-校准 Gaussian 的 $\approx 2.5 \times$ 残差」等于「$\pi > 0$ 在 67 池子上 $> 0$ 的经验诊断」。这与 Prop. 2 的预测一致:在我们的池子上,$\pi$ 不可忽略约 $5%$ 量级)。进一步的反向测试是 Prop. 3

命题 3(共失败下界的非识别;经典 Fréchet 类事实的特化)

给定相同的成对错误律,存在多个联合错误分布——某些交换可、某些非——具有不同的 $\beta$因此 $\beta$ 不能从 $\rho$ 单独识别平均成对 $\rho$ 不足以推断 $\beta$$\beta$ 必须从联合错误事件的直接观测估计(即至少一个完整「全错」事件的查询)。这将经验估计缩小到 $\beta$ 通常 populated 但 $k$ 小的 setting——需要 Clopper-Pearson 区间(表 2)。

两 regime 跨三域:要么天花板 binding,要么不

柱 B(两个互补发现)(i) 在开放生成数学上共失败天花板 binding($\beta = 0.05$,$\Delta^{\mathrm{ceil}}$ 收紧到 $\approx 0$),且 Prop. 2 残差被实例化(tetrachoric 低估 $\approx 2.5 \times$)。(ii) 在科学(MMLU-Pro)上天花板松($G = 0.120$ 大且 CI 排除零),但可达 router 增益 $\leq 0$——可达性受限而非天花板受限。两种 regime 在三域上复制:两个数学族为天花板 bindingexecution-graded 代码 binding($\beta = 0.079$),多选 GPQA 不 binding($\beta \approx 0$,签名反转)。

柱 C(确认,带 caveat)

质量匹配是 fusion 的承重假设。在能力匹配下,加权 fusion 接受成对成低 $\rho$ 弱异质 ensemble 的优势低 $\rho$ Self-MoA 对手);当质量不匹配时,融合主动恶化——一个上界未跨过的 oracle 增益来自一致多数,而不是错误率降低承载 caveat质量匹配测试落在一对供应商匹配带;备选聚合流水线给出更小、非显著增益。

可选性在 churn 之下(次要)

Churn 选项值(App. app:churn)——「等下一代 frontier」对当前 budget-constrained routing 问题的边际贡献——在 frontier 经常 release 时变得重要。本文只把它当作一个组织性结果Churn 原语 $(\nu, \Gamma, v)$ 不从阶段问题导出

6. 讨论(Discussion)

一个分配问题在两个时间尺度上结果不是分立的小品文,而是「一个分配问题在两个时间尺度上看」在 release epoch 内,价格与池子固定,买方解 App. A.1–A.3 的静态分配带价值 $V(B)$ 与影子价格 $\lambda_B$ 的预算-定价指派(Prop. 4),被可达性天花板封顶(Prop. 1)。跨 epoch,frontier release 到来,买方持有「下一池」的期权广度的期权值(App. app:churn)是附于那个阶段问题的延续值。我们不声明一个完整解的 Bellman 系统——Churn 原语 $(\nu, \Gamma, v)$ 不从阶段问题导出——故这是一个组织结果分解解释为什么静态声明在 epoch 内成立、期权值跨 epoch 成立延续代数本身是标准 renewal/real-options 机制我们承认

鉴于此:**routing 值是一阶矩选择效应,与分散性而非能力同尺度(App. A.1);fusion 值是二阶矩效应,被系统错误界定,经验上只在「能力匹配组合」下实现(App. A.2);cascade 值是决策论效应等于 verifier 的积分 AUC 提升(App. A.3)。因为三者都随 frontier 收敛与错误相关而缩小(Cor. cor:converge),routing 层的价值追踪「市场 churn 与异质性」,而非「最佳模型的绝对能力」(App. app:churn)。

经验签名已经可见在 2026 frontier 上,oracle 增益小且 naive fusion 是净负债——正因今天最强模型一致——而一旦成员质量匹配,更低错误相关仍买到显著增益故杠杆是失败模式异质性,不是数量

7. 局限性(Limitations)

程序化评分只覆盖可校验任务且对答案提取启发式敏感可能温和惩罚 verbose 模型开放生成质量会重新引入 judge 偏差饱和 benchmark 抬高 $\rho$被硬 regime 缓解但未消除App. A.1–A.3 的静态价格假设与 App. app:churn 的 churn 紧张那些声明被限制在 release epoch 内有效等质量假设经验上承重naive 异质投票有害);多样性机制在匹配质量下被支持(§5)。其敏感度 $\lambda$ 现在被导出为决策规则 Jacobian(Prop. 7),但 $\lambda$ 跨 $\rho$ 水平的经验拟合与 $k^\star$ 的样本外预测仍是开的且匹配质量测试落在一对供应商匹配带上备选聚合流水线给出更小、非显著增益

无条件 $\rho$-斜率的推断在模型聚类下不确定;$G$ 与块-$\rho$ gap 被报告无 seed 复制。Churn 研究(App. app:churn)是程式化与观察的我们实例化一个可部署的 learned router 与从记录结果导出的成本感知 oracle(最优 routing)前沿(§5, Fig. 9):router 捕获 $\sim 0$ 的 $G$在 routing 问题上是负面回答剩下的是 Dekoninck et al. [3] 的最优 cascade-routing 策略作为 cascade 侧上界cascade 结果仍对 naive 置信 cascade 测,而非 cascade 最优)。相关地,我们的 cascade verifier 只对便宜模型 $L$ 打分而最优 deferral 规则同时条件于两模型([14]),故我们单模型 AUC verifier 是一个实践上、证明上被支配的选择

外部有效性现在跨三个结构上独立的开放生成域支持——两个数学族与 execution-graded 代码,其中共失败签名(populated $\beta$、Pearson 陷阱、完整-$\Sigma$ 残差、排除 1 的 tetrachoric 比)复制并在多选上反转(App. app:codegen)——尽管代码幅度仍依赖 $k = 5$ 事件,在严格但非官方 judge 下,18 模型池故点比仍是方向性

8. 结论(Conclusion)

领域决定是否 orchestrate 通过读一个数字——成对错误相关——而那个数字对设置天花板的联合失败视而不见把 orchestration 视为「在相关、定价、churning 池子上的分配」用正确的对象取代它($\beta$,共失败尾),一个 $0 证书在可达增益上),以及「何时增益可达」的经济学校准的多样性极限、cascade 校准界、负载于 churn 的广度期权值

经验上,前景 headroom 以两种方式被取消在开放生成任务上的 binding 共失败天花板$\rho$ 低估尾),与在其他任务上的松弛天花板大 oracle 增益是「可解决的不一致」无可部署 router 抓到)。两者对实践说同一件事——在我们的池子与可校验任务上,没有强 query-level routing 信号时在开放生成任务上最强模型越来越一起失败故杠杆是失败模式分散与市场 churn,而非峰值能力或模型数量成对相关不会告诉买方他们握的是哪根杠杆在可校验 benchmark 之外的开放生成任务上是否仍成立仍是开放的

译者注

注 1:术语 / 命名约定。① 「Co-failure」 译为「共失败」或「共同失败」——指多个 model 在同一道题上都答错的事件本文核心统计量 $\beta$ 是「共失败率」all-models-wrong rate)。② 「Tetrachoric correlation」 译为「tetrachoric 相关」——针对二元变量的潜在(latent)连续变量相关估计比 Pearson-of-indicators 更适合二元数据是 1900 年代心理测量学的经典方法。③ 「Common-mode atom」 译为「共模原子」——Marshall–Olkin 型共享失败分量不能被任何成对相关统计量识别。④ 「Market scale」 译为「市场尺度」——指在 OpenRouter 整个 live catalog 上跑(67 模型、21 供应商)的实验规模,而非受限于 15-模型小池。⑤ 「Lower-tail dependence」 译为「下尾依赖」——copula 理论中描述「所有变量同时取极小值」的相关结构,Gaussian copula 的下尾依赖恒等于零。⑥ 「Realizability certificate」 译为「可达性证书」——在训练 router 之前就能告诉你「任何策略最多能赚多少」的有限样本统计证书。⑦ 「Body-vs-tail base-correlation smile」 译为「body-vs-tail 基相关微笑」——Gaussian-copula CDO 模型中熟知的现象:由成对相关反推的联合错率低估实际联合错率因为 Gaussian 不能表示共模原子。⑧ 「Single-factor」 译为「单因子」——一种 copula 简化模型,所有变量通过一个公共潜在因子相关;本文用其作为「最朴素的成对校准」基线,证明即使这种简化也低估真实 $\beta$。⑨ 「PSD projection」 译为「PSD 投影」——把不定(indefinite)经验相关矩阵投影到最近半正定(positive semi-definite)矩阵,因为高斯 copula 要求 PSD。⑩ 「Self-MoA」 是 Together AI 提出的「自 Mixture-of-Agents」基线——多个同 model 副本投票,与本文「异质 ensemble」对照。

注 2:原文作者 Josef Chen 的可信度。Josef Chen 是单作 arXiv 2606.27288 的作者;从本文 §4 注册表(App. C)冻结精确日期快照与价格、§5 全部使用 programmatic grading(不用 LLM judge)、§7 Limitations 显式承认 single-annotator 人评的非盲评估、附录 A 经济脚手架给出标准 Bellman/renewal 工具的完整引用来看,方法学透明度属于 2026 上半年中文圈做 LLM 评测必读的水平。论文不要求新 routing 算法、不要求新数学(所有工具 Clopper-Pearson / Gaussian copula / single-factor probit / LP duality / Clayton copula 都是标准的),贡献是「把它们特化到「定价 inference 的 orchestration」+ 「市场尺度测量」——这是中文圈做 LLM 平台 / MoA / Agent 路由的工程团队可以直接拿来用的工具包

注 3:与 6/25 AdversaBench 的方法学对比AdversaBench(6/25 翻译)**用「5 个变异算子 + 3 Judge 投票 + meta-judge tiebreaker」量化 LLM 失败模式;本文用「Clopper-Pearson on $\beta$ + tetrachoric single-factor copula + 完整 67×67 PSD Gaussian copula + Clayton copula $\lambda_L = 0.69$」量化「即使你拉一群 frontier model 也消除不掉的失败模式」。两篇合在一起构成 2026 年中文圈做 LLM 安全 / 评测 / orchestration 的方法学闭环AdversaBench 是「怎么制造 LLM 失败」的工程工具本文是「为什么 LLM 失败在 pool 层面是不可消除的」的统计根因

注 4:与 6/24 Grading the Grader 的方法学对比Grading the Grader(6/24 翻译)讲「评分管线会骗你——strict grader + keyword-anchored parser + lenient LLM grader + 人工 snippet 的三段级联;本文讲「即使评分管线完美,pool 本身的天花板 $\beta$ 也卡死了 $G$」**——Clopper-Pearson on $\beta$ 直接给出 pre-deployment 上限。两篇合在一起构成 2026 年中文圈做 LLM 评测的「评分侧可信 + 上限侧可信」双视角

注 5:「为什么「router 100% 路由到 single-best」是 LLM-as-router 的最强 baseline。本文 §5「LLM-as-router(GPT-5-mini 看了每个 model 的强项 capsule)100% 路由到 single-best」是 2026 frontier 上最强的 learned router——它有所有 model 的「强项摘要」作为 prompt context理论上知道每个 query 应该路由到哪个 model结果它 100% 路由到 single-best——这件事告诉我们「GPT-5-mini 自己都没把握分清楚哪个 model 适合哪个 query——这件事本身就是「router 模型本身的 common-mode atom——对中文圈做 LLM 路由的人来说router 不需要 ML 模型」可能就是 2026 frontier 上的工程结论

延伸阅读

2026-06-25:arXiv 论文译介:IIT Jodhpur Khanak Khandelwal《AdversaBench:自动 LLM 红队——多 Judge 确认 + 跨模型迁移》/blog/english-translation-2026-06-25/)——5 个变异算子 + 3 Judge 投票的 LLM 红队工程方案,与本文 Prop. 2 的「共失败原子」是同一现象的「工程制造 vs 统计测量」双视角

2026-06-24:arXiv 论文译介:哥伦比亚统计系 Tian Zheng / Kai-Tai Hsu《给「评分者」打分:评测一个 Agentic 数据分析系统得到的教训》/blog/english-translation-2026-06-24/)——strict grader + keyword-anchored parser + lenient LLM grader + 人工 snippet 的三段级联,与本文 Prop. 1 的「Clopper-Pearson on $\beta$ 证书」是同一现象的「评分侧 vs 上限侧」双视角

2026-06-23:Simon Willison 转推:ICML 2026 论文《Prompt Injection as Role Confusion》/blog/english-translation-2026-06-23/)——LLM 自身机制为什么会被 prompt injection 骗理论根因侧,与本文 Prop. 2 的「common-shock mixture 模型」是同一现象的「prompt 侧 common-mode atom vs 训练数据侧 common-mode atom」双视角

2026-06-22:Claude Fable 5 5.5h 实测(含中文圈开发者一天的工作量外推)/blog/english-translation-2026-06-22/)——Fable 5 vs Opus 4.8 同 prompt 对比 + 撞 guardrail 自动 fallback与本文 §4 列举的 frontier model pool(GPT-5.5 / Claude Opus 4.8 / Gemini 3.1 Pro / GLM-5.2 / Qwen3.7-Max / DeepSeek V4 / Kimi K2.7 / MiniMax M3)是同一天的 frontier 快照——本文告诉我们「这些 frontier model 之间的 ρ 高、β 更高、learned router 拿不到 $G$

2026-06-21:Simon Willison:Claude Fable 5 “relentlessly proactive”/blog/english-translation-2026-06-21/)——Fable 5 在 5.5h 工作流里「自主决定要不要调 sub-agent」「自主决定要不要 fallback」的 proactive 行为与本文 §5「LLM-as-router 100% 路由到 single-best」是同一现象的「行为侧 vs 评测侧」双视角