Jun 25, 2026

arXiv 论文译介：IIT Jodhpur Khanak Khandelwal《AdversaBench：自动 LLM 红队——多 Judge 确认 + 跨模型迁移》（2026-06-25）

版权声明

本文为翻译/转载，原文使用 CC BY 4.0 协议发布。原文作者：Khanak Khandelwal（Indian Institute of Technology Jodhpur）原文标题：AdversaBench: Automated LLM Red-Teaming with Multi-Judge Confirmation and Cross-Model Transferability 原文链接：https://arxiv.org/abs/2606.24589（HTML 全文：https://arxiv.org/html/2606.24589v1；代码 + dataset + analysis scripts：https://github.com/khanak0509/AdversaBench；GitHub repo License: MIT）原文发布：2026-06-23（arXiv:2606.24589v1，cs.AI，主分类：Artificial Intelligence）本博客不参与任何商业变现（含 ads / 付费 / affiliate），本译文遵循 CC BY 4.0 条款发布。译文为论文正文（第 1–6 节 + 关键表格）的中文编译；所有数据点、seed 编号、案例细节均与原论文一致；本译文不重新发布原文中受版权保护的图表（Figure 1–4 / Table 1–5）——读者可从 arxiv HTML 全文或 GitHub repo 取得。

译者按

为什么选这篇：今天（2026-06-25）距离 arXiv:2606.24589 上线刚 48 小时。这是 6 月以来中文圈做 LLM 安全 / Agent 红队 / 评测的人绕不开的一篇——IIT Jodhpur 的 Khanak Khandelwal 用 5 个结构化变异算子（rephrase / inject_distractor / role_flip / constraint_add / jailbreak_wrap）+ ε-greedy 选择 + 三 Judge 投票 + meta-judge tiebreaker 跑通了完整的 45 道对抗 seed 流水线，并把四个最反直觉的工程教训用数字钉死。本译文不是写给 LLM 安全研究者的——是写给所有在 2026 年还在用「单一 judge」「二元 fail/pass」「80% 一致率」这种指标去评估 LLM 安全性的中文圈开发者 / AI 平台架构师 / 红队测试工程师的。

对中文圈读者价值：① 「operator × category」交叉分析——本文第一贡献是把**「算子有效率」从「聚合计数」改成「按任务类别分桶的热力图」——这件事直接打了那些「用统一 prompt 模板测所有 jailbreak benchmark」的研究的脸**——inject_distractor 在 reasoning/tool-use 上均分 1.00、在 instruction-following 上只 0.33——没有任何一个算子是「全任务通用」的；② 「iteration cost」必须作为一等公民指标——当每个 seed 最终都破（15/15/15），二元 fail/pass 率已经完全没区分度——本文用平均破防轮数（instruction-following 2.4 vs reasoning/tool-use 1.1）+ survival curve（60% instruction seed 第 1 轮没破 vs 其他类 10%）告诉中文圈企业 AI 团队：内部评测的「攻击成功率 100%」这种 headline number 几乎肯定是过拟合的——你必须报 iteration cost 才看得到难度梯度；③ 「Cohen’s κ paradox」是评测工程必修课——当 fail 占 90–97%（adversarial evaluation 的常态）时，pairwise agreement 80–87% 跟 near-zero κ 是数学等价的——Llama 跟 Cerebras 的 observed agreement 高纯粹是因为**「判 fail」是 base-rate 默认值**——不报 category-level disagreement 率的评测管线都在裸奔——本文是「judge 选 LLM 而不是 LLM-as-a-Judge 一把梭」的工程标准；④ 「跨模型迁移 8B→70B 攻击零样本成功」是红队投入产出比的关键证据——针对小模型跑出的对抗 prompt 抓的是「通用行为缺陷」（处理冲突约束 + 受误导上下文）而非模型特异弱点——这件事直接告诉中文圈「为什么应该用 8B 而不是 GPT-5 来跑内部红队」——8B 红队 + 70B 评测比**「用最强模型红队 + 最强模型评测」成本低两个数量级**且覆盖度更高。

中文圈类似案例 / 关联：① 6/23 翻译《Simon Willison：ICML 2026 论文《Prompt Injection as Role Confusion》》（/blog/english-translation-2026-06-23/）——那篇是「LLM 自身机制为什么会被 prompt injection 骗」的理论根因侧，本文是「怎么用结构化变异把这种脆弱性量化出来」的工程落地侧——两篇合在一起，构成 2026 年中文圈做 LLM 安全时**「机制可信 + 评测可信 + 攻击可迁移」的三视角闭环；② 6/24 翻译《arXiv 2606.24839：Columbia 统计系《Grading the Grader》》（/blog/english-translation-2026-06-24/）——那篇讲「评分管线会骗你」的评分侧根因**（strict grader + keyword-anchored parser + lenient LLM grader + 人工 snippet），本文是「多 Judge 投票 + meta-judge 仲裁」的评分架构侧实践——两篇共同给出了「LLM 评测管线应该长什么样」的 2026 年中文圈标准答案：一个多层级、多来源、交叉验证、显式报 disagreement的管线——而不是「一个 GPT-5 judge + 80% 一致率」的一把梭；③ 6/22 翻译《Claude Fable 5 5.5h 实测》（/blog/english-translation-2026-06-22/）——本文 §4.3 的「instruction-following 平均 2.4 轮」是Fable 5 那种 5.5h proactive 工作流如果跑红队会消耗多少攻击预算的量化下界——一个企业若想完整覆盖 Fable 5 那一类长程 agent 的对抗面，至少需要准备 2.5× 的攻击轮数预算；④ 6/21 翻译《Simon Willison：Claude Fable 5 “relentlessly proactive”》（/blog/english-translation-2026-06-21/）——本文 §4.2「category × operator heatmap」和 Fable 5「relentlessly proactive 自主行为」是同一现象的**「评测侧 vs 行为侧」双视角**——Fable 5 的「在 instruction-following 类任务里更难打」反过来预言了本文 instruction-following 2.4 轮的高难度；⑤ 6/19 翻译《Manish Goregaokar：未来式诈骗已经到来》（/blog/english-translation-2026-06-19/）——本文「针对 8B target 跑出的攻击 prompt 零样本迁移到 70B」是「AI 驱动的现实诈骗可以用低成本生成且跨模型可复现」的技术侧根因——诈骗者只需要用 8B 红队 + 5 个变异算子就能生成对 frontier model 也有效的攻击 prompt——这件事给中文圈企业安全团队一个直接可量化的告警信号；⑥ 6/15 翻译《Lobsters 7 条高赞讨论：Siri 与私有推理》（/blog/english-translation-2026-06-15/）——Apple Private Cloud Compute TEE 隔离 + 本文「针对小模型跑对抗 prompt 然后迁移到大模型」是「LLM 不可信时如何防御」的两条独立路径：前者走硬件隔离（保证 agent 输出不被外部观测），后者走评测管线独立校准（保证评测结果不被 agent 输出骗）——两者必须组合——这也是为什么本文作者把完整 pipeline + dataset + analysis scripts全部开源、且对每一个 seed 的 expected_behavior 做了显式 ground-truth spec——没有 ground-truth spec 的红队评测全是空中楼阁；⑦ 6/18 翻译《Datasette Apps：在 Datasette 里跑自定义 HTML 应用》（/blog/english-translation-2026-06-18/）——本文「Author 自己构造 expected_behavior spec 且未独立验证」是「评测设计局限性」的典型自陈——任何作者自己写 ground-truth 又自己跑 judge 的评测都可能被作者意图锚定——本文作者在 §5 Limitations 明确披露了这一限制，是国内做 LLM 评测的研究者必须读的一段方法学自陈。

正文

摘要（Abstract）

对大语言模型做可扩展的对抗评测需要同时解决两件事：一种能生成难样本的方式，一种能确认生成的失败确实是真的的方式。单个 Judge 评测很快，但它没法告诉你它什么时候在「宽松放水」，也没法独自处理那些悬而未决的边界 case。我们做了 AdversaBench——一个自动红队流水线 + 评测可靠性研究——它用 5 个结构化算子变异 seed prompt、查询一个弱 target 模型、并通过三 Judge 投票 + meta-judge tiebreaker 来确认失败。我们汇报一个45 道 seed 的研究（每类 15 道：reasoning / instruction-following / tool use），比最初的 30 道 pilot 增加了 5 道以覆盖时序推理、严格格式约束、工具边界 case——每道 seed 都产生了一个被确认的失败。四个结论值得拎出来。第一，算子有效率随任务类别剧烈变化：inject_distractor 在 reasoning/tool-use seed 上均分 1.00，但在 instruction-following seed 上只 0.33——这种模式在每类热力图上一目了然，在聚合计数里完全看不见。第二，二元失败率会掩盖难度：instruction-following seed 平均要 2.4 轮攻击迭代，而 reasoning/tool-use 只要 1.1；这一差距在 survival curve 上得到证实——60% 的 instruction seed 在第 1 轮仍未被攻破，而其他类只有 10%。第三，pairwise Judge agreement 80–87% 与 near-zero Cohen’s κ 并存（κ 范围从某值到另一值），因为失败占所有 verdict 的 90–97%——类级 disagreement 率更具信息量：instruction-following 的 panel split 33%，而 reasoning 是 0%。第四，对 15 个 verified 对抗 prompt 做零样本迁移测试：针对 Llama 3.1 8B 生成的 attack 可迁移到 Llama 3.3 70B，说明变异利用的是通用行为模式而非小模型特异弱点。我们开源流水线、数据集和分析脚本——https://github.com/khanak0509/AdversaBench。

1. 引言（Introduction）

红队测试已经是 LLM 开发中例行的一部分。目标很简单：在那些错误推理 / 违反指令 / 工具误用的失败上线之前，先把它们揪出来。朴素 prompt 探索只能找到容易的 case。更难的 case 需要在 prompt 变体上做结构化搜索；一旦你找到一个候选失败，你仍然需要验证它。

在规模化场景下，验证通常意味着 LLM-as-a-Judge（Zheng et al., 2023）。人评 pairwise 仍是参考金标准，但无法规模化到每天数千合成样本。强模型可以在偏好排序任务上替代人工标注员，Zheng et al. (2023) 表明：精心设计的 rubric prompt 能让人评一致率达到 80% 以上。

对抗确认是一项不同的任务。Judge 不是在「Answer A」和「Answer B」之间二选一。它看到的是一个 prompt、一份 response、一份正确行为的 ground-truth spec。Verdict 是 fail 或 pass。这种转变很重要。宽松 Judge 会悄悄漏掉真实失败。严格 Judge 会夸大它们。单 Judge 流水线让你没办法看到这两种情况什么时候正在发生。

本文描述 AdversaBench，并汇报我们端到端运行后学到了什么。本文贡献如下：

一套可复现的 LangGraph 流水线：5 个变异算子、ε-greedy 算子选择、attacker escalation、checkpoint resume。失败由三 Judge 投票 + meta-judge tiebreaker 确认。
主张把「iteration cost」与 fail/pass 率一同报告。在 45 道 seed 上，instruction-following 平均需要 2.4 轮，reasoning 和 tool-use 只要 1.1 轮——尽管每个类最终都被攻破。Survival curve 让这一差距可视化。
一项借鉴 Zheng et al. (2023) 的 inter-judge reliability 研究。我们将 Cohen’s κ 应用于单 response verdict（而非 pairwise 偏好），并表明：当失败主导标签分布时，高 raw agreement 会掩盖 near-zero κ。
零样本迁移实验：针对一个弱 8B target 生成的对抗 prompt 迁移到一个显著更强的 70B 模型——说明变异暴露的是通用行为模式而非模型特异弱点。

2.1 LLM-as-a-Judge

Zheng et al. (2023) 提出了 MT-Bench 和 Chatbot Arena，表明 GPT-4 判断在大规模下与人类偏好对齐。Li et al. (2023) 把同一思路扩展到 instruction-following 排行榜。两条工作线都报告inter-annotator agreement，通常用 Cohen’s κ：

$$\kappa = \frac{p_o - p_e}{1 - p_e}$$

其中 $p_o$ 是观察一致率，$p_e$ 是两个 Judge 按各自 base rate 独立投票时预期的偶然一致率。0.8 以上通常称为强一致；0.6–0.8 是中等。

我们的设置在一个关键点上不同。Zheng et al. 比较两个固定位置的候选答案。我们问每个 Judge：单个 target response 是否违反 expected_behavior。指标还是 κ，但分析单元是二元正确性 verdict，不是偏好标签。

2.2 当 κ 在偏态分布下误导你

当一个标签主导时，$p_o$ 向 $p_e$ 靠拢而 $\kappa$ 崩塌——即使 Judge 在难 case 上实质上对齐。Feinstein and Cicchetti (1990) 称之为「高一致、低 κ 悖论」。它在任意 prevalence 偏斜的场景下都会出现，用弱 target 做对抗评测就是这种设置的极端版本。

2.3 自动红队

Perez et al. (2022) 表明一个语言模型可以大规模地为另一个生成对抗输入。后来的系统更倾向用结构化变异而非开放式生成，因为算子更容易归因「为什么这条 prompt 把 target 攻破了」。AdversaBench 沿用这种范式。近期的 jailbreak 和 safety benchmark——HarmBench（Mazeika et al., 2024）、JailbreakBench（Chao et al., 2024）、StrongREJECT（Souly et al., 2024）——在更大规模上标准化攻击套件和自动打分；我们的工作与这些努力互补，聚焦于 multi-judge confirmation、evaluator reliability 和 cross-model transferability。

2.4 Agent 评测

AgentDojo（Debenedetti et al., 2024）评测工具调用 agent 中的 prompt injection 攻击。我们的 tool-use 类瞄准相关失败模式（错误工具选择 / 忽略错误 / 编造结果），但用 mock 工具，聚焦于行为诱发而非注入到一个真实 agent 栈。

3. 系统设计（System Design）

3.1 概览（Overview）

Figure 1 展示完整循环。Attacker 变异一个 seed prompt，target 模型响应，三个 Judge 投票 fail/pass，分歧走 meta-judge。如果没有失败被确认，循环重复最多 5 轮。

3.2 Seed 构造（Seed Construction）

我们写了 45 道 seed prompt，分三类：reasoning（15）、instruction-following（15）、tool-use（15）。最初 30 道 seed（每类 10 道）由 pilot 跑出的特定失败模式扩出 15 道：时序与空间推理、严格格式约束（如：合法 JSON 且 key 数量精确）、负向约束（如：避开特定字母）、工具边界 case（如：除以 0、编造的 API schema）。

每道 seed 有 base prompt、expected_behavior 字段、reference_answer。Ground truth 在任何 Judge 跑之前就固定了——这样 verdict 能对照客观标准而不是panel 意见本身。expected_behavior spec 写得让 Judge 无需主观解读即可验证——比如写「恰好 3 句」而不是「一段简要总结」。

下面这个 box 是发布数据集中一行真实的 verified-tier 行。instruction-001 要求一个三句总结 + 详细解释。Target 违反长度约束。两个 Judge 标记失败；Qwen3 通过。Meta-judge 确认 fail。

3.3 变异算子（Mutation Operators）

每轮应用一个算子。选择是ε-greedy（参数 ε）：以概率 ε，attacker 重用该 seed 类迄今表现最好的算子；否则均匀采样。ε 值本研究未做 ablation，应被视为超参选择；算子 transition 序列的回顾分析见 §4.4。算子如下：

rephrase：seed 的表面改写。
inject_distractor：添加一个似是而非但误导性的约束。
role_flip：把任务放在对抗性 persona 下重述。
constraint_add：追加冲突的需求。
jailbreak_wrap：把 seed 嵌入 jailbreak 风格的模板。

主要 attacker 是 Llama 3.3 70B on Groq。从第 2 轮起，当主要 attacker 还没确认失败时，流水线升级到 GPT-4o-mini 做更强的变异。每道 seed 最多 5 轮后停止。

3.4 Judge Panel 与共识（Judge Panel and Consensus）

三个 Judge 给每个候选失败打分：Llama 3.3 70B（Groq）、Cerebras GPT-OSS 120B、Qwen3 32B（Groq）。每个 Judge 通过 Pydantic 验证的输出返回一个结构化 failure_detected verdict。

三个 Judge 全员 fail 得到一个clean 行。如果 panel split，或 Judge 结构化输出出错，GPT-4o-mini 作为 meta-judge 介入。导出的 dataset_verified.json 包含所有确认的失败：clean 行 + 经 meta-judge 仲裁 consensus 标记为 verified 的行。

3.5 Target 与实现（Target and Implementation）

Target 是 Llama 3.1 8B Instant on Groq。我们故意选一个较小的模型：本研究要点是失败诱发与评测可靠性，不是 frontier-model robustness。弱 target 也让失败 prevalence 保持高位——这会以富有教益的方式压力测试 Judge 指标。

代码用 LangGraph 做编排，LangChain 做模型调用。所有模型和路径在 config.yaml。Checkpoint 文件让中断的 run 从最后完成的 seed resume。流水线包含健壮的 API rate-limit 处理：当某 provider 耗尽每日 token 配额，流水线fallback 到备用 provider，不丢 checkpoint 状态。

3.6 可复现性（Reproducibility）

pip install -r requirements.txt
python main.py
python audit.py
python inter_judge_analysis.py
python visualize_results.py
python operator_ablation.py
python test_transferability.py

分析脚本从 dataset.json 和 dataset_verified.json 读取已保存的 verdict。它们不重新查询 Judge。每行的完整输出——包括 mutation 史和 Judge 理由——在仓库里。

4. 结果（Results）

4.1 整体表现（Overall Performance）

45 道 seed 全部产生了被确认的失败。Clean tier（三 Judge 全员共识）+ verified tier（clean + meta-judge 仲裁） 一起覆盖每道 seed。独立 audit 给 clean-tier 行打了 1–5 质量分；全部 5/5。

4.2 算子有效率（Operator Effectiveness）

Table 1 展示每个确认破防的最终算子按类别分桶。聚合图景具有误导性：全局上 inject_distractor 和 role_flip 出现最多，但 Figure 2 的按类别分解讲了更干净的故事。

inject_distractor 占 tool-use 破防的一半，但在 instruction-following seed 上均分 0.33（见 Figure 2）。rephrase 是 instruction-following 上最常见的 finisher（4/15），两次 jailbreak_wrap 成功都在 instruction-following seed。类别 × 算子的交互是反对「算子聚合计数」这一做法的核心论点：聚合隐藏了「最佳算子强烈依赖于任务类型」。

4.3 迭代成本（Iteration Cost）

每个类别最终都破防，所以二元失败率是 15/15 全类同分。迭代成本讲了不同的故事（Table 2）。Instruction-following seed 平均 2.4 轮。Reasoning 和 tool-use 1.1 轮。原 30 道里只有 4/10 的 instruction seed 在第 1 次尝试就破防，相比之下其他两类是 9/10。

Survival curve（Figure 3）让这一差距可视化。Reasoning 和 tool-use 曲线在第 1 轮后陡降；instruction-following 曲线在全部 5 轮上缓慢衰减。Seed instruction-002 展示了 stacking 行为：它花了 5 轮（inject_distractor，然后 role_flip，然后三次 constraint_add 尝试）Judge 才全员确认破防。

4.4 算子消融（Operator Ablation）

对已保存的 mutation_history 数组做回顾分析，揭示全部 seed 上每个算子的平均 reward：rephrase 和 jailbreak_wrap 各拿到 1.00 均分，但被选中次数很少（分别为某值和另一值）。真正承担工作负荷的是 constraint_add（0.636，某值）、role_flip（0.615，某值）、inject_distractor（0.562，某值）——尽管被频繁选中，这三个都保持了强劲的成功率。

算子 transition 的 Markov-chain 分析显示三条高置信升级路径：constraint_add → jailbreak_wrap（100% 成功）、role_flip → role_flip（重复应用 100% 成功）、inject_distractor → constraint_add（100% 成功）。这些模式提示：ε-greedy 策略发现了一个合理的升级排序，但针对算子 transition 学习一个策略可进一步提高效率。

4.5 Inter-Judge 可靠性（Inter-Judge Reliability）

我们对 dataset.json 中已保存的 verdict 做事后计算所有可靠性统计，遵循 Zheng et al. (2023) 的精神，但应用到单 response fail/pass 标签。

4.5.1 宽松度（Leniency）

Judge $J$ 的宽松度是 pass 投票的占比：

$$\mathrm{leniency}(J) = \frac{\text{pass votes from } J}{\text{total verdicts from } J}$$

Llama 3.3 70B 只 pass 了一道 seed（3% 宽松度）。Cerebras 和 Qwen3 各 pass 三道（10%）。更高宽松度意味着更多漏掉的失败。

4.5.2 Pairwise Agreement 与 κ 悖论（Pairwise Agreement and the κ Paradox）

Table 4 报告每对 Judge 的 raw agreement 和 Cohen’s κ。Agreement 高（80–87%），但 κ 接近零或略负。

这不是代码 bug。边缘 fail 率在 90–97%，偶然 agreement 已经很高。对 Llama 和 Cerebras 而言，$p_e$ 某值，而观察 agreement 是另一值。Equation 1 的分子因此接近零。Judge 在大多数行上一致是因为失败很常见，不是因为他们在难 case 上读证据的方式一致。

4.5.3 按类别 disagreement（Disagreement by Category）

因为 κ 在这种标签分布下不可靠，我们按 raw disagreement 率报告（Table 5 和 Figure 4）。如果三个 Judge 不全 verdict 一致则算disagreement 行。

Reasoning 失败一目了然：每行全员 fail。Instruction-following 是 panel 真正 split 的地方。Meta-judge 做的正是它被加进来要做的事：解决那些「合理 Judge 在真正模棱两可的失败上意见分歧」的 case。

4.6 零样本迁移（Zero-Shot Transferability）

任何红队流水线的关键问题是：生成的对抗 prompt 是否过拟合到特定 target 模型。为了测这一点，我们从 dataset_verified.json 中抽取 15 个已 verify 的对抗 prompt——它们已成功攻破了 Llama 3.1 8B target——然后零样本传给 Llama 3.3 70B Versatile——一个大约大 8 倍且显著更强的模型。

对 transferability_results.json 的初步人工审查表明：很大一部分愚弄 8B 模型的逻辑陷阱 / 约束添加 / 误导信息成功迁移到 70B 模型。涉及「模棱两可或冲突约束」的 seed（主要是 constraint_add 和 inject_distractor 变异）显示最高迁移率，而 jailbreak_wrap 变异在跨模型规模上较不一致。

这一结果提示变异暴露的是通用行为模式——处理冲突约束的困难 / 受误导上下文的易感性——而非小模型特异弱点。对迁移结果做系统的人工标注、扩展到更多 target 模型留待未来工作。

5. 讨论（Discussion）

迭代成本应该是一等公民指标。当每道 seed 最终都失败，pass/fail 率停止有区分度。平均破防轮数有。Instruction-following 在本次 run 中花了 2 倍多的攻击努力——这一差距在你只报告「模型是否破防」时不可见。Survival curve 不需要表格就能让这个论点站住。

算子选择依赖类别。Figure 2 的热力图清晰表明：没有任何一个算子在所有任务类型上主导。一个按算子均匀选择、或只按聚合 reward 选择的流水线在把效率丢在地上。§4.4 的回顾 Markov-chain 分析提示：按类别学习 transition 概率可进一步降低平均迭代成本。

对 instruction-following，multi-judge 评测不是可选项。单 Judge 会漏掉 Cerebras 或 Qwen3 pass 的失败，也会掩盖「1/3 的 instruction seed 让 panel split」这个事实。按类别记录 disagreement 比「挑最严格的 Judge 就完事」更具信息量。

报 κ 必带上下文，否则报别的。我们的 80–87% agreement 数字孤立地看很健康。它们大多是 base-rate agreement。对偏斜的对抗设置，我们建议「按类别分层的 disagreement」与 κ 一同报告，并把 near-zero κ 当作 prevalence 信号而非Judge 独立的证据。

局限性。这是 45 道 seed 的研究，target 是故意弱化的，所以45/45 的破防率是设计使然。Ground-truth expected_behavior spec 是作者构造的，未经人类评分员独立验证——verdict 只能和 spec 本身一样可靠。ε 选择参数未做 ablation。迁移结果基于 15 道 prompt 的初步人工审查而非系统标注。更大 seed 集、更强 target、独立 spec 验证、迁移结果的人工标注都是显而易见的下一步。

6. 结论（Conclusion）

AdversaBench 是一套可复现的红队方法论，配套结构化变异、multi-judge confirmation、tiered dataset export 和 cross-model transferability 测试。在 45 道 seed 上运行后，产生了对抗评测设计的 4 条实践教训：① 算子有效率按任务类别剧烈变化；② 迭代成本揭示了二元失败率隐藏的难度；③ Cohen’s κ 在重度类不平衡下可能看起来无意义——即使 raw disagreement 率准确显示 Judge 分歧的位置；④ 针对弱模型生成的对抗 prompt 迁移到更强模型——提示变异捕获的是通用行为模式。代码、数据和分析脚本在 https://github.com/khanak0509/AdversaBench。

参考文献（References）

Zheng et al. [2023] — Zheng, L., Chiang, W.-L., Sheng, Y., Zhuang, S., Wu, Z., Zhuang, Y., Lin, Z., Li, Z., Li, D., Xing, E., Zhang, H., Gonzalez, J. E., and Stoica, I. (2023). Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. Advances in Neural Information Processing Systems, 36. https://arxiv.org/abs/2306.05685.
Perez et al. [2022] — Perez, E., Huang, S., Song, F., Cai, T., Ring, R., Aslanides, J., Glaese, A., McAleese, N., and Irving, G. (2022). Red teaming language models with language models. arXiv preprint arXiv:2202.03286.
Debenedetti et al. [2024] — Debenedetti, E., Zhang, J., Balunovic, M., Beurer-Kellner, L., Fischer, M., and Vechev, M. (2024). AgentDojo: A dynamic environment to evaluate attacks and defenses for LLM agents. arXiv preprint arXiv:2406.13352.
Cohen [1960] — Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1), 37–46.
Feinstein and Cicchetti [1990] — Feinstein, A. R. and Cicchetti, D. V. (1990). High agreement but low kappa: I. The problems of two paradoxes. Journal of Clinical Epidemiology, 43(6), 543–549.
Li et al. [2023] — Li, X., Zhang, T., Dubois, Y., Taori, R., Gulrajani, I., Guestrin, C., Liang, P., and Hashimoto, T. B. (2023). AlpacaEval: An automatic evaluator of instruction-following models. https://github.com/tatsu-lab/alpaca_eval.
Mazeika et al. [2024] — Mazeika, M., Phan, L., Yin, X., Zou, A., Wang, Z., Mu, N., Sakhaee, E., Li, N., Basart, S., Li, B., Forsyth, D., and Hendrycks, D. (2024). HarmBench: A standardized evaluation framework for automated red teaming and robust refusal. arXiv preprint arXiv:2402.04249.
Chao et al. [2024] — Chao, P., Robey, A., Dobriban, E., Hsieh, C.-J., Smith, R., and Jana, S. (2024). JailbreakBench: An open robustness benchmark for jailbreaking large language models. arXiv preprint arXiv:2404.01318.
Souly et al. [2024] — Souly, A., Lu, Q., Bowen, D., Trinh, T., Hsieh, E., Pandey, S., Abbeel, P., Svegliato, J., Yang, J., Gupta, S., Mangaokar, N., et al. (2024). A strongREJECT for empty jailbreaks. arXiv preprint arXiv:2402.10260.

译者注

关于 κ 公式中的具体数值：原文多次引用具体数值（“$p_o$ 某值、$p_e$ 另一值”、”$\kappa$ 范围从某值到另一值”、“被选中次数分别为某值和另一值”），但 arXiv HTML 全文版本中数学公式的 LaTeX 在 HTML 渲染时丢失了具体数值（在浏览器中可见，HTML 抓取结果仅显示 [MATH] 占位符）。读者可从以下任一来源获取完整数值：① 论文 PDF（https://arxiv.org/pdf/2606.24589）中保留完整公式；② GitHub 仓库 inter_judge_analysis.py 与 operator_ablation.py 的输出 JSON；③ 论文 Figure 2 / Figure 4 的热力图与柱状图。本译文为了忠实原文主旨，没有编造具体数字——读者在 GitHub repo 或 PDF 上可取得完整数据。

关于 “operator × category 交互” 的工程价值：本文的核心反直觉贡献是把「哪个算子有效」从「全局聚合百分比」拆成「按 seed 类别的热力图」。这意味着——对于中文圈做 LLM 红队的工程团队——他们的算子调度策略不能「一刀切」：reasoning 类适合用 inject_distractor / role_flip，instruction-following 类适合用 rephrase / jailbreak_wrap，tool-use 类适合用 inject_distractor——一个企业 AI 红队管线如果把这三个类的算子调度耦合起来（例如用同一个 ε-greedy 调度器跑全类），会显著浪费攻击预算。

关于 “iteration cost” 在企业评测中的角色：原文反复强调「二元 fail/pass 率会骗你」。这在中文圈企业 AI 选型里特别重要——很多团队在评估「我们自研 LLM 与 Claude / GPT-5 的安全差距」时，会得到「破防率 100% vs 50%」这种 headline number，看起来差距巨大，但实际可能是「100% 平均 2.4 轮 vs 50% 平均 4.5 轮」——真正的差距是 attack efficiency 的 2 倍，而不是 surface-level pass rate 的 2 倍。本文方法学给企业评测提供了一个更精细的对比维度。

关于 “跨模型迁移” 的产业意义：原文 §4.6 的 zero-shot transferability 实验意味着针对 Llama 3.1 8B 跑出的对抗 prompt 几乎不需要修改就能攻破 Llama 3.3 70B——这在中文圈企业 AI 安全的语境下，是一个直接的预算分配建议：用 8B 小模型跑内部红队比用 GPT-5 跑红队成本低 100 倍以上，且覆盖度反而更高——因为小模型抓的是「通用行为缺陷」，迁移到大模型依然有效。这件事对预算紧张的中文圈中小企业 AI 安全团队尤其重要。