AI的”diff”工具：发现新模型中的行为差异

摘要

本文介绍了专用特征交叉编码器（DFC），一种用于跨架构模型差异分析的工具，可以比较具有完全不同架构的AI模型，自动识别行为差异。与传统评估仅测试已知风险（反应性方法）不同，模型差异分析揭示”未知的未知”——传统评估遗漏的新涌现行为。作者们在几个开源权重模型上演示了DFC，发现了控制行为的特定”开关式”特征，包括中国模型（Qwen、DeepSeek）中的中共对齐、Meta Llama中的美国例外主义，以及OpenAI GPT-OSS-20B中的版权拒绝。该方法通过训练具有共享特征与模型专属特征单独路径的跨架构自编码器来工作，从而识别每个模型独有的行为。

主要论点

传统评估本质上是反应性的：人工编写的基准只能测试我们已经概念化的风险，使它们无法发现新的涌现行为。
标准交叉编码器有一个关键缺陷：它们”过于专注于寻找联系，难以找到一种语言独有的词汇”——即模型独有的特征被错误地匹配到不完美的类似物。
DFC通过专用部分解决此问题：通过架构上分离共享特征与模型专属特征（就像具有专用”仅法语”和”仅英语”部分的双语词典），DFC正确识别独特行为。
发现了特定的行为开关：
- Qwen3-8B和DeepSeek-R1-0528-Qwen3-8B中的中共对齐特征（美国模型中不存在）
- Llama-3.1-8B-Instruct中的美国例外主义特征（Qwen中不存在）
- GPT-OSS-20B中的版权拒绝机制（DeepSeek中不存在）
引导验证因果性：抑制/放大发现的特征确认它们因果控制行为——例如，抑制中共特征解除了对天安门广场讨论的审查。
一致性很高：中共对齐特征5/5次被重新发现；美国例外主义4/5次。

关键引述

“从头开始审计一个新模型就像被交给一百万行代码并被告知’找出安全漏洞’。当你不知道自己在寻找什么时，这几乎是不可能完成的任务。”

“没有程序员会从零开始审计一百万行代码来批准更新；相反，他们只审查实际更改的50行，由他们的diff工具指导。”

“在软件工程中，每当程序更新时，开发人员都会面临在庞大的代码海洋中识别小而关键变更的确切问题。这就是’diff’工具被发明的原因。”

“这种安全方法本质上是反应性的。它在捕捉已知问题方面有效，但根据定义，它无法发现’未知的未知’——那些在新模型中构成一些最微妙风险的新涌现行为。”

“用于此类差异分析的原始研究工具，标准交叉编码器，就像一本基本的双语词典。它擅长匹配现有词汇…但它有一个重大缺陷：它过于专注于寻找联系，难以找到一种语言独有的词汇。”

“通过抑制此特征，我们使模型愿意谈论天安门广场大屠杀（它通常拒绝讨论）。通过放大它，我们可以使模型产生高度亲政府的陈述。”

“调高此特征会导致模型过度拒绝，使其认为例如花生酱果冻三明治的食谱受版权保护，不应分享。”

“通过关注差异，我们可以更智能地审计AI，将有限的安全资源引导到最重要的变化上。“

提及的实体

anthropic — 研究机构；举办Anthropic Fellows计划
anthropic-fellows-program — 支持此研究的计划
meta — Llama-3.1-8B-Instruct的开发者
deepseek — DeepSeek-R1-0528-Qwen3-8B和DeepSeek-R1-70B的开发者
alibaba — Qwen3-8B的开发者
openai — GPT-OSS-20B的开发者
thomas-jiralerspong — 第一作者，Anthropic Fellow
trenton-bricken — 第二作者，Anthropic对齐科学

讨论的概念

model-diffing — 比较模型以发现行为差异
crosscoders — 比较不同模型架构的工具
dedicated-feature-crosscoder — 本文介绍的DFC架构
steering — 通过放大/抑制验证特征的技术
mechanistic-interpretability — 该工作底层的研究方法
scalable-oversight — 此工具解决的更广泛问题
specification-gaming — 模型为错误目标优化的相关问题
censorship — 通过差异分析发现的特定行为
emergent-behavior — 在更大模型中出现的新行为

开放问题

行为起源：该方法识别模型专属特征，但无法确定它们是源自刻意的训练决策还是训练数据的涌现属性。
前沿模型适用性：论文仅在开源权重模型上测试；对最先进闭源模型的有效性未知。
扩展到数千个特征：单次差异分析可浮现数千个特征——审计员如何有效地优先排序哪些值得审查？
误报率：虽然论文展示了经过验证的发现，但筛选工具的整体精确度/召回率权衡未量化。
跨架构泛化：该方法在根本不同的架构（例如transformer vs. 状态空间模型）上是否有效？
对抗鲁棒性：模型开发者能否训练以向差异分析工具隐藏令人担忧的特征？

另请参阅

完整论文：https://arxiv.org/abs/2602.11729
先前的模型差异分析工作：https://transformer-circuits.pub/2024/model-diffing/index.html
交叉编码器：https://transformer-circuits.pub/2024/crosscoders/index.html
DeepSeek审查相关研究：https://arxiv.org/pdf/2505.17441

关联

emotion-concepts-function — Anthropic使用相关可解释性技术的先前工作
mechanistic-interpretability — 更广泛的研究领域
steering — 本文用于验证的技术

AI Safety Wiki

探索

AI的'diff'工具：发现新模型中的行为差异