模型差异分析
定义
模型差异分析是比较两个或多个神经网络模型以识别其内部表征、特征和行为差异的实践。受软件开发中突出代码更改的差异工具的启发,模型差异分析将注意力引向模型中已更改或版本之间不同的特定部分。
关键维度
基础vs微调差异分析
比较基础模型与其微调变体。用于理解:
- 安全微调如何改变模型行为
- 训练期间添加/移除了哪些能力
- 微调期间是否出现令人担忧的行为
跨架构差异分析
比较具有完全不同架构的模型(例如Llama vs. Qwen)。挑战包括:
- 不同的内部”语言” — 表征不是一对一映射
- 当工具强制对齐时误匹配的风险
- 需要专用工具如专用特征交叉编码器(DFC)
方法
标准交叉编码器
训练自编码器在两个模型空间之间映射。限制:难以处理模型独有特征,因为它试图强制匹配。
专用特征交叉编码器(DFC)
具有三个组件的架构:
- 共享字典 — 两个模型都理解的概念的映射
- 模型A专属部分 — 模型A独有的特征
- 模型B专属部分 — 模型B独有的特征
这可以防止误匹配并正确识别独特行为。
应用
安全审计
- 自动标记新模型中的新行为
- 识别审查机制
- 发现隐藏的后门或木马
模型比较
- 比较不同模型系列的能力
- 理解训练中的区域/文化差异
- 识别架构权衡
版本监控
- 跟踪版本发布之间的模型变化
- 捕捉令人担忧的行为转变(例如谄媚)
开放问题
- 规模:如何从数千个标记特征中优先排序?
- 因果性:如何验证发现的特征确实控制行为?(通过steering解决)
- 对抗鲁棒性:训练能否向差异分析工具隐藏特征?
- 前沿适用性:对闭源、最先进模型的有效性未经测试
关联
- mechanistic-interpretability — 模型差异分析底层的研究领域
- crosscoders — 技术实现
- steering — 用于验证发现的特征
- scalable-oversight — 这解决的更广泛安全问题
来源
- diff-tool-ai-behavioral-differences — DFC和跨架构差异分析的介绍