交叉编码器
定义
交叉编码器是旨在学习两个不同模型内部表征之间映射的神经网络架构。它们通过将概念从一个模型的”语言”翻译到另一个模型来实现模型比较,类似于在语言之间映射单词的双语词典。
机制
基本架构
交叉编码器通常是同时在两个模型激活上训练的稀疏自编码器。它学习:
- 一个共享潜空间,其中两个模型的等效概念映射到相同的表征
- 返回每个模型原生表征的重建路径
训练
- 从两个模型馈送配对激活(在相同输入上)
- 训练重建两个原始表征
- 稀疏约束鼓励学习离散、可解释的特征
标准交叉编码器的局限性
误匹配问题
标准交叉编码器难以处理一个模型独有的特征。当遇到模型专属概念时:
- 它们试图强制与另一模型中最近的可用概念进行不完美的匹配
- 这错误地发出”这不是新的;我们以前见过”的信号
- 重要的新行为被遗漏
文献中的示例
就像将法语”dépaysement”(身处异国他乡的感觉)翻译为”迷失方向”的双语词典一样——概念在翻译中丢失了。
专用特征交叉编码器(DFC)
一种解决误匹配问题的改进架构:
三部分设计
- 共享字典 — 共同概念的映射
- 模型A专属 — 只有模型A有的概念
- 模型B专属 — 只有模型B有的概念
优势
- 正确识别独特特征而不强制匹配
- 能够发现”未知的未知”
- 对安全审计具有更高召回率
应用
- 模型差异分析:发现行为差异
- 知识转移:在模型之间转移能力
- 可解释性:理解不同模型如何表征概念
- 监控:跟踪训练期间特征如何演变
关联
- model-diffing — 交叉编码器的主要应用
- mechanistic-interpretability — 研究领域
- sparse-autoencoders — 相关技术