AI Safety Wiki

❯

❯

mechanistic interpretability

mechanistic-interpretability

2026年4月08日4分钟阅读

机械可解释性

定义

机械可解释性是通过分析神经网络内部机制来理解神经网络正在做什么的研究方法——产生模型行为的特定计算、回路和表征。它旨在逆向工程AI系统，而不是将它们视为黑箱。

关键方法

特征提取

识别单个神经元或激活空间方向代表什么
单义性：寻找编码单个可解释概念的神经元
多义性：理解神经元如何编码多个不相关的概念
稀疏自编码器：从密集表征中提取可解释特征的工具

回路追踪

映射通过网络计算路径
归因图：可视化哪些组件对哪些输出有贡献
因果中介：确定模型的哪些部分导致特定行为
干预研究：通过修改内部状态测试假设

表征分析

研究概念如何在激活空间中编码
向量算术：在潜空间中寻找有意义的方向
探测：训练分类器解码表征
可视化：创建内部状态的可解释视图

应用

理解行为

解释模型为什么做出特定预测
识别偏见或错误的来源
描述模型如何表征抽象概念

安全研究

检测欺骗性或错位行为
寻找”木马”行为或后门
监控令人担忧的内部模式

引导和控制

激活引导：通过调整内部状态修改输出
表征工程：设计期望的内部属性
行为干预：通过内部操作改变特定行为

研究项目

Anthropic的工作

扩展单义性：从大型模型中提取可解释特征
归因图：受生物学启发的回路可视化
情绪向量：理解Claude中的情绪表征
跨架构模型差异分析：比较不同模型以发现行为差异

其他实验室

DeepMind：Tracr、自动回路发现
OpenAI：稀疏自编码器研究
学术界：各种探测和解释方法

挑战

规模

现代模型有数万亿参数
完全理解可能不可行
需要可扩展的分析方法

解释的诠释性

人类可理解的解释可能丢失重要细节
拟人化或过度解释的风险
同一机制的多种有效描述

泛化

发现可能无法跨模型架构转移
难以区分普遍模式与特殊模式
需要跨模型验证

关联

interpretability — 包括非机械方法的更广泛领域
steering — 机械理解的应用
feature-learning — 机械可解释性研究的内容
model-diffing — 比较模型行为的技术
crosscoders — 比较不同模型架构的工具

来源

emotion-concepts-function — 机械可解释性实践的示例
diff-tool-ai-behavioral-differences — 跨架构模型差异分析研究
scaling-monosemanticity — 特征提取方法论
attribution-graphs — 回路可视化技术

关系图谱

机械可解释性
定义
关键方法
特征提取
回路追踪
表征分析
应用
理解行为
安全研究
引导和控制
研究项目
Anthropic的工作
其他实验室
挑战
规模
解释的诠释性
泛化
关联
来源

反向链接

crosscoders
functional-emotions
inner-alignment
model-diffing
steering
anthropic
thomas-jiralerspong
trenton-bricken
index
AI的'diff'工具：发现新模型中的行为差异
大型语言模型中的情绪概念及其功能

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community