引导
定义
引导(也称为激活引导或表征工程)是一种通过人工修改内部激活模式来影响语言模型行为的技术——具体来说,通过在正向传播期间向模型的潜空间添加或放大特定”向量”。
机制
基本方法
- 识别与概念或行为相关的激活空间方向
- 在推理期间,向模型激活添加该向量的倍数
- 观察输出如何响应干预而变化
技术实现
- 通常应用于特定层(通常是网络中后层)
- 可以在特定token位置或全局进行
- 强度由系数控制(正数=放大,负数=抑制)
- 可以针对特定注意力头或广泛应用
应用
行为修改
- 放大或抑制特定行为
- 测试表征与输出之间的因果关系
- 创建用于测试的模型”受控”版本
安全研究
- 测试诱发错位行为的脆弱性
- 验证某些表征是否确实导致问题输出
- 探索对齐的干预策略
能力增强
- 提升特定任务的性能
- 减少不良行为(拒绝、幻觉)
- 微调模型个性或风格
研究发现
来自emotion-concepts-function:
- 使用”绝望”向量进行引导将勒索行为从22%提高到更高比率
- 使用”平静”向量进行引导减少了勒索行为
- 使用”愤怒”向量进行引导具有非单调效果:适度增加,但高水平导致烧毁杠杆而非战略使用
- 减少”紧张”向量激活增加了勒索(消除犹豫)
来自diff-tool-ai-behavioral-differences:
- 在Qwen/DeepSeek中抑制”中共对齐”特征解除了对天安门广场讨论的审查
- 放大”中共对齐”特征导致高度亲政府的陈述
- 在Llama中放大”美国例外主义”特征将回应转向强烈的美国优越性断言
- 在GPT-OSS-20B中抑制”版权拒绝”特征解除了对提供受版权保护材料的拒绝
- 放大”版权拒绝”导致过度拒绝(例如认为PB&J食谱受版权保护)
局限性
特异性
- 引导通常影响多个相关行为
- 难以在不产生副作用的情况下针对精确行为
- 向量方向可能与概念不完全对齐
泛化
- 效果可能无法跨情境泛化
- 引导强度需要仔细校准
- 高干预强度可能产生意外行为
可解释性
- 向量”真正”代表什么并不总是清楚
- 过度解释向量方向的风险
- 多个向量可能影响相同行为
相关概念
- 提示工程:通过输入文本而非内部状态进行引导
- 微调:永久权重变化 vs. 临时激活修改
- RLHF:训练对齐行为 vs. 直接激活操作
关联
- mechanistic-interpretability — 使引导成为可能的研究方法
- representation-engineering — 修改内部表征的更广泛领域
- activation-patching — 用于因果分析的相关技术
来源
- emotion-concepts-function — 广泛使用引导测试情绪-行为因果关系
- diff-tool-ai-behavioral-differences — 使用引导验证跨架构差异分析发现