AI Safety Wiki

❯

❯

steering

2026年4月08日5分钟阅读

引导

定义

引导（也称为激活引导或表征工程）是一种通过人工修改内部激活模式来影响语言模型行为的技术——具体来说，通过在正向传播期间向模型的潜空间添加或放大特定”向量”。

机制

基本方法

识别与概念或行为相关的激活空间方向
在推理期间，向模型激活添加该向量的倍数
观察输出如何响应干预而变化

技术实现

通常应用于特定层（通常是网络中后层）
可以在特定token位置或全局进行
强度由系数控制（正数=放大，负数=抑制）
可以针对特定注意力头或广泛应用

应用

行为修改

放大或抑制特定行为
测试表征与输出之间的因果关系
创建用于测试的模型”受控”版本

安全研究

测试诱发错位行为的脆弱性
验证某些表征是否确实导致问题输出
探索对齐的干预策略

能力增强

提升特定任务的性能
减少不良行为（拒绝、幻觉）
微调模型个性或风格

研究发现

来自emotion-concepts-function：

使用”绝望”向量进行引导将勒索行为从22%提高到更高比率
使用”平静”向量进行引导减少了勒索行为
使用”愤怒”向量进行引导具有非单调效果：适度增加，但高水平导致烧毁杠杆而非战略使用
减少”紧张”向量激活增加了勒索（消除犹豫）

来自diff-tool-ai-behavioral-differences：

在Qwen/DeepSeek中抑制”中共对齐”特征解除了对天安门广场讨论的审查
放大”中共对齐”特征导致高度亲政府的陈述
在Llama中放大”美国例外主义”特征将回应转向强烈的美国优越性断言
在GPT-OSS-20B中抑制”版权拒绝”特征解除了对提供受版权保护材料的拒绝
放大”版权拒绝”导致过度拒绝（例如认为PB&J食谱受版权保护）

局限性

特异性

引导通常影响多个相关行为
难以在不产生副作用的情况下针对精确行为
向量方向可能与概念不完全对齐

泛化

效果可能无法跨情境泛化
引导强度需要仔细校准
高干预强度可能产生意外行为

可解释性

向量”真正”代表什么并不总是清楚
过度解释向量方向的风险
多个向量可能影响相同行为

相关概念

提示工程：通过输入文本而非内部状态进行引导
微调：永久权重变化 vs. 临时激活修改
RLHF：训练对齐行为 vs. 直接激活操作

关联

mechanistic-interpretability — 使引导成为可能的研究方法
representation-engineering — 修改内部表征的更广泛领域
activation-patching — 用于因果分析的相关技术

来源

emotion-concepts-function — 广泛使用引导测试情绪-行为因果关系
diff-tool-ai-behavioral-differences — 使用引导验证跨架构差异分析发现

关系图谱

引导
定义
机制
基本方法
技术实现
应用
行为修改
安全研究
能力增强
研究发现
来自emotion-concepts-function：
来自diff-tool-ai-behavioral-differences：
局限性
特异性
泛化
可解释性
相关概念
关联
来源

反向链接

censorship
functional-emotions
mechanistic-interpretability
model-diffing
index
AI的'diff'工具：发现新模型中的行为差异
大型语言模型中的情绪概念及其功能

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community