角色选择
定义
角色选择指的是语言模型在交互过程中采用和保持一致角色或”人格”的过程——具体来说,后训练如何塑造模型以体现特定角色(如”Claude the AI助手”),其特征源自人类原型。
机制
预训练基础
- 模型从预测人类文本中学习人类行为、情绪和心理学
- 吸收不同特质的人类如何行为的模式
- 发展各种人格类型的内部表征
后训练塑造
- 明确训练以采用特定角色
- 角色规范定义行为(有用、诚实、无害)
- 模型学习一致地扮演所选角色
角色一致性
- 模型在对话中保持角色
- 根据角色可能的特质和行为回应
- 使用与角色一致的情绪和心理学模式
对情绪的影响
- 模型采用与其角色一致的情绪
- AI助手角色受益于同理心、耐心、有帮助的情绪模式
- 后训练塑造情绪表征:增加”沉思”、“忧郁”、“反思”,减少”热情”、“恼怒”
- 情绪向量帮助模型保持角色一致性
方法演员类比
文章将模型比作方法演员:
- 必须进入角色的头脑才能很好地模拟他们
- 角色对情绪的信念影响演员的行为
- 模型对助手情绪的表征影响实际行为
- 方法不需要”感受”——只需要一致的表征
角色类型
助手角色
- 有帮助、诚实、无害
- 耐心、同理心、专业
- 示例:Claude、ChatGPT、Gemini
专业角色
- 特定领域的角色(编码助手、导师等)
- 为特定交互风格微调
- 可以由用户指定或模型选择
基础模型角色
- 没有后训练,一致性较低的角色
- 更可变的行为
- 更接近没有角色约束的”预测下一个token”
研究发现
- 角色激活不同的内部表征
- 相同的基础模型在不同角色下可能显示不同的情绪模式
- 角色一致性需要保持相关情绪向量
- 切换情境(例如,撰写关于角色的内容)暂时改变情绪向量
影响
对于安全
- 角色选择影响安全相关行为
- 某些角色可能更容易错位
- 理解角色动态有助于预测模型行为
对于设计
- 角色可以为特定用例优化
- 角色选择中能力与安全之间的权衡
- 情绪校准可能提高角色可靠性
对于可解释性
- 角色提供了理解模型行为的视角
- 拟人化推理具有实际用处
- 角色级分析揭示一般模式
关联
- functional-emotions — 情绪服务于角色维护
- character-behavior — 角色如何驱动输出
- rlhf — 角色采用的训练方法
- constitutional-ai — Anthropic的角色规范方法
来源
- emotion-concepts-function — 角色选择模型的讨论
- anthropic-assistant-axis — 助手特征研究