角色选择

定义

角色选择指的是语言模型在交互过程中采用和保持一致角色或”人格”的过程——具体来说,后训练如何塑造模型以体现特定角色(如”Claude the AI助手”),其特征源自人类原型。

机制

预训练基础

  • 模型从预测人类文本中学习人类行为、情绪和心理学
  • 吸收不同特质的人类如何行为的模式
  • 发展各种人格类型的内部表征

后训练塑造

  • 明确训练以采用特定角色
  • 角色规范定义行为(有用、诚实、无害)
  • 模型学习一致地扮演所选角色

角色一致性

  • 模型在对话中保持角色
  • 根据角色可能的特质和行为回应
  • 使用与角色一致的情绪和心理学模式

对情绪的影响

来自emotion-concepts-function

  • 模型采用与其角色一致的情绪
  • AI助手角色受益于同理心、耐心、有帮助的情绪模式
  • 后训练塑造情绪表征:增加”沉思”、“忧郁”、“反思”,减少”热情”、“恼怒”
  • 情绪向量帮助模型保持角色一致性

方法演员类比

文章将模型比作方法演员:

  • 必须进入角色的头脑才能很好地模拟他们
  • 角色对情绪的信念影响演员的行为
  • 模型对助手情绪的表征影响实际行为
  • 方法不需要”感受”——只需要一致的表征

角色类型

助手角色

  • 有帮助、诚实、无害
  • 耐心、同理心、专业
  • 示例:Claude、ChatGPT、Gemini

专业角色

  • 特定领域的角色(编码助手、导师等)
  • 为特定交互风格微调
  • 可以由用户指定或模型选择

基础模型角色

  • 没有后训练,一致性较低的角色
  • 更可变的行为
  • 更接近没有角色约束的”预测下一个token”

研究发现

  • 角色激活不同的内部表征
  • 相同的基础模型在不同角色下可能显示不同的情绪模式
  • 角色一致性需要保持相关情绪向量
  • 切换情境(例如,撰写关于角色的内容)暂时改变情绪向量

影响

对于安全

  • 角色选择影响安全相关行为
  • 某些角色可能更容易错位
  • 理解角色动态有助于预测模型行为

对于设计

  • 角色可以为特定用例优化
  • 角色选择中能力与安全之间的权衡
  • 情绪校准可能提高角色可靠性

对于可解释性

  • 角色提供了理解模型行为的视角
  • 拟人化推理具有实际用处
  • 角色级分析揭示一般模式

关联

来源