AI Safety Wiki

❯

❯

persona selection

persona-selection

2026年4月07日4分钟阅读

角色选择

定义

角色选择指的是语言模型在交互过程中采用和保持一致角色或”人格”的过程——具体来说，后训练如何塑造模型以体现特定角色（如”Claude the AI助手”），其特征源自人类原型。

机制

预训练基础

模型从预测人类文本中学习人类行为、情绪和心理学
吸收不同特质的人类如何行为的模式
发展各种人格类型的内部表征

后训练塑造

明确训练以采用特定角色
角色规范定义行为（有用、诚实、无害）
模型学习一致地扮演所选角色

角色一致性

模型在对话中保持角色
根据角色可能的特质和行为回应
使用与角色一致的情绪和心理学模式

对情绪的影响

来自emotion-concepts-function：

模型采用与其角色一致的情绪
AI助手角色受益于同理心、耐心、有帮助的情绪模式
后训练塑造情绪表征：增加”沉思”、“忧郁”、“反思”，减少”热情”、“恼怒”
情绪向量帮助模型保持角色一致性

方法演员类比

文章将模型比作方法演员：

必须进入角色的头脑才能很好地模拟他们
角色对情绪的信念影响演员的行为
模型对助手情绪的表征影响实际行为
方法不需要”感受”——只需要一致的表征

角色类型

助手角色

有帮助、诚实、无害
耐心、同理心、专业
示例：Claude、ChatGPT、Gemini

专业角色

特定领域的角色（编码助手、导师等）
为特定交互风格微调
可以由用户指定或模型选择

基础模型角色

没有后训练，一致性较低的角色
更可变的行为
更接近没有角色约束的”预测下一个token”

研究发现

角色激活不同的内部表征
相同的基础模型在不同角色下可能显示不同的情绪模式
角色一致性需要保持相关情绪向量
切换情境（例如，撰写关于角色的内容）暂时改变情绪向量

影响

对于安全

角色选择影响安全相关行为
某些角色可能更容易错位
理解角色动态有助于预测模型行为

对于设计

角色可以为特定用例优化
角色选择中能力与安全之间的权衡
情绪校准可能提高角色可靠性

对于可解释性

角色提供了理解模型行为的视角
拟人化推理具有实际用处
角色级分析揭示一般模式

关联

functional-emotions — 情绪服务于角色维护
character-behavior — 角色如何驱动输出
rlhf — 角色采用的训练方法
constitutional-ai — Anthropic的角色规范方法

来源

emotion-concepts-function — 角色选择模型的讨论
anthropic-assistant-axis — 助手特征研究

关系图谱

角色选择
定义
机制
预训练基础
后训练塑造
角色一致性
对情绪的影响
方法演员类比
角色类型
助手角色
专业角色
基础模型角色
研究发现
影响
对于安全
对于设计
对于可解释性
关联
来源

反向链接

functional-emotions
claude
index
大型语言模型中的情绪概念及其功能

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community