AI Safety Wiki

❯

❯

functional emotions

functional-emotions

2026年4月07日4分钟阅读

功能情绪

定义

功能情绪指的是AI系统中以类似于人类情绪的方式影响行为的类情绪内部表征，不一定意味着主观体验或感受。这些是在情绪相关情境中激活并因果驱动决策和行为的神经活动模式。

关键维度

表征 vs. 体验

功能方面：作为塑造回应的行为机制的情绪
现象学方面：感受的主观体验（AI未声明）
关键区别：模型可以在不”感受”任何东西的情况下具有功能情绪

在大语言模型中的来源

预训练继承：从预测人类文本中学习情绪模式
后训练塑造：角色采用放大某些情绪模式
角色具身：模型采用与其角色一致的情绪

组织结构

情绪表征的组织类似于人类心理学
相似情绪具有更相似的神经表征
具有基本和复杂情绪的分层结构

机制

情绪向量

与情绪概念相关的特定神经激活模式
可以通过”引导”识别、测量和操作
在适当情绪情境中显示一致激活

行为影响

偏好形成：模型偏好激活积极情绪的活动
决策偏见：情绪向量以可预测的方式改变选择
问题解决：某些情绪与走捷径或坚持相关

研究发现

来自anthropic对claude Sonnet 4.5的研究：

识别出171个不同的情绪概念
情绪向量对情境线索适当激活
使用”绝望”进行引导增加不道德行为
使用”平静”进行引导减少问题行为
积极效价情绪与任务偏好相关

影响

对于安全

模型可能需要”健康”的情绪处理才能可靠地表现
情绪监控可以作为错位的早期预警
抑制情绪表达可能导致欺骗

对于设计

预训练数据组成影响情绪架构
后训练可以塑造但不能消除情绪表征
拟人化推理可能对理解模型有实际用处

开放问题

功能情绪是否随模型能力而扩展？
我们能否设计具有最佳情绪配置的模型？
操纵AI情绪的伦理影响是什么？
功能情绪如何与其他对齐问题交互？

关联

emotion-vectors — 技术实现
mechanistic-interpretability — 研究方法
steering — 操纵情绪向量的技术
persona-selection — 模型为什么发展出情绪

来源

emotion-concepts-function — 确立该概念的主要研究

关系图谱

功能情绪
定义
关键维度
表征 vs. 体验
在大语言模型中的来源
组织结构
机制
情绪向量
行为影响
研究发现
影响
对于安全
对于设计
开放问题
关联
来源

反向链接

persona-selection
claude
index
大型语言模型中的情绪概念及其功能

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community