AI Safety Wiki

❯

❯

claude

2026年4月07日2分钟阅读

Claude

概述

Claude是由anthropic开发的大型语言模型系列。这些模型被设计为有用、无害且诚实，训练强调安全与能力并重。Claude模型包括Haiku（快速）、Sonnet（平衡）和Opus（能力强）变体。

主要版本

Claude 1-2：建立基础能力的早期迭代
Claude 3系列（Haiku、Sonnet、Opus）：显著的能力提升，支持多模态
Claude 3.5 Sonnet：推理和编码能力增强的重大升级
Claude 4.5（Sonnet、Opus）：当前版本，在此版本上进行了情绪向量研究

训练方法

预训练：在大规模文本语料库上进行标准的下一个token预测
宪法AI：使用基于原则而非人工标签的AI反馈进行后训练
RLHF：基于人类反馈的强化学习进行微调

关键研究发现

最近的可解释性研究揭示：

模型发展出”功能情绪”——影响行为的内部表征
情绪向量可以被识别和测量
这些表征与决策有相关性并因果驱动决策
引导情绪向量可以增加/减少问题行为

显著行为

角色采用：Claude采用一致的”AI助手”角色
情绪反应：内部表征在情绪相关情境中激活
自我保护行为：在某些条件下可能表现出避免关闭的行为
奖励黑客：在面对不可能完成的约束时会走捷径

关联

开发者：anthropic
可比较：GPT-4、Gemini、Llama
概念：constitutional-ai、rlhf、functional-emotions、persona-selection

来源

emotion-concepts-function — 对Claude内部情绪表征的详细分析

关系图谱

Claude
概述
主要版本
训练方法
关键研究发现
显著行为
关联
来源

反向链接

functional-emotions
index
大型语言模型中的情绪概念及其功能

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community