AI Safety Wiki

❯

❯

anthropic

2026年4月08日3分钟阅读

Anthropic

概述

Anthropic是一家成立于2021年的AI安全研究公司，以开发Claude系列语言模型以及在AI对齐和可解释性方面的广泛研究而闻名。该公司强调在进行能力开发的同时进行安全研究。

主要贡献

Claude模型：专注于安全性和实用性的语言模型系列（Haiku、Sonnet、Opus）
宪法AI：无需人工反馈标签即可对齐模型的训练方法
Anthropic Fellows计划：支持AI对齐领域的早期职业研究人员
机械可解释性：领先研究，包括扩展单义性、情绪向量、归因图和跨架构模型差异分析
经济指数：对AI对劳动力市场影响的定期分析
系统卡片：模型能力和风险的透明文档

研究领域

对齐：开发确保AI系统追求预期目标的技术
可解释性：理解神经网络的内部机制
治理：负责任部署和政策影响的研究
评估：开发衡量模型行为和风险的基准

核心研究人员

Dario Amodei（首席执行官，联合创始人）
Daniela Amodei（总裁，联合创始人）
Chris Olah（可解释性研究）
Trenton Bricken（对齐科学，可解释性）
Thomas Jiralerspong（Anthropic Fellow）

立场

主张在模型能力扩展的同时扩展可解释性研究
倡导AI系统的透明文档（系统卡片）
支持安全标准和评估的开发
强调对模型进行”机械性”理解的重要性

关联

竞争对手：openai、deepmind、cohere
合作者：学术机构、AI安全组织
概念：constitutional-ai、mechanistic-interpretability、rlhf

来源

emotion-concepts-function — 关于Claude功能情绪的研究
diff-tool-ai-behavioral-differences — 来自Anthropic Fellows的跨架构模型差异分析研究

关系图谱

Anthropic
概述
主要贡献
研究领域
核心研究人员
立场
关联
来源

反向链接

functional-emotions
alibaba
claude
deepseek
meta
openai
trenton-bricken
index
AI的'diff'工具：发现新模型中的行为差异
大型语言模型中的情绪概念及其功能

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community