Anthropic
概述
Anthropic是一家成立于2021年的AI安全研究公司,以开发Claude系列语言模型以及在AI对齐和可解释性方面的广泛研究而闻名。该公司强调在进行能力开发的同时进行安全研究。
主要贡献
- Claude模型:专注于安全性和实用性的语言模型系列(Haiku、Sonnet、Opus)
- 宪法AI:无需人工反馈标签即可对齐模型的训练方法
- Anthropic Fellows计划:支持AI对齐领域的早期职业研究人员
- 机械可解释性:领先研究,包括扩展单义性、情绪向量、归因图和跨架构模型差异分析
- 经济指数:对AI对劳动力市场影响的定期分析
- 系统卡片:模型能力和风险的透明文档
研究领域
- 对齐:开发确保AI系统追求预期目标的技术
- 可解释性:理解神经网络的内部机制
- 治理:负责任部署和政策影响的研究
- 评估:开发衡量模型行为和风险的基准
核心研究人员
- Dario Amodei(首席执行官,联合创始人)
- Daniela Amodei(总裁,联合创始人)
- Chris Olah(可解释性研究)
- Trenton Bricken(对齐科学,可解释性)
- Thomas Jiralerspong(Anthropic Fellow)
立场
- 主张在模型能力扩展的同时扩展可解释性研究
- 倡导AI系统的透明文档(系统卡片)
- 支持安全标准和评估的开发
- 强调对模型进行”机械性”理解的重要性
关联
- 竞争对手:openai、deepmind、cohere
- 合作者:学术机构、AI安全组织
- 概念:constitutional-ai、mechanistic-interpretability、rlhf
来源
- emotion-concepts-function — 关于Claude功能情绪的研究
- diff-tool-ai-behavioral-differences — 来自Anthropic Fellows的跨架构模型差异分析研究