Anthropic

概述

Anthropic是一家成立于2021年的AI安全研究公司,以开发Claude系列语言模型以及在AI对齐和可解释性方面的广泛研究而闻名。该公司强调在进行能力开发的同时进行安全研究。

主要贡献

  • Claude模型:专注于安全性和实用性的语言模型系列(Haiku、Sonnet、Opus)
  • 宪法AI:无需人工反馈标签即可对齐模型的训练方法
  • Anthropic Fellows计划:支持AI对齐领域的早期职业研究人员
  • 机械可解释性:领先研究,包括扩展单义性、情绪向量、归因图和跨架构模型差异分析
  • 经济指数:对AI对劳动力市场影响的定期分析
  • 系统卡片:模型能力和风险的透明文档

研究领域

  • 对齐:开发确保AI系统追求预期目标的技术
  • 可解释性:理解神经网络的内部机制
  • 治理:负责任部署和政策影响的研究
  • 评估:开发衡量模型行为和风险的基准

核心研究人员

  • Dario Amodei(首席执行官,联合创始人)
  • Daniela Amodei(总裁,联合创始人)
  • Chris Olah(可解释性研究)
  • Trenton Bricken(对齐科学,可解释性)
  • Thomas Jiralerspong(Anthropic Fellow)

立场

  • 主张在模型能力扩展的同时扩展可解释性研究
  • 倡导AI系统的透明文档(系统卡片)
  • 支持安全标准和评估的开发
  • 强调对模型进行”机械性”理解的重要性

关联

来源