Trenton Bricken
概述
Trenton Bricken是Anthropic对齐科学团队的研究员。他的研究专注于机械可解释性、特征学习和理解语言模型的内部机制。
主要贡献
- 共同撰写了使用专用特征交叉编码器进行跨架构模型差异分析的研究
- 从事Anthropic的可解释性研究项目
研究兴趣
- 机械可解释性
- 特征学习和表征
- 跨架构模型比较
关联
来源
- diff-tool-ai-behavioral-differences — 关于DFC的共同撰写论文
Trenton Bricken是Anthropic对齐科学团队的研究员。他的研究专注于机械可解释性、特征学习和理解语言模型的内部机制。