AI Safety Wiki

❯

❯

trenton bricken

trenton-bricken

2026年4月08日1分钟阅读

Trenton Bricken

概述

Trenton Bricken是Anthropic对齐科学团队的研究员。他的研究专注于机械可解释性、特征学习和理解语言模型的内部机制。

主要贡献

共同撰写了使用专用特征交叉编码器进行跨架构模型差异分析的研究
从事Anthropic的可解释性研究项目

研究兴趣

机械可解释性
特征学习和表征
跨架构模型比较

关联

所属机构：anthropic
合作者：thomas-jiralerspong
研究领域：mechanistic-interpretability、model-diffing

来源

diff-tool-ai-behavioral-differences — 关于DFC的共同撰写论文

关系图谱

Trenton Bricken
概述
主要贡献
研究兴趣
关联
来源

反向链接

thomas-jiralerspong
index
AI的'diff'工具：发现新模型中的行为差异

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community