Thomas Jiralerspong
概述
Thomas Jiralerspong是参与Anthropic Fellows计划(2025-2026)的研究员。他的研究专注于机械可解释性和用于AI安全的模型差异分析技术。
主要贡献
- 共同撰写了介绍专用特征交叉编码器(DFC)用于跨架构模型差异分析的论文
- 主导了发现中英文语言模型之间行为差异的研究
研究兴趣
- 机械可解释性
- 模型差异分析和交叉编码器
- 跨架构比较技术
关联
来源
- diff-tool-ai-behavioral-differences — 介绍DFC的主要论文