AI Safety Wiki

❯

❯

thomas jiralerspong

thomas-jiralerspong

2026年4月08日1分钟阅读

Thomas Jiralerspong

概述

Thomas Jiralerspong是参与Anthropic Fellows计划（2025-2026）的研究员。他的研究专注于机械可解释性和用于AI安全的模型差异分析技术。

主要贡献

共同撰写了介绍专用特征交叉编码器（DFC）用于跨架构模型差异分析的论文
主导了发现中英文语言模型之间行为差异的研究

研究兴趣

机械可解释性
模型差异分析和交叉编码器
跨架构比较技术

关联

所属机构：anthropic-fellows-program
合作者：trenton-bricken
研究领域：mechanistic-interpretability、model-diffing

来源

diff-tool-ai-behavioral-differences — 介绍DFC的主要论文

关系图谱

Thomas Jiralerspong
概述
主要贡献
研究兴趣
关联
来源

反向链接

trenton-bricken
index
AI的'diff'工具：发现新模型中的行为差异

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community