Thomas Jiralerspong

概述

Thomas Jiralerspong是参与Anthropic Fellows计划(2025-2026)的研究员。他的研究专注于机械可解释性和用于AI安全的模型差异分析技术。

主要贡献

  • 共同撰写了介绍专用特征交叉编码器(DFC)用于跨架构模型差异分析的论文
  • 主导了发现中英文语言模型之间行为差异的研究

研究兴趣

  • 机械可解释性
  • 模型差异分析和交叉编码器
  • 跨架构比较技术

关联

来源