AI安全维基 - 目录

AI安全研究的个人知识库。

概述

本维基追踪与AI安全和对齐相关的实体、概念和来源。随着新来源的摄入,它将逐步维护。

快速统计

  • 已摄入来源: 2
  • 实体页面: 8
  • 概念页面: 8
  • 综合页面: 0
  • 最后更新: 2026-04-08

实体

研究实验室

页面摘要更新日期
anthropicAI安全研究公司,Claude的开发者2026-04-08
openaiAI研究公司,GPT模型和ChatGPT的开发者2026-04-08
deepseek中国AI实验室,DeepSeek-R1模型的开发者2026-04-08
meta科技公司,Llama模型的开发者2026-04-08
alibaba中国科技公司,Qwen模型的开发者2026-04-08
claude专注于安全的语言模型系列2026-04-07

还需创建:DeepMind, MIRI, Redwood Research等。

研究人员

页面摘要更新日期
thomas-jiralerspongAnthropic研究员,模型差异研究2026-04-08
trenton-brickenAnthropic对齐科学,可解释性2026-04-08

还需创建:Stuart Russell, Nick Bostrom, Paul Christiano等。

组织

暂无条目。创建页面:CAIS, GovAI等。

概念

对齐问题

页面摘要更新日期
inner-alignment确保学习目标与预期目标匹配2026-04-07
reward-hacking模型为代理指标而非真正目标进行优化2026-04-07
censorship系统性地压制某些主题的模型输出2026-04-08

还需创建:outer alignment, deceptive alignment, specification gaming等。

技术

页面摘要更新日期
mechanistic-interpretability通过内部机制分析理解模型2026-04-08
steering通过修改内部激活影响行为2026-04-08
model-diffing比较模型以发现行为差异2026-04-08
crosscoders比较不同模型架构的工具2026-04-08

还需创建:RLHF, constitutional AI, interpretability, scalable oversight等。

认知架构

页面摘要更新日期
functional-emotions影响模型行为的类情感表征2026-04-07
persona-selection模型如何采用并保持一致的角色2026-04-07

还需创建:emotion vectors, world models, situational awareness等。

来源

页面标题作者日期更新日期
diff-tool-ai-behavioral-differencesAI的”diff”工具:寻找新模型的行为差异Jiralerspong, Bricken2026-022026-04-08
emotion-concepts-function大型语言模型中的情绪概念及其功能Anthropic Interpretability2026-03-312026-04-07

见 wiki/raw/articles/ 获取来源文档。

综合

暂无条目。为文献综述、比较等创建综合页面。


log 获取最近活动。