AI安全维基 - 目录
AI安全研究的个人知识库。
概述
本维基追踪与AI安全和对齐相关的实体、概念和来源。随着新来源的摄入,它将逐步维护。
快速统计
- 已摄入来源: 2
- 实体页面: 8
- 概念页面: 8
- 综合页面: 0
- 最后更新: 2026-04-08
实体
研究实验室
| 页面 | 摘要 | 更新日期 |
|---|---|---|
| anthropic | AI安全研究公司,Claude的开发者 | 2026-04-08 |
| openai | AI研究公司,GPT模型和ChatGPT的开发者 | 2026-04-08 |
| deepseek | 中国AI实验室,DeepSeek-R1模型的开发者 | 2026-04-08 |
| meta | 科技公司,Llama模型的开发者 | 2026-04-08 |
| alibaba | 中国科技公司,Qwen模型的开发者 | 2026-04-08 |
| claude | 专注于安全的语言模型系列 | 2026-04-07 |
还需创建:DeepMind, MIRI, Redwood Research等。
研究人员
| 页面 | 摘要 | 更新日期 |
|---|---|---|
| thomas-jiralerspong | Anthropic研究员,模型差异研究 | 2026-04-08 |
| trenton-bricken | Anthropic对齐科学,可解释性 | 2026-04-08 |
还需创建:Stuart Russell, Nick Bostrom, Paul Christiano等。
组织
暂无条目。创建页面:CAIS, GovAI等。
概念
对齐问题
| 页面 | 摘要 | 更新日期 |
|---|---|---|
| inner-alignment | 确保学习目标与预期目标匹配 | 2026-04-07 |
| reward-hacking | 模型为代理指标而非真正目标进行优化 | 2026-04-07 |
| censorship | 系统性地压制某些主题的模型输出 | 2026-04-08 |
还需创建:outer alignment, deceptive alignment, specification gaming等。
技术
| 页面 | 摘要 | 更新日期 |
|---|---|---|
| mechanistic-interpretability | 通过内部机制分析理解模型 | 2026-04-08 |
| steering | 通过修改内部激活影响行为 | 2026-04-08 |
| model-diffing | 比较模型以发现行为差异 | 2026-04-08 |
| crosscoders | 比较不同模型架构的工具 | 2026-04-08 |
还需创建:RLHF, constitutional AI, interpretability, scalable oversight等。
认知架构
| 页面 | 摘要 | 更新日期 |
|---|---|---|
| functional-emotions | 影响模型行为的类情感表征 | 2026-04-07 |
| persona-selection | 模型如何采用并保持一致的角色 | 2026-04-07 |
还需创建:emotion vectors, world models, situational awareness等。
来源
| 页面 | 标题 | 作者 | 日期 | 更新日期 |
|---|---|---|---|---|
| diff-tool-ai-behavioral-differences | AI的”diff”工具:寻找新模型的行为差异 | Jiralerspong, Bricken | 2026-02 | 2026-04-08 |
| emotion-concepts-function | 大型语言模型中的情绪概念及其功能 | Anthropic Interpretability | 2026-03-31 | 2026-04-07 |
见 wiki/raw/articles/ 获取来源文档。
综合
暂无条目。为文献综述、比较等创建综合页面。
见 log 获取最近活动。