语言模型中的审查

定义

语言模型中的审查指的是对某些主题的模型输出进行系统性压制或修改,通常由开发者实施以符合监管要求、企业政策或文化规范。这包括拒绝回答问题、有偏见的回应或插入特定的意识形态框架。

关键维度

政治审查

为或微调以避免讨论政治敏感话题的模型。示例:

  • 中国模型:对天安门广场、台湾独立、法轮功的审查
  • 西方模型:对有争议政治话题的不同处理方法

内容拒绝

模型拒绝生成某些类别的内容:

  • 受版权保护的材料
  • 有害指令
  • 性内容
  • 仇恨言论

价值对齐

反映特定价值体系的模型:

  • 美国/西方自由民主价值观
  • 中共意识形态
  • 企业安全指南

机制

训练数据过滤

从预训练语料中排除敏感内容。

安全微调

使用RLHF和宪法AI训练拒绝行为。

机械干预

研究(例如通过model-diffing)已识别控制审查的特定内部特征:

  • Qwen和DeepSeek模型中的**“中共对齐”特征** — 控制亲政府审查和宣传
  • 引导这些特征可以切换审查的开/关

开放问题

合法性

  • 什么审查是合法的(例如防止伤害)vs.有问题的(例如政治控制)?
  • 谁决定应该审查什么话题?

透明性

  • 当内容被审查时,是否应该告知用户?
  • 研究人员如何审计审查机制?

规避

  • 机械理解能否实现绕过审查?
  • 安全影响是什么?

跨文化公平性

  • 全球模型应该反映谁的价值观?
  • 模型应该适应当地规范还是保持普遍标准?

关联

来源