DeepSeek

概述

DeepSeek是一家中国AI研究实验室,开发了DeepSeek系列大语言模型,包括专注于推理的模型如DeepSeek-R1。该组织因开发能够与西方同行竞争的高能力开源权重模型而备受关注。

主要贡献

  • DeepSeek-R1:使用基于RL的方法训练的专注推理的语言模型
  • DeepSeek-R1-0528-Qwen3-8B:基于Qwen3-8B架构的变体
  • 开源权重发布:公开发布竞争性模型,使研究人员能够研究模型内部
  • 成本高效训练:声称以更高效的训练方法实现竞争性结果

立场

  • 生产的模型与政府对敏感话题的立场保持一致
  • 多次独立分析记录了审查行为
  • 在模型能力方面与美国AI实验室竞争

关联

来源