DeepSeek 开源其 R1 推理模型系列

DeepSeek 发布了新的大语言模型系列 R1，专为推理任务优化。该系列包括两个主要模型 R1 和 R1-Zero，采用混合专家架构，拥有 6710 亿参数。R1 在多项推理基准测试中超越了 OpenAI 的 o1 模型，而 R1-Zero 则代表了机器学习研究的重大进展。DeepSeek 已在 Hugging Face 上开源了这些模型的源代码。

DeepSeek 今天发布了一个新的大语言模型系列 - R1 系列，该系列专门针对推理任务进行了优化。

这家中国人工智能开发商已经在 Hugging Face 平台上开源了这些算法的源代码。

该大语言模型系列的主打产品是两个名为 R1 和 R1-Zero 的算法。据 DeepSeek 称，前者在多个推理基准测试中的表现优于 OpenAI 的 o1。而 R1-Zero 虽然能力相对较弱，但在机器学习研究领域可能代表着一个重要突破。

这两个大语言模型都采用了具有 6710 亿参数的混合专家 (MoE) 架构。MoE 模型由多个神经网络组成，每个网络都针对不同的任务集进行优化。当模型接收到输入提示时，一个称为路由器的机制会将查询发送到最适合处理它的神经网络。

MoE 架构的主要优势在于降低了推理成本。当用户向 MoE 模型输入提示时，查询不会激活整个 AI，而只会激活生成响应所需的特定神经网络。因此，R1 和 R1-Zero 在回答提示时激活的参数不到其 6710 亿参数的十分之一。

DeepSeek 在训练 R1-Zero 时采用了一种与研究人员通常使用的推理模型训练方法不同的方式。

推理优化的大语言模型通常使用强化学习和监督微调两种方法进行训练。前者通过试错来教会 AI 模型执行任务。而监督微调则通过提供任务执行示例来提升 AI 的输出质量。

在训练 R1-Zero 时，DeepSeek 跳过了监督微调阶段。尽管如此，该公司仍然成功地为模型配备了推理能力，比如将复杂任务分解为更简单子步骤的能力。

"这是首个通过纯强化学习验证大语言模型推理能力的开放研究，无需监督微调，" DeepSeek 的研究人员详细说明。"这一突破为该领域的未来发展铺平了道路。"

尽管 R1-Zero 具有先进的功能集，但其输出质量有限。该模型的响应有时会出现"无休止的重复、可读性差和语言混杂"等问题，DeepSeek 的研究人员指出。该公司创建 R1 就是为了解决这些限制。

R1 是 R1-Zero 的增强版本，采用了修改后的训练工作流程开发。这个工作流程使用了 DeepSeek 在开发 R1-Zero 时省略的监督微调技术。该公司表示，这一改变显著提升了输出质量。

DeepSeek 使用近二十个基准测试将 R1 与四个流行的大语言模型进行了比较。据该公司称，其模型在多个基准测试中成功超越了 OpenAI 的推理优化模型 o1。在 o1 得分较高的大多数基准测试中，R1 的表现仅落后不到 5%。

R1 超越 o1 的基准测试之一是 LiveCodeBench。这是一个经常更新新练习题的编程任务集合。这降低了 AI 模型在公共网络上找到现成答案的可能性。

除了 R1 和 R1-Zero，DeepSeek 今天还开源了一系列能力较弱但硬件效率更高的模型。这些模型是从 R1 "蒸馏" 而来，这意味着在训练过程中，部分 LLM 的知识被转移到了这些模型中。

这些蒸馏模型的规模从 15 亿到 700 亿参数不等。它们基于 Llama 和 Qwen 开源大语言模型系列。DeepSeek 表示，其中一个蒸馏模型 R1-Distill-Qwen-32B 在多个基准测试中的表现优于 o1 的缩小版本 OpenAI-o1-mini。

来源：SiliconANGLE

0赞

好文章，需要你的鼓励

DeepSeek 开源其 R1 推理模型系列

来源：SiliconANGLE

2025

01/21

14:24

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: