DeepSeek 声称其"推理"模型在某些基准测试上超越 OpenAI 的 o1

中国人工智能实验室深度思考发布了其所谓的推理模型DeepSeek-R1的开放版本，声称在某些人工智能基准测试中表现与OpenAI的o1相当。R1在AI开发平台Hugging Face上以MIT许可证提供，意味着可以在商业上无限制使用。深度思考表示，R1在AIME、MATH-500和SWE-bench Verified基准测试中超越了o1。AIME使用其他模型来评估模型的性能，而MATH-500是一个包含文字问题的集合。SWE-bench Verified则专注于编程任务。

中国 AI 实验室 DeepSeek 发布了其所谓推理模型 DeepSeek-R1 的开源版本，声称在某些 AI 基准测试上表现与 OpenAI 的 o1 相当。

R1 在 AI 开发平台 Hugging Face 上以 MIT 许可证发布，这意味着它可以不受限制地用于商业用途。据 DeepSeek 称，R1 在 AIME、MATH-500 和 SWE-bench Verified 基准测试上超越了 o1。AIME 使用其他模型来评估模型的性能，而 MATH-500 是一系列应用题集合。SWE-bench Verified 则专注于编程任务。

作为一个推理模型，R1 能够有效地进行自我事实核查，这有助于避免通常让模型陷入困境的一些陷阱。与典型的非推理模型相比，推理模型需要更长的时间（通常多几秒到几分钟）来得出解决方案。好处是它们在物理、科学和数学等领域往往更可靠。

DeepSeek 在一份技术报告中透露，R1 包含 6710 亿个参数。参数大致对应于模型的问题解决能力，具有更多参数的模型通常比具有较少参数的模型表现更好。

确实，6710 亿参数规模庞大，但 DeepSeek 同时发布了 R1 的"精简"版本，参数规模从 15 亿到 700 亿不等。最小的版本可以在笔记本电脑上运行。至于完整版 R1，虽然需要更强大的硬件，但可以通过 DeepSeek 的 API 使用，价格比 OpenAI 的 o1 便宜 90%-95%。

Hugging Face 的 CEO Clem Delangue 周一在 X 平台上发帖称，平台上的开发者已经创建了超过 500 个 R1 的"衍生"模型，总下载量达到 250 万次——是官方 R1 下载量的五倍。

R1 也有其局限性。作为一个中国模型，它需要接受中国互联网监管机构的审查，以确保其回应"体现社会主义核心价值观"。例如，R1 不会回答关于天安门广场或台湾自治的问题。

许多中国 AI 系统，包括其他推理模型，都会回避可能引起国内监管机构不满的话题，如对习近平政权的推测。

R1 的发布恰逢即将卸任的拜登政府提出对中国企业实施更严格的 AI 技术出口规则和限制。中国公司已经被禁止购买先进的 AI 芯片，如果新规则按原文生效，公司将面临更严格的半导体技术和模型限制。

在上周的一份政策文件中，OpenAI 敦促美国政府支持美国 AI 的发展，以免中国模型在能力上赶上或超越它们。在接受 The Information 采访时，OpenAI 的政策副总裁 Chris Lehane 特别指出 DeepSeek 的母公司 High Flyer Capital Management 是一个特别值得关注的机构。

到目前为止，至少有三家中国实验室——DeepSeek、阿里巴巴和 Moonshot AI 旗下的 Kimi——声称他们的模型可以与 o1 匹敌。（值得注意的是，DeepSeek 是最早的——它在 11 月底宣布了 R1 的预览版。）乔治梅森大学的 AI 研究员 Dean Ball 在 X 平台上发帖称，这一趋势表明中国 AI 实验室将继续保持"快速跟随者"的角色。

Ball 写道："DeepSeek 精简模型的出色表现意味着非常强大的推理器将继续广泛传播，并可以在本地硬件上运行，远离任何自上而下的控制机制的监视。"

来源：Techcrunch

0赞

好文章，需要你的鼓励

DeepSeek 声称其"推理"模型在某些基准测试上超越 OpenAI 的 o1

来源：Techcrunch

2025

03/06

14:34

分享

点赞

联想集团混合式AI实践获权威肯定，CES期间获评“全球科技引领企业”

CES上杨元庆首谈AGI，碾压人类的叙事不会让AI更聪明

CES 2026 | 重大更新：NVIDIA DGX Spark开启“云边端”模式

Gmail新增Gemini驱动AI功能，智能优先级和摘要来袭

研究发现商业AI模型可完整还原《哈利·波特》原著内容

Razer在2026年CES展会推出全息AI伴侣项目

CES 2026：英伟达新架构亮相，AMD发布新芯片，Razer推出AI奇异产品

通过舞蹈认识LimX Dynamics的人形机器人Oli

谷歌为Gmail搜索引入AI概览功能并推出实验性AI智能收件箱

DuRoBo Krono：搭载AI助手的智能手机尺寸电子阅读器

OpenAI推出ChatGPT Health医疗问答功能

Anthropic寻求3500亿美元估值融资100亿美元

AI 时代的数据中心：未来十年规划展望

AI 编程助手拒绝写代码，建议用户自学编程

超越 ChatGPT：通往通用人工智能的 5 大挑战

Oracle 在 AI 主流化方面具有重大优势

Snap 推出基于自研生成模型的 AI 视频滤镜

Google 的 Gemma 3：一款支持 128K 上下文窗口的开源单 GPU AI 模型

精灵宝可梦 GO 迎来新东家，而 Niantic 正借助 AI 和 AR 重塑地图业务

Google 的 Gemini 2.0 Flash 原生多模态 AI 图像生成功能给人留下深刻印象

Google 推出两款全新 AI 机器人控制模型

Nvidia 赢得了 AI 训练竞赛，但推理市场仍未尘埃落定

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: