DeepSeek 声称其"推理"模型在某些基准测试上超越 OpenAI 的 o1

中国人工智能实验室深度思考发布了其所谓的推理模型DeepSeek-R1的开放版本，声称在某些人工智能基准测试中表现与OpenAI的o1相当。R1在AI开发平台Hugging Face上以MIT许可证提供，意味着可以在商业上无限制使用。深度思考表示，R1在AIME、MATH-500和SWE-bench Verified基准测试中超越了o1。AIME使用其他模型来评估模型的性能，而MATH-500是一个包含文字问题的集合。SWE-bench Verified则专注于编程任务。

中国 AI 实验室 DeepSeek 发布了其所谓推理模型 DeepSeek-R1 的开源版本，声称在某些 AI 基准测试上表现与 OpenAI 的 o1 相当。

R1 在 AI 开发平台 Hugging Face 上以 MIT 许可证发布，这意味着它可以不受限制地用于商业用途。据 DeepSeek 称，R1 在 AIME、MATH-500 和 SWE-bench Verified 基准测试上超越了 o1。AIME 使用其他模型来评估模型的性能，而 MATH-500 是一系列应用题集合。SWE-bench Verified 则专注于编程任务。

作为一个推理模型，R1 能够有效地进行自我事实核查，这有助于避免通常让模型陷入困境的一些陷阱。与典型的非推理模型相比，推理模型需要更长的时间（通常多几秒到几分钟）来得出解决方案。好处是它们在物理、科学和数学等领域往往更可靠。

DeepSeek 在一份技术报告中透露，R1 包含 6710 亿个参数。参数大致对应于模型的问题解决能力，具有更多参数的模型通常比具有较少参数的模型表现更好。

确实，6710 亿参数规模庞大，但 DeepSeek 同时发布了 R1 的"精简"版本，参数规模从 15 亿到 700 亿不等。最小的版本可以在笔记本电脑上运行。至于完整版 R1，虽然需要更强大的硬件，但可以通过 DeepSeek 的 API 使用，价格比 OpenAI 的 o1 便宜 90%-95%。

Hugging Face 的 CEO Clem Delangue 周一在 X 平台上发帖称，平台上的开发者已经创建了超过 500 个 R1 的"衍生"模型，总下载量达到 250 万次——是官方 R1 下载量的五倍。

R1 也有其局限性。作为一个中国模型，它需要接受中国互联网监管机构的审查，以确保其回应"体现社会主义核心价值观"。例如，R1 不会回答关于天安门广场或台湾自治的问题。

许多中国 AI 系统，包括其他推理模型，都会回避可能引起国内监管机构不满的话题，如对习近平政权的推测。

R1 的发布恰逢即将卸任的拜登政府提出对中国企业实施更严格的 AI 技术出口规则和限制。中国公司已经被禁止购买先进的 AI 芯片，如果新规则按原文生效，公司将面临更严格的半导体技术和模型限制。

在上周的一份政策文件中，OpenAI 敦促美国政府支持美国 AI 的发展，以免中国模型在能力上赶上或超越它们。在接受 The Information 采访时，OpenAI 的政策副总裁 Chris Lehane 特别指出 DeepSeek 的母公司 High Flyer Capital Management 是一个特别值得关注的机构。

到目前为止，至少有三家中国实验室——DeepSeek、阿里巴巴和 Moonshot AI 旗下的 Kimi——声称他们的模型可以与 o1 匹敌。（值得注意的是，DeepSeek 是最早的——它在 11 月底宣布了 R1 的预览版。）乔治梅森大学的 AI 研究员 Dean Ball 在 X 平台上发帖称，这一趋势表明中国 AI 实验室将继续保持"快速跟随者"的角色。

Ball 写道："DeepSeek 精简模型的出色表现意味着非常强大的推理器将继续广泛传播，并可以在本地硬件上运行，远离任何自上而下的控制机制的监视。"

来源：Techcrunch

0赞

好文章，需要你的鼓励

DeepSeek 声称其"推理"模型在某些基准测试上超越 OpenAI 的 o1

来源：Techcrunch

2025

03/06

14:34

分享

点赞

月之暗面Kimi K2技术报告：解读万亿参数的智能体模型（含K2与DeepSeek R1对比）

第三届安富利汽车生态圈峰会盛大启幕，双城联动激发智慧出行产业新动能

在代理式AI中构建信任

国内首个通过主任医师评测的大模型，已在夸克AI搜索上线

CPC2501M固态继电器集成电路，集成了用于可视门铃的铃声旁路功能

紧凑型PTS647轻触开关系列增加了降噪和防尘功能

Colt推出超低延迟服务瞄准加密货币交易市场

PTC 携手 Makersite 加速可持续产品开发

研究显示：谷歌AI概览功能导致搜索点击率大幅下降

AI驱动的预测性维护技术日益受到关注

韩国AI芯片新星FuriosaAI凭借低功耗设计赢得LG青睐

iOS 18 beta 4发布：Liquid Glass界面调整与AI新闻摘要功能回归

AI 时代的数据中心：未来十年规划展望

AI 编程助手拒绝写代码，建议用户自学编程

超越 ChatGPT：通往通用人工智能的 5 大挑战

Oracle 在 AI 主流化方面具有重大优势

Snap 推出基于自研生成模型的 AI 视频滤镜

Google 的 Gemma 3：一款支持 128K 上下文窗口的开源单 GPU AI 模型

精灵宝可梦 GO 迎来新东家，而 Niantic 正借助 AI 和 AR 重塑地图业务

Google 的 Gemini 2.0 Flash 原生多模态 AI 图像生成功能给人留下深刻印象

Google 推出两款全新 AI 机器人控制模型

Nvidia 赢得了 AI 训练竞赛，但推理市场仍未尘埃落定

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: