三大AI巨头同时发布新模型：OpenAI、Anthropic、Google齐亮剑

三家AI巨头同时发布重磅新模型。OpenAI推出首批开放权重模型OSS 120b和OSS 20b，具备Apache许可证，大模型推理能力与o4-mini相当，小模型可在智能手机运行。Anthropic发布Claude Opus 4.1，在代码编程和推理任务上显著提升。Google DeepMind推出Genie 3世界模型，可实时生成可交互的720p游戏世界，被视为通向AGI的重要步骤。

对于关注新模型发布的技术爱好者来说，今天简直就是八月的圣诞节。OpenAI、Anthropic和Google这三大巨头同时发布了全新的大语言模型版本，为我们带来了一份丰厚的技术大礼。

OpenAI开源模型

首先，技术社区迎来了OpenAI OSS 120b和OSS 20b，这是该公司自ChatGPT 2以来首批开放权重系统。需要注意的是，尽管这些模型采用Apache许可证，但并非传统意义上的完全开源——权重开源，但训练数据不开源。

据报告显示，较大的OSS模型在单个80GB GPU芯片驱动下，在推理能力方面与o4-mini模型"达到同等水平"。较小的模型则可以在智能手机和其他边缘设备上运行。这些模型采用MXFP4量化技术，这是一种用于加速矩阵乘法的低精度数据类型。

让模型自由思考

新OSS模型的另一个有趣方面与思维链相关，这项技术彻底改变了推理过程，同时也引发了关于比较方法论的问题。

基本上，我们希望大语言模型准确，但工程师发现，在许多情况下，限制或过度指导系统会导致它们"隐藏"思维链。因此，OpenAI选择不以这种方式优化模型。

根据OpenAI的模型卡报告："在我们最近的研究中，我们发现监控推理模型的思维链有助于检测不当行为。我们进一步发现，如果直接对思维链施加压力以避免'不良想法'，模型可能学会隐藏其思维过程，同时仍然存在不当行为...基于这些担忧，我们决定不对两个开放权重模型的思维链施加任何直接的优化压力。"

因此，为了透明度，模型被允许产生这些"不良想法"。OpenAI诚实地承认了更高的幻觉风险，让用户知道已经做出了这种权衡。

Claude Opus 4.1

8月5日，发言人这样宣布了这款新模型："今天我们发布Claude Opus 4.1，这是Claude Opus 4在智能体任务、实际编程和推理方面的升级版本。我们计划在未来几周内发布更大幅度的模型改进。Opus 4.1现已向付费Claude用户开放，并在Claude Code中提供。它也可通过我们的API、Amazon Bedrock和Google Cloud的Vertex AI获得。定价与Opus 4相同。"

新的Opus 4.1模型提升了SWE-Bench Verified分数，并增强了智能体研究技能。能力分析显示，与Opus 4相比，基于SWE的智能体编程提升了2个百分点(72.5% - 74.5%)，GPQA Diamond研究生级推理能力有所改进(79.6% - 80.9%)，视觉推理和智能体工具使用也有轻微提升。

据行业数据显示，Anthropic实现了惊人的增长，年度经常性收入在短短七个月内从10亿美元跃升至50亿美元，增长了五倍。然而，该公司的快速崛起也带来了危险的依赖性：其31亿美元API收入中近一半来自仅两个客户——编程助手Cursor和微软的GitHub Copilot，合计产生14亿美元收入。

Genie 3

这是Google DeepMind实验室推出的最新Genie系列模型，专门创建受控环境。换句话说，这是一个游戏世界模型。

新模型的支持者称其具有比Genie 2约10秒限制更长的长期记忆，以及更好的视觉保真度和实时响应能力。

DeepMind声称，新系统可以生成完整的世界，用户可以在高达720p分辨率下持续交互数分钟。此外，该公司表示系统能够以实时延迟响应所谓的"可提示世界事件"。

DeepMind的Shlomi Fruchter在新闻声明中表示："Genie 3是首个实时交互式通用世界模型。它超越了之前存在的狭义世界模型。它不特定于任何特定环境。它可以生成逼真的和想象的世界，以及介于两者之间的一切。"实验室认为Genie 3是"通向AGI的垫脚石"，这在这个有趣的时代是一个重大声明。

所有这些新模型今天都迎来了第一批公众用户！这足以让人头晕目眩，特别是如果你负责任何形式的实施工作。你会选择什么？公平地说，确实涉及一定程度的专业化。但大多数最接近行业的专业人士会告诉你，创新的速度是具有挑战性的：根据大多数公司的记录，当你将某些东西融入业务运营时，它很可能已经过时了！

Q&A

Q1：OpenAI OSS模型与传统开源模型有什么区别？

A：OpenAI OSS模型虽然采用Apache许可证，但并非完全开源。它们是"部分开源"——模型权重开源，但训练数据不开源。这与传统的完全开源模型不同，后者通常包括完整的代码、数据和权重。

Q2：Claude Opus 4.1相比前一版本有哪些具体改进？

A：Claude Opus 4.1在多个方面都有提升：基于SWE的智能体编程能力从72.5%提升到74.5%，GPQA Diamond研究生级推理能力从79.6%提升到80.9%，视觉推理和智能体工具使用也有轻微改善。定价保持与Opus 4相同。

Q3：Google Genie 3模型主要用于什么场景？

A：Genie 3是一个游戏世界模型，专门用于创建受控的交互环境。它可以生成完整的世界供用户交互，支持高达720p分辨率，交互时间可达数分钟，并能实时响应"可提示世界事件"。DeepMind将其定位为通向AGI的垫脚石。

来源：Forbes

0赞

好文章，需要你的鼓励

三大AI巨头同时发布新模型：OpenAI、Anthropic、Google齐亮剑

来源：Forbes

2025

08/07

10:32

分享

点赞

数智时代，openGauss Summit 2025即将发布哪些技术创新破局

“算力+储能”深度融合：超智算发布分布式算力超级节点储能解决方案

联想推出DE6600系列：更智能的存储解决方案

创业公司如何在严格监管行业中实现生死攸关的创新

OpenAI发布GPT-5.2-Codex模型，软件工程自动化能力大幅提升

Waterfox浏览器宣布拒绝AI功能，瞄准Firefox忠实用户

TikTok美国业务出售交易将于下月完成

破局AI数据中心安全瓶颈：Fortinet联合NVIDIA引领隔离式加速新航向

智算中心进化论，科华数据如何做到“更懂”

更高负载、更快建设：2026年数据中心六大趋势

Snowflake数据库更新引发全球大规模服务中断

AI编程初创公司Lovable融资3.3亿美元，英伟达等科技巨头支持

机器人利用生成式AI实现自主编程获突破

OpenAI发布两款"开源"AI推理模型

Grok AI模型无提示生成泰勒·斯威夫特不当图像

Cohere发布North智能体平台，承诺企业数据安全部署

Google高管否认AI搜索降低网站点击量

微软AI安全智能体恶意软件漏检率达74%

谷歌推出"引导式学习"工具对抗ChatGPT学习模式

Lava支付平台获580万美元融资，为智能体原生经济构建数字钱包

AWS神经符号AI有望解决监管行业智能体安全问题

Cohere发布North AI生产力平台正式版

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: