Anthropic 发布 Claude 3.7 Sonnet 模型,向 OpenAI、DeepSeek 及整个 AI 行业发出警示。这个新模型让用户能够前所未有地控制 AI 在生成响应前的"思考"时间。此次发布同时伴随着命令行 AI 编程助手 Claude Code 的推出,标志着 Anthropic 正积极进军企业级 AI 市场,这可能会重塑企业软件开发和工作自动化的方式。
当前形势紧迫。上个月,DeepSeek 推出的 AI 模型以远低于美国系统的成本实现了相当的性能,这一消息震惊科技界,导致英伟达股价下跌 17%,引发了对美国 AI 领导地位的担忧。如今,Anthropic 押注于对 AI 推理的精确控制,而不仅仅是原始速度或成本节约,以此获得竞争优势。
Anthropic 的研究产品管理负责人 Dianne Penn 在接受 VentureBeat 采访时表示:"我们认为推理是 AI 的核心组成部分,而不是需要额外付费才能使用的独立功能。就像人类一样,AI 应该能够同时处理快速响应和复杂思考。对于'现在几点了?'这样的简单问题,它应该立即回答。但对于复杂任务,比如规划一个为期两周的意大利旅行并考虑无麸质饮食需求,它需要更多的处理时间。"
基准测试数据支持 Anthropic 的雄心愿景。在扩展思考模式下,Claude 3.7 Sonnet 在研究生级别推理任务中达到 78.2% 的准确率,挑战 OpenAI 的最新模型并超越 DeepSeek-R1。
在实际应用中的指标更具说服力。该模型在零售导向的工具使用方面得分为 81.2%,在指令遵循方面显著提升 (93.2%) —— 这些都是竞争对手要么表现不佳,要么尚未公布结果的领域。
虽然 DeepSeek 和 OpenAI 在传统数学基准测试中领先,但 Claude 3.7 的统一方法证明,单一模型可以有效地在快速响应和深度分析之间切换,这可能让企业不再需要为不同类型的任务维护多个 AI 系统。
Anthropic 同时推出了 Claude Code,这是一个命令行工具,允许开发者将复杂的工程任务直接委托给 AI。该系统在提交代码更改前需要人工批准,体现了业界对负责任 AI 开发的日益关注。
Penn 还用一个意想不到的例子说明了 AI 能力的巨大进步:"我们一直让不同版本的 Claude 玩宝可梦...这个版本已经到达了枯叶市,抓到了多只宝可梦,甚至会刷级升级。它能针对对手选择合适的宝可梦对战。"
对企业客户来说,这可能意味着不必再维护多个用于不同任务的 AI 系统,而是部署一个更强大的统一解决方案。接下来的几个月将揭示 Anthropic 在统一 AI 推理上的押注是否会重塑企业市场,或仅仅成为行业快速发展中的又一次尝试。
好文章,需要你的鼓励
迪士尼与OpenAI达成三年合作协议,授权200多个迪士尼、皮克斯、漫威和星球大战角色用于Sora视频和ChatGPT图像生成。迪士尼将向OpenAI投资10亿美元股权,成为其主要客户。协议明确不包含真人演员肖像和声音授权,仅限动画版本角色。同时迪士尼向谷歌发出停止侵权通知,要求停止基于其IP生成内容。这标志着娱乐巨头积极拥抱AI技术变革。
字节跳动等机构联合发布GAR技术,让AI能同时理解图像的全局和局部信息,实现对多个区域间复杂关系的准确分析。该技术通过RoI对齐特征重放方法,在保持全局视野的同时提取精确细节,在多项测试中表现出色,甚至在某些指标上超越了体积更大的模型,为AI视觉理解能力带来重要突破。
OpenAI推出GPT-5.2模型,专为专业工作场景优化。新模型在创建电子表格、制作演示文稿、编写代码等方面表现更佳。GPT-5.2 Thinking版本在多项基准测试中超越前代产品,数学问题获得满分,事实性回答错误率降低30%。该发布被视为OpenAI对谷歌Gemini 3 Pro的"红色警报"回应,旨在重新夺回AI领域领先地位。
Inclusion AI团队推出首个开源万亿参数思维模型Ring-1T,通过IcePop、C3PO++和ASystem三项核心技术突破,解决了超大规模强化学习训练的稳定性和效率难题。该模型在AIME-2025获得93.4分,IMO-2025达到银牌水平,CodeForces获得2088分,展现出卓越的数学推理和编程能力,为AI推理能力发展树立了新的里程碑。