Anthropic 的 Claude 3.7 Sonnet 瞄准 OpenAI 和 DeepSeek,开启 AI 新一轮较量

Anthropic 推出 Claude 3.7 Sonnet 模型,为用户提供前所未有的 AI 思考时间控制能力,并发布 Claude Code 命令行编码助手。这标志着 Anthropic 积极进军企业 AI 市场,可能重塑企业软件开发和工作自动化方式。新模型在延长思考模式下在研究生级推理任务上达到 78.2% 的准确率,挑战 OpenAI 最新模型并超越 DeepSeek-R1,展现出强大的竞争力。

Anthropic 发布 Claude 3.7 Sonnet 模型,向 OpenAI、DeepSeek 及整个 AI 行业发出警示。这个新模型让用户能够前所未有地控制 AI 在生成响应前的"思考"时间。此次发布同时伴随着命令行 AI 编程助手 Claude Code 的推出,标志着 Anthropic 正积极进军企业级 AI 市场,这可能会重塑企业软件开发和工作自动化的方式。

当前形势紧迫。上个月,DeepSeek 推出的 AI 模型以远低于美国系统的成本实现了相当的性能,这一消息震惊科技界,导致英伟达股价下跌 17%,引发了对美国 AI 领导地位的担忧。如今,Anthropic 押注于对 AI 推理的精确控制,而不仅仅是原始速度或成本节约,以此获得竞争优势。

Anthropic 的研究产品管理负责人 Dianne Penn 在接受 VentureBeat 采访时表示:"我们认为推理是 AI 的核心组成部分,而不是需要额外付费才能使用的独立功能。就像人类一样,AI 应该能够同时处理快速响应和复杂思考。对于'现在几点了?'这样的简单问题,它应该立即回答。但对于复杂任务,比如规划一个为期两周的意大利旅行并考虑无麸质饮食需求,它需要更多的处理时间。"

基准测试数据支持 Anthropic 的雄心愿景。在扩展思考模式下,Claude 3.7 Sonnet 在研究生级别推理任务中达到 78.2% 的准确率,挑战 OpenAI 的最新模型并超越 DeepSeek-R1。

在实际应用中的指标更具说服力。该模型在零售导向的工具使用方面得分为 81.2%,在指令遵循方面显著提升 (93.2%) —— 这些都是竞争对手要么表现不佳,要么尚未公布结果的领域。

虽然 DeepSeek 和 OpenAI 在传统数学基准测试中领先,但 Claude 3.7 的统一方法证明,单一模型可以有效地在快速响应和深度分析之间切换,这可能让企业不再需要为不同类型的任务维护多个 AI 系统。

Anthropic 同时推出了 Claude Code,这是一个命令行工具,允许开发者将复杂的工程任务直接委托给 AI。该系统在提交代码更改前需要人工批准,体现了业界对负责任 AI 开发的日益关注。

Penn 还用一个意想不到的例子说明了 AI 能力的巨大进步:"我们一直让不同版本的 Claude 玩宝可梦...这个版本已经到达了枯叶市,抓到了多只宝可梦,甚至会刷级升级。它能针对对手选择合适的宝可梦对战。"

对企业客户来说,这可能意味着不必再维护多个用于不同任务的 AI 系统,而是部署一个更强大的统一解决方案。接下来的几个月将揭示 Anthropic 在统一 AI 推理上的押注是否会重塑企业市场,或仅仅成为行业快速发展中的又一次尝试。

来源:VentureBeat

0赞

好文章,需要你的鼓励

2025

02/25

16:56

分享

点赞

邮件订阅