Anthropic 的 Claude 3.7 Sonnet 推理模型可以按需延长思考时间

Anthropic 发布全新前沿 AI 模型 Claude 3.7 Sonnet,这是首个混合推理模型,能够实时回答问题,也可根据用户需求延长思考时间以提供更深入的答案。该模型在多项基准测试中表现优异,并推出了专注于代码开发的 Claude Code 版本。

人工智能模型开发公司 Anthropic PBC 推出了一款名为 Claude 3.7 Sonnet 的前沿模型,向 OpenAI、DeepSeek Ltd. 等业内公司发起了挑战。

与之前的模型不同,Claude 3.7 Sonnet 能够根据用户的要求,对问题进行任意时长的"思考"。根据其思考时间的长短,其回答可能会有很大的差异。

该公司表示,Claude 3.7 Sonnet 是首个"混合 AI 推理模型",因为它既可以实时回答,也可以根据需要生成经过深思熟虑的回答。用户可以选择何时激活其推理能力,并指定希望它思考问题的时长。

Claude 3.7 Sonnet 现已向所有用户开放,包括免费用户,但只有付费订阅用户才能使用其高级推理功能。免费用户只能使用实时版本,不过该公司表示这相比其前身 Claude 3.5 Sonnet 仍有所改进。

该公司表示,Claude 3.7 Sonnet 的收费标准为每百万输入 token 3 美元,这意味着你可以输入约 75 万字 (超过《指环王》三部曲的总字数) 只需 3 美元。输出则收取每百万 token 15 美元。

因此,Claude 3.7 Sonnet 的价格比 OpenAI 的 o3-mini 推理模型和 DeepSeek 的 R1 要贵,后两者的价格分别便宜约三倍和六倍。不过,Anthropic 的模型一直较为昂贵,用户使用 Claude 3.5 Sonnet 时支付的费率完全相同。所以他们无需额外付费就能获得新的推理功能。

Claude 3.7 Sonnet 是该公司首次尝试开发推理模型。与传统模型相比,推理模型需要更多的计算能力和更长的响应时间。它们的工作原理是将用户的问题或难题分解成一系列小步骤,分别考虑每个步骤后再整合回答,这种技术通常能产生更好的答案。

目前,用户需要自行选择 Claude 3.7 Sonnet 思考问题的时长。但在即将发布的更新中,该公司表示模型将能够自行确定最合适的思考时间,在成本和答案质量之间取得最佳平衡。

Anthropic 的产品和研究主管 Dianne Penn 在接受 VentureBeat 采访时表示,目标是让模型能够判断何时需要即时回答,何时需要更深入的思考。

"模型本身应该能识别何时需要更深入的思考并作出调整,而不是要求用户明确选择不同的推理模式,"她说。

Claude 3.7 Sonnet 的另一个亮点是它会通过"可视化草稿本"展示其内部思考过程。Penn 表示,用户可以看到大多数提示的完整思维链,但在某些情况下,出于信任和安全考虑,可能会隐藏某些元素。

在性能方面,Claude 3.7 Sonnet 与竞争对手相比表现出色,在真实世界编程基准测试 SWE-Bench 上得分为 62.3%,而 OpenAI 的 o3-mini 为 49.3%,DeepSeek R1 为 49.2%。

在另一项用于衡量其与模拟用户和外部应用程序接口交互能力的测试 TAU-Bench 中,Claude 3.7 Sonnet 得分为 81.2%,超过了 OpenAI o1 模型的 73.5%。

该公司补充说,Claude 3.7 Sonnet 还将回答更多问题,减少拒绝回应的情况。这是因为它能够更好地区分良性和有害的提示。

编程模型和更多资金即将到来

除了推理模型外,Anthropic 还推出了一个名为 Claude Code 的新模型,目前作为研究预览版提供,更专注于编程任务。

在演示中,该公司展示了 Claude Code 如何通过单个提示(如"解释这个项目结构")分析开发项目。它还使开发者能够通过输入描述如何修改代码的普通英语提示来修改代码库。完成更改后,它会描述所做的编辑,然后测试错误或将更新推送到 GitHub 仓库。

该公司表示,Claude Code 目前向有限数量的用户开放测试,采用先到先得的原则提供访问权限,因此想要尝试的开发者不应该延迟。

今天宣布的新模型代表着 Anthropic 的一个重要突破,而且可能很快会有更多进展。据《华尔街日报》今天的另一份报道称,该公司正在就 35 亿美元的融资轮进行深入谈判。

这个金额显著高于最初计划募集的 20 亿美元,据《华尔街日报》援引两位知情匿名消息源称,这将使该创业公司的估值达到约 615 亿美元。据称 Lightspeed Venture Partners 将领投此轮融资,General Catalyst 和其他多家机构也将参与。

来源:SiliconANGLE

0赞

好文章,需要你的鼓励

2025

02/25

17:01

分享

点赞

邮件订阅