Claude Sonnet 5正式发布:更低成本运行AI智能体

Anthropic发布Claude Sonnet 5,这是其中型模型的强化版本,主打高性价比的智能体能力。该模型支持自主规划、使用浏览器和终端等工具,性能接近旗舰版Opus 4.8,但价格更低。8月31日前定价为每百万输入token 2美元、输出10美元,低于OpenAI GPT-5.5和Google Gemini 3.1 Pro。Sonnet 5将成为免费和Pro用户的默认模型,并在编码、知识工作及安全性方面均优于前代产品。

随着智能体能力的部署逐渐成为基础模型公司的标配,Anthropic发布了Claude Sonnet 5——这是该实验室中型模型更强大、更具智能体特性的新版本。

Anthropic在一篇博文中表示:"它能够制定计划、使用浏览器和终端等工具,并以几个月前还需要更大、更昂贵模型才能达到的水平自主运行。"

这一定位与OpenAI和谷歌近期对各自新品的描述如出一辙。OpenAI上周以预览版形式发布了GPT-5.6 Sol,同样是该公司迄今最具智能体特性的模型,支持用户将任务分配给子智能体以完成更长周期的自主工作。谷歌于5月发布的Gemini 3.5 Flash,则将自身定位为从对话聊天机器人向智能体工具的转变——能够在几乎不需要人工干预的情况下规划、构建并持续迭代真实工作任务。

Sonnet 5的发布印证了一个趋势:智能体能力已成为所有价格层级的新基准预期。现在的竞争焦点不再是谁能把智能体工作做得最好,而是谁能以更低的成本、在更少人工监督的情况下更可靠地完成任务。

Sonnet 5承诺提供接近Opus 4.8的性能,但成本大幅降低。从本周二起,Claude Sonnet 5将成为免费版和Pro版的默认模型,并向所有订阅层级开放。

在定价方面,Sonnet 5在8月31日前的售价为每百万输入Token 2美元、每百万输出Token 10美元,此后将调整为每百万输入Token 3美元、每百万输出Token 10美元。这使Sonnet 5的价格低于Opus 4.8、OpenAI的GPT-5.5以及谷歌的Gemini 3.1 Pro(但仍高于Gemini 3.5 Flash)。

据Anthropic介绍,新模型在智能体性能方面相较今年2月发布的前代产品Sonnet 4.6有显著提升,涵盖推理、工具调用、软件编程和知识型工作等维度。

以某项基准测试为例,Sonnet 5在智能体编程任务上的得分为63.2%,Opus 4.8为69.2%,Sonnet 4.6为58.1%。在知识工作基准上,Sonnet 5甚至略微超越了以擅长解决高难度问题(如细微判断与深度研究)著称的Opus 4.8。

Anthropic表示:"Opus 4.8在此类任务上仍是追求更高精度的首选,但Sonnet 5为开发者提供了价格更低、质量远超前代的新选择。用户可以在Sonnet 5和Opus 4.8之间灵活调配,寻找成本与性能的最佳平衡点。"

根据博文引用的测试人员反馈,Sonnet 5还擅长完成此前版本模型会中途放弃的复杂任务,并且"无需明确指示便会主动检查自身输出"。

Zapier高级工程师Daniel Shepard在一份声明中表示:"我们交给Claude Sonnet 5一项两步任务——更新Salesforce账户等级,并向企业联系人发送发布公告——它从头到尾顺利完成了。这在以前往往会卡在中途。用于日常自动化任务,毫无疑问是上佳选择。"

在安全性方面,与前代相比,Sonnet 5出现"不良行为"(如配合滥用指令或欺骗性输出)的概率更低,在智能体场景中的使用更为安全。它能更有效地拒绝恶意请求,并在提示词注入攻击中更好地抵御劫持尝试。此外,其幻觉生成率和讨好性行为发生率也低于Sonnet 4.6。

不过,在对齐问题方面,Sonnet 5尚未达到Opus 4.8和Claude Mythos Preview的水准。博文指出:"评估结果同样显示,与当前Opus系列模型相比,它执行危险网络安全任务的能力要弱得多。"

Lovable联合创始人Fabian Hedin在声明中表示,Claude Sonnet 5"能够干净、一致地拒绝不安全请求"。

"在Lovable,我们将强大的工具交到数百万构建者手中,"Hedin说,"一个懂得何时说'不'的模型,与一个懂得如何构建的模型同等重要。"

Q&A

Q1:Claude Sonnet 5的定价是多少?和其他模型相比有什么优势?

A:Sonnet 5在2025年8月31日前的价格为每百万输入Token 2美元、每百万输出Token 10美元,之后涨至每百万输入Token 3美元。与同类产品相比,Sonnet 5的价格低于Opus 4.8、OpenAI的GPT-5.5和谷歌的Gemini 3.1 Pro,但仍高于Gemini 3.5 Flash。它的性价比优势在于:以更低价格提供接近Opus 4.8的性能表现。

Q2:Claude Sonnet 5在智能体任务上的表现怎么样?

A:Sonnet 5在智能体编程基准上得分63.2%,高于前代Sonnet 4.6的58.1%,但略低于Opus 4.8的69.2%。在知识工作基准上,Sonnet 5甚至略微超越Opus 4.8。实际测试中,它能完成多步骤复杂任务(如同时更新Salesforce账户并发送通知邮件),且具备无需提示即主动检查输出的能力。

Q3:Claude Sonnet 5的安全性如何?有没有已知的风险?

A:Sonnet 5在安全性方面相比Sonnet 4.6有所改善,能更有效拒绝恶意请求,抵御提示词注入攻击,幻觉率和讨好行为也有所降低。但Anthropic明确指出,Sonnet 5在对齐能力和危险网络安全任务防范上仍不及Opus 4.8和Claude Mythos Preview,在高风险场景中需要谨慎评估使用。

来源:Techcrunch

0赞

好文章,需要你的鼓励

2026

07/01

17:45

分享

点赞

邮件订阅