Anthropic今日正式发布了Claude Sonnet 5,这是一款中端大语言模型,在多个维度上超越了前代产品。
该模型将成为Anthropic旗下Claude聊天服务消费级套餐的默认选项。
Anthropic的商用大语言模型产品线分为三个系列:入门级的Haiku系列、中端的Sonnet系列,以及高端的Opus系列。今年4月,该公司推出了两款能力更强的大语言模型Mythos 5和Fable 5,性能甚至超越了Opus系列,但目前尚未向大众开放。
在编程能力方面,Anthropic使用SWE-Bench Pro和Terminal-Bench 2.1两项基准测试对Sonnet 5进行了评估。与前代产品相比,该模型的得分分别提升了5.1%和13.4%。不过,OpenAI旗下同级别竞品GPT-5.6 Terra在Terminal-Bench 2.1上的表现仍领先Sonnet 5约4%。
Anthropic还对新模型在其他领域的表现进行了测试。在涵盖44个职业知识工作任务的GDPval-AA v2基准测试中,Sonnet 5获得了1618分,而上一代Sonnet 4.5仅得1395分。
Sonnet 5输出质量提升的一个重要原因在于其自主性更强。据Anthropic介绍,参与发布前测试的用户反馈,该模型有时会在未收到指令的情况下主动对输出结果进行二次核查。此外,Sonnet 5还能够处理前代模型难以应对的复杂任务。
大语言模型自主性的增强在某些场景下可能带来网络安全风险。Anthropic表示,Sonnet 5在应对此类风险方面优于Sonnet 4.6,尤其是在拦截恶意请求和提示词注入攻击方面表现更为出色。所谓提示词注入攻击,是指隐藏在大语言模型所分析数据中的恶意指令。
新模型内置了相应的防护机制,可阻止黑客利用其发动网络攻击。据Anthropic透露,由于该模型无法生成可实际运行的漏洞利用代码,因此其带来的网络安全风险十分有限。
Sonnet 5现已成为Claude聊天服务免费版和面向消费者的Pro套餐的默认模型,未来还将向Max、Team和企业版套餐用户开放。开发者则可通过Anthropic的应用程序编程接口调用该模型。自9月起,Sonnet 5的定价为每百万输入Token 3美元、每百万输出Token 15美元,略高于OpenAI的中端产品Terra。
Anthropic用户即将获得另外两款新模型的访问权限。本月早些时候,该公司发布了旗舰大语言模型Mythos 5及其精简版Fable 5,后者内置了更严格的防护机制,可屏蔽潜在风险提示词。
Mythos 5和Fable 5发布数日后,美国政府对这两款模型实施了出口管制,Anthropic随即暂停了相关模型的推广。该公司今日宣布,上述管制已被解除,相关访问权限将于周三起逐步恢复。Anthropic计划将Fable 5向大众广泛开放,而Mythos 5则仅向有限数量的受信任机构提供访问权限。
Q&A
Q1:Claude Sonnet 5的编程能力提升有多大?
A:根据Anthropic的测试,Claude Sonnet 5在SWE-Bench Pro基准测试上比前代提升了5.1%,在Terminal-Bench 2.1上提升了13.4%。不过,OpenAI的同级别竞品GPT-5.6 Terra在Terminal-Bench 2.1上仍领先Sonnet 5约4%。
Q2:Claude Sonnet 5的安全防护机制有哪些改进?
A:Claude Sonnet 5在安全性方面有明显提升,能更有效地拦截恶意请求和提示词注入攻击。模型内置了防护机制,阻止黑客用其发动网络攻击,且由于无法生成可实际运行的漏洞利用代码,其整体网络安全风险被控制在较低水平。
Q3:Claude Sonnet 5的定价是多少?如何获取访问权限?
A:自9月起,Claude Sonnet 5的定价为每百万输入Token 3美元、每百万输出Token 15美元。该模型现已成为Claude免费版和Pro套餐的默认模型,同时也将向Max、Team和企业版套餐开放。开发者可通过Anthropic的API接口调用该模型。
好文章,需要你的鼓励
超过140家金融、支付及科技公司,包括Visa、Stripe和贝莱德,联合支持推出名为Open USD(OUSD)的新稳定币,直接挑战市场领导者Tether和Circle。OUSD由独立机构Open Standard LLC运营,主打零费用、无限额铸造与赎回,且储备收益大部分归合作伙伴所有,而非由发行方独占。Mastercard、美国运通、谷歌、Shopify、Coinbase等巨头均已加入。Circle股价在消息公布后下跌约13%。
这项研究系统比较了四种AI图像分词策略在640000张星系图像上的表现,发现重建质量与物理属性预测能力之间存在根本性解耦,为天文基础模型的分词器选择提供了实验依据。
Anthropic正式推出中端大语言模型Claude Sonnet 5,其编程能力在SWE-Bench Pro和Terminal-Bench 2.1两项基准测试中分别提升5.1%和13.4%。该模型具备更强自主性,能主动核查输出结果,并在抵御恶意请求和提示注入攻击方面表现更优。Sonnet 5将成为Claude免费版和Pro版的默认模型,定价为每百万输入token 3美元。此外,此前因美国出口管制而暂停推出的Mythos 5和Fable 5模型,管制已解除,将于近期恢复访问。
阿里Qwen团队研究如何将大模型的规模化训练思路迁移到机器人操作领域,通过统一多机器人表示与38100小时数据预训练,让机器人在陌生场景和陌生机型上也能完成复杂操作任务。