Claude Mythos 5与Fable 5发布,刷新AI性能基准记录

Anthropic正式推出Claude Mythos 5和Claude Fable 5两款大语言模型,在多项基准测试中超越竞品。Fable 5面向公众开放,内置安全护栏屏蔽网络安全等高风险请求;Mythos 5则面向有限机构开放,并与美国政府合作管理访问权限。Mythos 5是Claude系列首个能持续提出科学假设的模型,已在分子生物学领域取得实验验证成果。两款模型在SWE-Bench Pro编程基准上以80.3%得分创下纪录,定价较前代削减逾半。

Anthropic今日正式推出两款全新大语言模型——Claude Mythos 5与Claude Fable 5,官方表示这两款模型在多项基准测试中均超越了同类竞品。

两款大语言模型均源自该公司于今年4月发布的Claude Mythos Preview算法。该模型因能够发现高度复杂的网络安全漏洞而备受关注。Anthropic表示,Mythos 5与Fable 5在此基础上进一步超越了前代性能。

Fable 5已面向公众全面开放,但对涉及高风险场景的请求(如网络安全漏洞发现)设有屏蔽机制。相比之下,Mythos 5的使用限制更为宽松,但仅向少数特定组织开放,Anthropic将与美国政府合作共同管理该模型的访问权限。

Anthropic称,Mythos 5是Claude系列中首个能够"持续生成新颖且具说服力的科学假说"的模型。该公司曾要求这款大语言模型就若干尚未被科学界完全理解的分子生物学现象提出解释,其中多项建议被认为极具研究价值,研究人员已决定启动一系列实验加以验证。

目前,其中一项假说已在实验室中得到证实——Mythos 5发现了关于大肠杆菌某种蛋白质组成成分的新信息。

另一项内部测试中,Mythos 5识别出14个蛋白质靶点,这些生物构建单元有望用于药物研发。Anthropic表示,其中9个靶点被证明是"药物设计的有力候选",同时该模型将蛋白质发现流程中部分任务的处理速度提升了10倍。

Fable 5对涉及网络安全、生物学及化学领域的请求设有屏蔽机制,此类请求将被自动转至Claude Opus 4.8处理——这是Anthropic于今年5月发布的一款性能相对基础的模型。

在编程能力方面,Fable 5与Mythos 5在SWE-Bench Pro基准测试中均以80.3%的得分创下新纪录。支付平台Stripe作为Fable 5的早期用户,借助该模型对一个拥有5000万行代码的内部软件仓库进行了现代化改造。Anthropic表示,Fable 5帮助Stripe将原本需要两个月才能完成的任务压缩至一天内完成。

在非技术场景方面,两款模型同样表现突出。与Opus 4.8相比,它们在涵盖文档审阅任务的GDP.pdf基准测试中得分高出7.3%,并在衡量大语言模型法律任务自动化能力的另一项基准测试中再度刷新纪录。

在定价方面,Mythos 5与Fable 5的价格为每百万输入Token 10美元、每百万输出Token 50美元,不足Mythos Preview定价的一半。此外,两款模型在完成任务时所需的提示词数量也有所减少。

Q&A

Q1:Claude Mythos 5和Fable 5有什么区别?

A:两款模型的主要区别在于开放程度和使用限制。Fable 5面向公众全面开放,但屏蔽了网络安全、生物学及化学等高风险领域的请求,相关请求会被转至Claude Opus 4.8处理。Mythos 5使用限制更宽松,支持科学假说生成等高级功能,但仅向少数特定组织开放,并由Anthropic联合美国政府共同管理访问权限。

Q2:Claude Mythos 5在科学研究方面有哪些具体表现?

A:Mythos 5是Claude系列中首个能持续生成新颖科学假说的模型。在分子生物学领域,其提出的多项假说已被研究人员列为实验验证对象,其中一项关于大肠杆菌蛋白质的假说已在实验室得到证实。此外,该模型还识别出14个药物研发候选蛋白质靶点,其中9个被评定为药物设计的有力候选,并将相关任务处理速度提升了10倍。

Q3:Claude Fable 5和Mythos 5的定价是多少?

A:两款模型统一定价为每百万输入Token 10美元、每百万输出Token 50美元,价格不足上一代Mythos Preview的一半。同时,新模型完成任务所需的提示词数量也有所减少,进一步降低了用户的实际使用成本。

来源:SiliconANGLE

0赞

好文章,需要你的鼓励

2026

06/10

10:57

分享

点赞

邮件订阅