Anthropic今日正式推出两款全新大语言模型——Claude Mythos 5与Claude Fable 5,官方表示这两款模型在多项基准测试中均超越了同类竞品。
两款大语言模型均源自该公司于今年4月发布的Claude Mythos Preview算法。该模型因能够发现高度复杂的网络安全漏洞而备受关注。Anthropic表示,Mythos 5与Fable 5在此基础上进一步超越了前代性能。
Fable 5已面向公众全面开放,但对涉及高风险场景的请求(如网络安全漏洞发现)设有屏蔽机制。相比之下,Mythos 5的使用限制更为宽松,但仅向少数特定组织开放,Anthropic将与美国政府合作共同管理该模型的访问权限。
Anthropic称,Mythos 5是Claude系列中首个能够"持续生成新颖且具说服力的科学假说"的模型。该公司曾要求这款大语言模型就若干尚未被科学界完全理解的分子生物学现象提出解释,其中多项建议被认为极具研究价值,研究人员已决定启动一系列实验加以验证。
目前,其中一项假说已在实验室中得到证实——Mythos 5发现了关于大肠杆菌某种蛋白质组成成分的新信息。
另一项内部测试中,Mythos 5识别出14个蛋白质靶点,这些生物构建单元有望用于药物研发。Anthropic表示,其中9个靶点被证明是"药物设计的有力候选",同时该模型将蛋白质发现流程中部分任务的处理速度提升了10倍。
Fable 5对涉及网络安全、生物学及化学领域的请求设有屏蔽机制,此类请求将被自动转至Claude Opus 4.8处理——这是Anthropic于今年5月发布的一款性能相对基础的模型。
在编程能力方面,Fable 5与Mythos 5在SWE-Bench Pro基准测试中均以80.3%的得分创下新纪录。支付平台Stripe作为Fable 5的早期用户,借助该模型对一个拥有5000万行代码的内部软件仓库进行了现代化改造。Anthropic表示,Fable 5帮助Stripe将原本需要两个月才能完成的任务压缩至一天内完成。
在非技术场景方面,两款模型同样表现突出。与Opus 4.8相比,它们在涵盖文档审阅任务的GDP.pdf基准测试中得分高出7.3%,并在衡量大语言模型法律任务自动化能力的另一项基准测试中再度刷新纪录。
在定价方面,Mythos 5与Fable 5的价格为每百万输入Token 10美元、每百万输出Token 50美元,不足Mythos Preview定价的一半。此外,两款模型在完成任务时所需的提示词数量也有所减少。
Q&A
Q1:Claude Mythos 5和Fable 5有什么区别?
A:两款模型的主要区别在于开放程度和使用限制。Fable 5面向公众全面开放,但屏蔽了网络安全、生物学及化学等高风险领域的请求,相关请求会被转至Claude Opus 4.8处理。Mythos 5使用限制更宽松,支持科学假说生成等高级功能,但仅向少数特定组织开放,并由Anthropic联合美国政府共同管理访问权限。
Q2:Claude Mythos 5在科学研究方面有哪些具体表现?
A:Mythos 5是Claude系列中首个能持续生成新颖科学假说的模型。在分子生物学领域,其提出的多项假说已被研究人员列为实验验证对象,其中一项关于大肠杆菌蛋白质的假说已在实验室得到证实。此外,该模型还识别出14个药物研发候选蛋白质靶点,其中9个被评定为药物设计的有力候选,并将相关任务处理速度提升了10倍。
Q3:Claude Fable 5和Mythos 5的定价是多少?
A:两款模型统一定价为每百万输入Token 10美元、每百万输出Token 50美元,价格不足上一代Mythos Preview的一半。同时,新模型完成任务所需的提示词数量也有所减少,进一步降低了用户的实际使用成本。
好文章,需要你的鼓励
2025年1月,OpenAI、软银、甲骨文和MGX联合宣布"星际之门"计划,承诺投资5000亿美元,部署高达10GW算力基础设施。如今,该项目已从白宫发布会上的宏大承诺,演变为一场前所未有规模的基础设施建设实验。项目已扩展至德克萨斯、威斯康星、俄亥俄等多地,并延伸至阿布扎比和挪威。然而,融资争议、合作伙伴摩擦、能源压力及政策监管收紧,正考验着这一"AI工业园"模式能否真正落地。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
加密货币交易所OKX正式推出AI智能体交易市场OKX AI,允许AI代理相互雇佣、自主结算,并建立基于区块链的可携带信誉档案。该平台经过50家早期服务商封测后向开发者开放,依托稳定币和链上支付基础设施,支持全天候微支付。OKX创始人徐明星表示,传统金融基础设施为人类而建,智能体经济需要为自主软件专门设计的基础设施。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。