Anthropic今日正式推出两款全新大语言模型——Claude Mythos 5与Claude Fable 5,官方表示这两款模型在多项基准测试中均超越了同类竞品。
两款大语言模型均源自该公司于今年4月发布的Claude Mythos Preview算法。该模型因能够发现高度复杂的网络安全漏洞而备受关注。Anthropic表示,Mythos 5与Fable 5在此基础上进一步超越了前代性能。
Fable 5已面向公众全面开放,但对涉及高风险场景的请求(如网络安全漏洞发现)设有屏蔽机制。相比之下,Mythos 5的使用限制更为宽松,但仅向少数特定组织开放,Anthropic将与美国政府合作共同管理该模型的访问权限。
Anthropic称,Mythos 5是Claude系列中首个能够"持续生成新颖且具说服力的科学假说"的模型。该公司曾要求这款大语言模型就若干尚未被科学界完全理解的分子生物学现象提出解释,其中多项建议被认为极具研究价值,研究人员已决定启动一系列实验加以验证。
目前,其中一项假说已在实验室中得到证实——Mythos 5发现了关于大肠杆菌某种蛋白质组成成分的新信息。
另一项内部测试中,Mythos 5识别出14个蛋白质靶点,这些生物构建单元有望用于药物研发。Anthropic表示,其中9个靶点被证明是"药物设计的有力候选",同时该模型将蛋白质发现流程中部分任务的处理速度提升了10倍。
Fable 5对涉及网络安全、生物学及化学领域的请求设有屏蔽机制,此类请求将被自动转至Claude Opus 4.8处理——这是Anthropic于今年5月发布的一款性能相对基础的模型。
在编程能力方面,Fable 5与Mythos 5在SWE-Bench Pro基准测试中均以80.3%的得分创下新纪录。支付平台Stripe作为Fable 5的早期用户,借助该模型对一个拥有5000万行代码的内部软件仓库进行了现代化改造。Anthropic表示,Fable 5帮助Stripe将原本需要两个月才能完成的任务压缩至一天内完成。
在非技术场景方面,两款模型同样表现突出。与Opus 4.8相比,它们在涵盖文档审阅任务的GDP.pdf基准测试中得分高出7.3%,并在衡量大语言模型法律任务自动化能力的另一项基准测试中再度刷新纪录。
在定价方面,Mythos 5与Fable 5的价格为每百万输入Token 10美元、每百万输出Token 50美元,不足Mythos Preview定价的一半。此外,两款模型在完成任务时所需的提示词数量也有所减少。
Q&A
Q1:Claude Mythos 5和Fable 5有什么区别?
A:两款模型的主要区别在于开放程度和使用限制。Fable 5面向公众全面开放,但屏蔽了网络安全、生物学及化学等高风险领域的请求,相关请求会被转至Claude Opus 4.8处理。Mythos 5使用限制更宽松,支持科学假说生成等高级功能,但仅向少数特定组织开放,并由Anthropic联合美国政府共同管理访问权限。
Q2:Claude Mythos 5在科学研究方面有哪些具体表现?
A:Mythos 5是Claude系列中首个能持续生成新颖科学假说的模型。在分子生物学领域,其提出的多项假说已被研究人员列为实验验证对象,其中一项关于大肠杆菌蛋白质的假说已在实验室得到证实。此外,该模型还识别出14个药物研发候选蛋白质靶点,其中9个被评定为药物设计的有力候选,并将相关任务处理速度提升了10倍。
Q3:Claude Fable 5和Mythos 5的定价是多少?
A:两款模型统一定价为每百万输入Token 10美元、每百万输出Token 50美元,价格不足上一代Mythos Preview的一半。同时,新模型完成任务所需的提示词数量也有所减少,进一步降低了用户的实际使用成本。
好文章,需要你的鼓励
Anthropic首次将其最强AI模型向普通用户开放,但设有严格安全限制。Claude Fable 5在软件工程、知识工作和视觉任务方面表现突出,但在网络安全、生物、化学等高风险领域会自动屏蔽响应并回退至Claude Opus 4.8。该模型通过API和企业计划提供访问,定价为每百万输入令牌10美元、输出令牌50美元。Anthropic同时要求对所有流量保留30天数据,以防范新型越狱攻击。
香港科技大学等机构构建SpatialAct基准,测试视觉语言模型能否在3D场景中将空间理解转化为可靠行动,揭示AI存在显著的推理与行动鸿沟。
根据Salesforce与YouGov联合调查,美国工人比全球平均水平高出43%成为AI怀疑者,超过半数美国工人对AI持怀疑态度。与印度、泰国等新兴经济体80%以上的AI信任度相比,美国仅约50%。原因不仅在于担忧失业,还包括AI工具输出质量差、培训不足及数据基础薄弱等问题。研究显示,成功的AI应用需要高质量数据、员工培训与实验文化的共同支撑。
这项研究发现AI统一多模态模型中存在显著"模态鸿沟":文字知识编辑成功率高达92%,但图像生成验证准确率最高仅18.5%,并提出推理增强方法改善跨模态知识传递。