Anthropic公司今日发布了新一代大语言模型Claude Opus 4.8,该模型在处理复杂编程任务方面的表现显著优于前代产品。
与新模型发布同时,Anthropic宣布了另一项重大商业里程碑:公司以9650亿美元估值完成650亿美元新一轮融资,资金将用于采购更多计算基础设施。
性能提升显著
Anthropic使用Terminal-Bench 2.1基准测试评估了Claude Opus 4.8的推理能力,该基准专门衡量大语言模型在命令行中执行任务的能力。新模型得分74.2%,比4.7版本提升8.4%。在更通用的编程测试SWE-Bench Pro中,Opus 4.8的得分高出4.9%。此外,Anthropic在计算机操作和财务分析任务的基准测试中也记录到性能改进。
新模型包含的优化功能使其能够检测错误的提示响应。据Anthropic介绍,与前代相比,该模型在输出错误代码时不指出问题的可能性降低了四倍,同时也更不容易做出无根据的声明和遗漏滥用企图。
动态工作流功能上线
Opus 4.8为Claude Code提供支持,推出了名为"动态工作流"的新功能。该功能使编程助手能够执行复杂任务,例如用新语言重写整个应用程序。据Anthropic介绍,Opus 4.8通过生成数百个智能体来完成此类项目,每个智能体负责完成一小部分工作。
升级后的"快速模式"设置允许Claude Code用户牺牲部分输出质量以换取更低延迟。该模式使工具速度提升150%,成本比前一版本降低三倍。Claude聊天机器人和用于自动化多步骤业务任务的工具Claude Cowork也将获得类似功能,使用户可以在不同响应速度之间切换。
Mythos级模型即将推出
Anthropic计划在Opus 4.8之后推出"Mythos级模型",这些模型将在未来几周内广泛提供。Claude Mythos Preview是上个月首次亮相的高级大语言模型,该模型擅长发现网络安全漏洞等任务。
出于对黑客滥用的担忧,公司目前仅向有限数量的组织提供Claude Mythos Preview。据该公司透露,其工程师正在开发新的防护措施来应对黑客风险。Anthropic预计这些防护措施将使其能够安全地向所有客户发布Mythos级模型。
投资者对Mythos级模型收入潜力的乐观态度可能是Anthropic估值上涨的因素之一。以9650亿美元估值计算,该公司目前的价值已超过OpenAI。Anthropic的收入已经快速增长:公司今日披露,其运营收入在过去三个月内增长了两倍多,达到470亿美元。
融资详情与资金用途
Anthropic的H轮融资由Altimeter Capital、Dragoneer、Greenoaks和红杉资本领投。公司列出的联合领投方包括Capital Group、Coatue、D1 Capital Partners、GIC、ICONIQ和XN。此外还有十多家其他投资方参与,包括美光科技、SK海力士和三星电子。
这笔650亿美元的融资包括约150亿美元此前宣布的云服务商承诺投资。亚马逊云科技投资50亿美元。上个月,AWS同意为Anthropic提供最多5吉瓦的新计算能力。
这家大语言模型开发商将使用融资所得购买更多基础设施,同时还计划投资于AI安全举措和合作伙伴关系。
Q&A
Q1:Claude Opus 4.8相比前代版本有哪些性能提升?
A:Claude Opus 4.8在Terminal-Bench 2.1基准测试中得分74.2%,比4.7版本提升8.4%。在SWE-Bench Pro编程测试中得分高出4.9%。新模型输出错误代码时不指出问题的可能性降低了四倍,更不容易做出无根据的声明。
Q2:Claude Code的动态工作流功能是什么?
A:动态工作流是Claude Code推出的新功能,使编程助手能够执行复杂任务,例如用新语言重写整个应用程序。Opus 4.8通过生成数百个智能体来完成此类项目,每个智能体负责完成一小部分工作。
Q3:Anthropic这轮融资规模有多大?估值是多少?
A:Anthropic完成了650亿美元的H轮融资,公司估值达到9650亿美元,目前价值已超过OpenAI。融资由Altimeter Capital、Dragoneer、Greenoaks和红杉资本领投,包括约150亿美元此前宣布的云服务商承诺投资。
好文章,需要你的鼓励
今天讲的出海案例是依米康,这家数据中心温控与液冷设备厂商正在把泰国纳入海外交付体系,并用生产线、总装车间和焓差实验室承接算力设施订单。
BioMatrix是首个将分子序列、分子三维结构、蛋白质序列、蛋白质三维结构和自然语言统一在单一语言模型中的生物基础模型,在80项任务中77项达到最优或第二优。
Salesforce正式推出Help Agent,这是基于Agentforce平台的预封装AI客服智能体,可在数分钟内连接企业知识库、操作功能及网页、短信、语音等沟通渠道。该产品同步推出按解决率计费模式,每次成功自主解决客户问题收费2美元,无需按token或操作次数计费。Help Agent支持低代码构建,内置测试功能,并配备全新客户服务门户。该产品预计于2026年7月正式上线。
浙江大学提出SKILLHARNESS框架,通过为AI电脑助手的每项技能附加安全边界,从成功、失败和风险三类经历中学习,使AI在动态危险环境中安全高效地完成任务。