Anthropic公司今日发布了新一代大语言模型Claude Opus 4.8,该模型在处理复杂编程任务方面的表现显著优于前代产品。
与新模型发布同时,Anthropic宣布了另一项重大商业里程碑:公司以9650亿美元估值完成650亿美元新一轮融资,资金将用于采购更多计算基础设施。
性能提升显著
Anthropic使用Terminal-Bench 2.1基准测试评估了Claude Opus 4.8的推理能力,该基准专门衡量大语言模型在命令行中执行任务的能力。新模型得分74.2%,比4.7版本提升8.4%。在更通用的编程测试SWE-Bench Pro中,Opus 4.8的得分高出4.9%。此外,Anthropic在计算机操作和财务分析任务的基准测试中也记录到性能改进。
新模型包含的优化功能使其能够检测错误的提示响应。据Anthropic介绍,与前代相比,该模型在输出错误代码时不指出问题的可能性降低了四倍,同时也更不容易做出无根据的声明和遗漏滥用企图。
动态工作流功能上线
Opus 4.8为Claude Code提供支持,推出了名为"动态工作流"的新功能。该功能使编程助手能够执行复杂任务,例如用新语言重写整个应用程序。据Anthropic介绍,Opus 4.8通过生成数百个智能体来完成此类项目,每个智能体负责完成一小部分工作。
升级后的"快速模式"设置允许Claude Code用户牺牲部分输出质量以换取更低延迟。该模式使工具速度提升150%,成本比前一版本降低三倍。Claude聊天机器人和用于自动化多步骤业务任务的工具Claude Cowork也将获得类似功能,使用户可以在不同响应速度之间切换。
Mythos级模型即将推出
Anthropic计划在Opus 4.8之后推出"Mythos级模型",这些模型将在未来几周内广泛提供。Claude Mythos Preview是上个月首次亮相的高级大语言模型,该模型擅长发现网络安全漏洞等任务。
出于对黑客滥用的担忧,公司目前仅向有限数量的组织提供Claude Mythos Preview。据该公司透露,其工程师正在开发新的防护措施来应对黑客风险。Anthropic预计这些防护措施将使其能够安全地向所有客户发布Mythos级模型。
投资者对Mythos级模型收入潜力的乐观态度可能是Anthropic估值上涨的因素之一。以9650亿美元估值计算,该公司目前的价值已超过OpenAI。Anthropic的收入已经快速增长:公司今日披露,其运营收入在过去三个月内增长了两倍多,达到470亿美元。
融资详情与资金用途
Anthropic的H轮融资由Altimeter Capital、Dragoneer、Greenoaks和红杉资本领投。公司列出的联合领投方包括Capital Group、Coatue、D1 Capital Partners、GIC、ICONIQ和XN。此外还有十多家其他投资方参与,包括美光科技、SK海力士和三星电子。
这笔650亿美元的融资包括约150亿美元此前宣布的云服务商承诺投资。亚马逊云科技投资50亿美元。上个月,AWS同意为Anthropic提供最多5吉瓦的新计算能力。
这家大语言模型开发商将使用融资所得购买更多基础设施,同时还计划投资于AI安全举措和合作伙伴关系。
Q&A
Q1:Claude Opus 4.8相比前代版本有哪些性能提升?
A:Claude Opus 4.8在Terminal-Bench 2.1基准测试中得分74.2%,比4.7版本提升8.4%。在SWE-Bench Pro编程测试中得分高出4.9%。新模型输出错误代码时不指出问题的可能性降低了四倍,更不容易做出无根据的声明。
Q2:Claude Code的动态工作流功能是什么?
A:动态工作流是Claude Code推出的新功能,使编程助手能够执行复杂任务,例如用新语言重写整个应用程序。Opus 4.8通过生成数百个智能体来完成此类项目,每个智能体负责完成一小部分工作。
Q3:Anthropic这轮融资规模有多大?估值是多少?
A:Anthropic完成了650亿美元的H轮融资,公司估值达到9650亿美元,目前价值已超过OpenAI。融资由Altimeter Capital、Dragoneer、Greenoaks和红杉资本领投,包括约150亿美元此前宣布的云服务商承诺投资。
好文章,需要你的鼓励
随着AI基础设施快速扩张,水资源正成为继电力之后的另一重大制约因素。高密度GPU集群产生大量热能,需要大规模冷却水支撑,部分数据中心单日用水需求高达数百万加仑。多地水务部门已明确表示现有供水能力无法满足需求。研究预测,到2030年美国数据中心新增日用水需求可能高达14.5亿加仑。水资源短缺、废水处理压力及峰值用水波动,正深刻影响AI数据中心的选址与建设规划。
研究揭示多源视觉融合并非总有益,提出MARS框架通过单源锚点量化信息增益,动态调节多源融合优势,在多个视觉推理任务上实现显著性能提升。
CoreWeave发布新平台,支持企业部署可自主学习和优化的AI智能体。该平台通过无服务器强化学习机制,让大语言模型在真实业务环境中持续微调,无需企业自建基础设施。相比传统方式,该方案可降低超40%成本,训练速度提升约1.4倍,且不影响质量。据麦肯锡2025年AI现状报告,约62%的受访企业正在试验AI智能体,生产部署趋势日益明显。
MiniMax发布M2系列混合专家大模型,总参数2299亿但每次仅激活98亿,通过专项数据流水线、Forge强化学习系统和自进化机制,在代理编程、深度搜索等任务上达到顶级闭源模型水平。