周一,Anthropic发布了其旗舰模型的最新版本Opus 4.5。这是Anthropic 4.5系列模型中最后发布的一款,此前已于9月推出Sonnet 4.5,10月推出Haiku 4.5。
正如预期,新版Opus在多项基准测试中表现出色,包括编程基准测试(SWE-Bench和Terminal-bench)、工具使用(tau2-bench和MCP Atlas)以及通用问题解决(ARC-AGI 2、GPQA Diamond)。
值得注意的是,Opus 4.5是首个在备受认可的编程基准测试SWE-Bench verified中得分超过80%的模型。
Anthropic还特别强调了Opus的计算机使用和电子表格处理能力,并推出了多款并行产品来展示该模型在这些场景下的表现。与Opus 4.5一同发布的,还有之前处于试点阶段的Claude for Chrome和Claude for Excel产品,现在将更广泛地提供给用户。Chrome扩展将面向所有Max用户开放,而专注于Excel的模型将面向Max、团队版和企业版用户提供。
Opus 4.5还在长上下文操作的记忆改进方面取得了进展,这需要对模型管理内存的方式进行重大调整。
Anthropic研究产品管理负责人Dianne Na Penn告诉TechCrunch:"我们在Opus 4.5的训练中对通用长上下文质量进行了改进,但仅仅依靠上下文窗口是不够的。知道要记住哪些正确的细节,这对于补充更长的上下文窗口非常重要。"
这些变化还启用了付费Claude用户长期请求的"无限聊天"功能,当模型达到其上下文窗口时,聊天可以继续进行而不会中断。相反,模型会压缩其上下文内存而不会提醒用户。
许多升级都着眼于智能体使用场景,特别是Opus作为主导智能体指挥一组由Haiku驱动的子智能体的情况。管理这些任务需要强大的工作记忆控制能力,这正是Penn描述的记忆改进真正显示其价值的地方。
Penn说:"这就是记忆等基础能力变得非常重要的原因,因为Claude需要能够探索代码库和大型文档,同时知道何时回溯和重新检查某些内容。"
Opus 4.5将面临来自其他最近发布的前沿模型的激烈竞争,最值得注意的是OpenAI的GPT 5.1(11月12日发布)和谷歌的Gemini 3(11月18日发布)。
Q&A
Q1:Opus 4.5相比之前的版本有哪些主要改进?
A:Opus 4.5在多个方面有显著提升:首先在编程基准测试SWE-Bench verified中得分超过80%,成为首个达到这一成绩的模型;其次增强了计算机使用和电子表格处理能力;最后改进了长上下文操作的记忆管理,支持"无限聊天"功能。
Q2:Claude for Chrome和Claude for Excel产品有什么特点?
A:这两款产品之前处于试点阶段,现在随Opus 4.5正式推出。Chrome扩展面向所有Max用户开放,而Excel专版面向Max、团队版和企业版用户提供。它们展示了Opus 4.5在浏览器和电子表格场景下的强大能力。
Q3:Opus 4.5的"无限聊天"功能是如何工作的?
A:当模型达到上下文窗口限制时,传统上聊天会中断。而Opus 4.5的"无限聊天"功能会自动压缩上下文内存,让对话继续进行而不会提醒用户,从而实现无中断的长时间对话体验。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。