周一,Anthropic发布了其旗舰模型的最新版本Opus 4.5。这是Anthropic 4.5系列模型中最后发布的一款,此前已于9月推出Sonnet 4.5,10月推出Haiku 4.5。
正如预期,新版Opus在多项基准测试中表现出色,包括编程基准测试(SWE-Bench和Terminal-bench)、工具使用(tau2-bench和MCP Atlas)以及通用问题解决(ARC-AGI 2、GPQA Diamond)。
值得注意的是,Opus 4.5是首个在备受认可的编程基准测试SWE-Bench verified中得分超过80%的模型。
Anthropic还特别强调了Opus的计算机使用和电子表格处理能力,并推出了多款并行产品来展示该模型在这些场景下的表现。与Opus 4.5一同发布的,还有之前处于试点阶段的Claude for Chrome和Claude for Excel产品,现在将更广泛地提供给用户。Chrome扩展将面向所有Max用户开放,而专注于Excel的模型将面向Max、团队版和企业版用户提供。
Opus 4.5还在长上下文操作的记忆改进方面取得了进展,这需要对模型管理内存的方式进行重大调整。
Anthropic研究产品管理负责人Dianne Na Penn告诉TechCrunch:"我们在Opus 4.5的训练中对通用长上下文质量进行了改进,但仅仅依靠上下文窗口是不够的。知道要记住哪些正确的细节,这对于补充更长的上下文窗口非常重要。"
这些变化还启用了付费Claude用户长期请求的"无限聊天"功能,当模型达到其上下文窗口时,聊天可以继续进行而不会中断。相反,模型会压缩其上下文内存而不会提醒用户。
许多升级都着眼于智能体使用场景,特别是Opus作为主导智能体指挥一组由Haiku驱动的子智能体的情况。管理这些任务需要强大的工作记忆控制能力,这正是Penn描述的记忆改进真正显示其价值的地方。
Penn说:"这就是记忆等基础能力变得非常重要的原因,因为Claude需要能够探索代码库和大型文档,同时知道何时回溯和重新检查某些内容。"
Opus 4.5将面临来自其他最近发布的前沿模型的激烈竞争,最值得注意的是OpenAI的GPT 5.1(11月12日发布)和谷歌的Gemini 3(11月18日发布)。
Q&A
Q1:Opus 4.5相比之前的版本有哪些主要改进?
A:Opus 4.5在多个方面有显著提升:首先在编程基准测试SWE-Bench verified中得分超过80%,成为首个达到这一成绩的模型;其次增强了计算机使用和电子表格处理能力;最后改进了长上下文操作的记忆管理,支持"无限聊天"功能。
Q2:Claude for Chrome和Claude for Excel产品有什么特点?
A:这两款产品之前处于试点阶段,现在随Opus 4.5正式推出。Chrome扩展面向所有Max用户开放,而Excel专版面向Max、团队版和企业版用户提供。它们展示了Opus 4.5在浏览器和电子表格场景下的强大能力。
Q3:Opus 4.5的"无限聊天"功能是如何工作的?
A:当模型达到上下文窗口限制时,传统上聊天会中断。而Opus 4.5的"无限聊天"功能会自动压缩上下文内存,让对话继续进行而不会提醒用户,从而实现无中断的长时间对话体验。
好文章,需要你的鼓励
萨提亚回忆起90年代在微软评审会上听到的场景。Gates当时说:"软件只有一个品类--信息管理。
南洋理工大学团队开发了Uni-MMMU基准测试,专门评估AI模型的理解与生成协同能力。该基准包含八个精心设计的任务,要求AI像人类一样"边看边想边画"来解决复杂问题。研究发现当前AI模型在这种协同任务上表现不平衡,生成能力是主要瓶颈,但协同工作确实能提升问题解决效果,为开发更智能的AI助手指明了方向。
Anthropic周一发布了旗舰模型Opus 4.5,这是4.5系列的最后一个模型。新版本在编程、工具使用和问题解决等基准测试中表现出色,是首个在SWE-Bench验证测试中得分超过80%的模型。同时推出Claude for Chrome和Claude for Excel产品,分别面向不同用户群体。Opus 4.5还改进了长文本处理的内存管理,支持付费用户的"无限聊天"功能,并针对智能体应用场景进行了优化,将与OpenAI的GPT 5.1和谷歌的Gemini 3展开竞争。
360 AI Research团队发布的FG-CLIP 2是一个突破性的双语精细视觉语言对齐模型,能够同时处理中英文并进行精细的图像理解。该模型通过两阶段训练策略和多目标联合优化,在29个数据集的8类任务中均达到最先进性能,特别创新了文本内模态对比损失机制。团队还构建了首个中文多模态评测基准,填补了该领域空白,为智能商务、安防监控、医疗影像等应用开辟新可能。