周一,Anthropic发布了其旗舰模型的最新版本Opus 4.5。这是Anthropic 4.5系列模型中最后发布的一款,此前已于9月推出Sonnet 4.5,10月推出Haiku 4.5。
正如预期,新版Opus在多项基准测试中表现出色,包括编程基准测试(SWE-Bench和Terminal-bench)、工具使用(tau2-bench和MCP Atlas)以及通用问题解决(ARC-AGI 2、GPQA Diamond)。
值得注意的是,Opus 4.5是首个在备受认可的编程基准测试SWE-Bench verified中得分超过80%的模型。
Anthropic还特别强调了Opus的计算机使用和电子表格处理能力,并推出了多款并行产品来展示该模型在这些场景下的表现。与Opus 4.5一同发布的,还有之前处于试点阶段的Claude for Chrome和Claude for Excel产品,现在将更广泛地提供给用户。Chrome扩展将面向所有Max用户开放,而专注于Excel的模型将面向Max、团队版和企业版用户提供。
Opus 4.5还在长上下文操作的记忆改进方面取得了进展,这需要对模型管理内存的方式进行重大调整。
Anthropic研究产品管理负责人Dianne Na Penn告诉TechCrunch:"我们在Opus 4.5的训练中对通用长上下文质量进行了改进,但仅仅依靠上下文窗口是不够的。知道要记住哪些正确的细节,这对于补充更长的上下文窗口非常重要。"
这些变化还启用了付费Claude用户长期请求的"无限聊天"功能,当模型达到其上下文窗口时,聊天可以继续进行而不会中断。相反,模型会压缩其上下文内存而不会提醒用户。
许多升级都着眼于智能体使用场景,特别是Opus作为主导智能体指挥一组由Haiku驱动的子智能体的情况。管理这些任务需要强大的工作记忆控制能力,这正是Penn描述的记忆改进真正显示其价值的地方。
Penn说:"这就是记忆等基础能力变得非常重要的原因,因为Claude需要能够探索代码库和大型文档,同时知道何时回溯和重新检查某些内容。"
Opus 4.5将面临来自其他最近发布的前沿模型的激烈竞争,最值得注意的是OpenAI的GPT 5.1(11月12日发布)和谷歌的Gemini 3(11月18日发布)。
Q&A
Q1:Opus 4.5相比之前的版本有哪些主要改进?
A:Opus 4.5在多个方面有显著提升:首先在编程基准测试SWE-Bench verified中得分超过80%,成为首个达到这一成绩的模型;其次增强了计算机使用和电子表格处理能力;最后改进了长上下文操作的记忆管理,支持"无限聊天"功能。
Q2:Claude for Chrome和Claude for Excel产品有什么特点?
A:这两款产品之前处于试点阶段,现在随Opus 4.5正式推出。Chrome扩展面向所有Max用户开放,而Excel专版面向Max、团队版和企业版用户提供。它们展示了Opus 4.5在浏览器和电子表格场景下的强大能力。
Q3:Opus 4.5的"无限聊天"功能是如何工作的?
A:当模型达到上下文窗口限制时,传统上聊天会中断。而Opus 4.5的"无限聊天"功能会自动压缩上下文内存,让对话继续进行而不会提醒用户,从而实现无中断的长时间对话体验。
好文章,需要你的鼓励
随着AI广泛应用推动数据中心建设热潮,运营商面临可持续发展挑战。2024年底美国已建成或批准1240个数据中心,能耗激增引发争议。除能源问题外,服务器和GPU更新换代产生的电子废物同样严重。通过采用模块化可修复系统、AI驱动资产跟踪、标准化数据清理技术以及与认证ITAD合作伙伴合作,数据中心可实现循环经济模式,在确保数据安全的同时减少环境影响。
剑桥大学研究团队首次系统探索AI在多轮对话中的信心判断问题。研究发现当前AI系统在评估自己答案可靠性方面存在严重缺陷,容易被对话长度而非信息质量误导。团队提出P(SUFFICIENT)等新方法,但整体问题仍待解决。该研究为AI在医疗、法律等关键领域的安全应用提供重要指导,强调了开发更可信AI系统的紧迫性。
超大规模云数据中心是数字经济的支柱,2026年将继续保持核心地位。AWS、微软、谷歌、Meta、甲骨文和阿里巴巴等主要运营商正积极扩张以满足AI和云服务需求激增,预计2026年资本支出将超过6000亿美元。然而增长受到电力供应、设备交付和当地阻力制约。截至2025年末,全球运营中的超大规模数据中心达1297个,总容量预计在12个季度内翻倍。
威斯康星大学研究团队开发出Prithvi-CAFE洪水监测系统,通过"双视觉协作"机制解决了AI地理基础模型在洪水识别上的局限性。该系统巧妙融合全局理解和局部细节能力,在国际标准数据集上创造最佳成绩,参数效率提升93%,为全球洪水预警和防灾减灾提供了更准确可靠的技术方案。