周一,Anthropic发布了其旗舰模型的最新版本Opus 4.5。这是Anthropic 4.5系列模型中最后发布的一款,此前已于9月推出Sonnet 4.5,10月推出Haiku 4.5。
正如预期,新版Opus在多项基准测试中表现出色,包括编程基准测试(SWE-Bench和Terminal-bench)、工具使用(tau2-bench和MCP Atlas)以及通用问题解决(ARC-AGI 2、GPQA Diamond)。
值得注意的是,Opus 4.5是首个在备受认可的编程基准测试SWE-Bench verified中得分超过80%的模型。
Anthropic还特别强调了Opus的计算机使用和电子表格处理能力,并推出了多款并行产品来展示该模型在这些场景下的表现。与Opus 4.5一同发布的,还有之前处于试点阶段的Claude for Chrome和Claude for Excel产品,现在将更广泛地提供给用户。Chrome扩展将面向所有Max用户开放,而专注于Excel的模型将面向Max、团队版和企业版用户提供。
Opus 4.5还在长上下文操作的记忆改进方面取得了进展,这需要对模型管理内存的方式进行重大调整。
Anthropic研究产品管理负责人Dianne Na Penn告诉TechCrunch:"我们在Opus 4.5的训练中对通用长上下文质量进行了改进,但仅仅依靠上下文窗口是不够的。知道要记住哪些正确的细节,这对于补充更长的上下文窗口非常重要。"
这些变化还启用了付费Claude用户长期请求的"无限聊天"功能,当模型达到其上下文窗口时,聊天可以继续进行而不会中断。相反,模型会压缩其上下文内存而不会提醒用户。
许多升级都着眼于智能体使用场景,特别是Opus作为主导智能体指挥一组由Haiku驱动的子智能体的情况。管理这些任务需要强大的工作记忆控制能力,这正是Penn描述的记忆改进真正显示其价值的地方。
Penn说:"这就是记忆等基础能力变得非常重要的原因,因为Claude需要能够探索代码库和大型文档,同时知道何时回溯和重新检查某些内容。"
Opus 4.5将面临来自其他最近发布的前沿模型的激烈竞争,最值得注意的是OpenAI的GPT 5.1(11月12日发布)和谷歌的Gemini 3(11月18日发布)。
Q&A
Q1:Opus 4.5相比之前的版本有哪些主要改进?
A:Opus 4.5在多个方面有显著提升:首先在编程基准测试SWE-Bench verified中得分超过80%,成为首个达到这一成绩的模型;其次增强了计算机使用和电子表格处理能力;最后改进了长上下文操作的记忆管理,支持"无限聊天"功能。
Q2:Claude for Chrome和Claude for Excel产品有什么特点?
A:这两款产品之前处于试点阶段,现在随Opus 4.5正式推出。Chrome扩展面向所有Max用户开放,而Excel专版面向Max、团队版和企业版用户提供。它们展示了Opus 4.5在浏览器和电子表格场景下的强大能力。
Q3:Opus 4.5的"无限聊天"功能是如何工作的?
A:当模型达到上下文窗口限制时,传统上聊天会中断。而Opus 4.5的"无限聊天"功能会自动压缩上下文内存,让对话继续进行而不会提醒用户,从而实现无中断的长时间对话体验。
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
腾讯等机构提出ViQ框架,通过两阶段渐进量化训练,让离散视觉编码在多模态理解和图像重建上同时追平连续特征编码器,训练速度最高提升70%。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
香港科技大学与华为联合提出LISA训练方法,通过让副网络对齐"似然分数",将ControlNet等图像生成模型的训练收敛速度提升逾2.78倍,同时改善图像质量与条件控制精度。