周四,Anthropic发布了其旗舰模型的最新版本Claude Opus 4.8。新版本允许用户控制Claude的努力程度,支持处理更大规模的编程任务,并以更低的价格使用快速模式。Anthropic同时表示,该模型在诚实性方面有所提升,欺骗行为减少,对用户自主性和利益的支持也得到了改善。
基准测试结果显示,Opus 4.8的表现超越了前代模型,以及GPT-5.5和Gemini 3.1 Pro,但在智能体终端编程领域,OpenAI的模型仍占据优势。新模型于周四正式上线,定价与Opus 4.7保持一致。
可调节的努力程度控制
Opus 4.8新增了一项努力程度控制功能,允许用户根据需求调整Claude的计算投入。在高努力模式下,Claude会"更频繁、更深入地思考,以给出更好的回答";而在低努力模式下,模型响应更快,消耗用户的速率限制也更慢。这对于担心速率限制消耗过快的用户来说,或许是个好消息。
动态工作流支持大规模编程任务
目前处于研究预览阶段的"动态工作流"功能,将使用户能够借助Claude Code处理更大规模的问题。Anthropic表示,用户现在可以要求Claude"规划任务,并在单个会话中并行运行数百个子智能体",完成后再将经过验证的输出结果返回给用户。以大型代码库迁移为例,搭载Opus 4.8的Claude Code可以"从启动到合并,跨越数十万行代码"完成整个迁移过程。
快速模式价格大幅下降
Anthropic宣布,Opus 4.8快速模式(即模型以2.5倍正常速度运行时)的价格"比前代模型便宜了三倍"。这对注重成本控制的Claude用户来说无疑是一大利好。
更诚实、更少欺骗
Anthropic对齐团队表示,Opus 4.8"在亲社会特征测量方面达到了新高"。具体而言,该模型在支持用户自主性和维护用户最佳利益方面均有所提升。欺骗行为和配合滥用的比例也"大幅低于"前代模型,性能水平已与Claude Mythos Preview相当——后者曾被Anthropic称为"我们训练过的对齐最佳模型"。
在诚实性方面,Anthropic表示Opus 4.8"对自身代码缺陷保持沉默的可能性比前代低约四倍"。早期测试者也证实了这一点,称Opus 4.8"在执行智能体任务时更加可靠、判断更为敏锐"。
基准测试表现亮眼
Anthropic表示,Opus 4.8在所有基准测试中均优于前代。尽管发布日的基准成绩不一定能完全反映真实使用体验,但这些数据仍展现出相当的潜力。
最值得关注的是:在智能体编程方面,Opus 4.8得分69.2%,显著高于Opus 4.7(64.3%)、GPT-5.5(58.65%)和Gemini 3.1 Pro(54.2%);在智能体算力使用得分方面,Opus 4.8达到83.4%,同样领先于GPT-5.5(78.7%)和Gemini 3.1 Pro(76.2%)。不过,在智能体终端编程方面,Opus 4.8的得分比GPT-5.5低3.6%,暂居下风。
Opus系列发展历程回顾
2025年5月,Anthropic在首届开发者大会"Code with Claude"上发布了Opus 4,并将其定位为"全球最佳编程模型"。该模型在编程能力和长上下文推理方面实现了重大突破,尤其擅长处理长时间运行的任务,能在"数千步"操作中保持上下文连贯。
2025年8月,Opus 4.1发布,在智能体任务、编程和推理方面带来了一定程度的改进,但整体属于小幅更新。
2025年11月,Opus 4.5正式亮相,Anthropic再度将其誉为"全球最佳编程、智能体与计算机使用模型"。该版本提升了模型处理歧义和多系统漏洞问题的能力,帮助Anthropic在OpenAI的GPT-5.1-Codex-Max和谷歌的Gemini 3模型受到广泛关注后重夺编程领域的领先地位。
三个月后,Anthropic推出了Opus 4.6,这被认为是大语言模型在企业工作流应用方面的一次重要跨越。Opus 4.6引入了100万Token的上下文窗口,成为Anthropic首个采用自适应思维的模型,并获得了出色的基准测试成绩。然而,该版本发布后,Anthropic因调整长上下文定价策略而遭到用户批评——超过约20万Token的请求将按更高的"长上下文"价格档位收费。
Opus 4.7于2026年4月发布,带来了更好的视觉、记忆与指令跟随能力,但随后被曝出存在自相矛盾的回复和性能下滑问题。Anthropic甚至将Opus 4.7定性为在某些方面"能力不如"当时备受关注的Claude Mythos Preview,外界认为Opus 4.7在一定程度上是为Mythos测试新安全机制的过渡版本。
后续计划与市场展望
Opus 4.8于5月28日发布的传言最终得到证实,因此网络上流传的其他消息也值得关注:相关泄露信息还显示,Anthropic即将宣布推出Sonnet 4.8和Mythos 1。
对于这家近期频频令用户失望的AI公司而言,这将是重大消息。本月早些时候,Anthropic在Claude Code智能体视图方面令开发者颇为失望。Neurometric AI的联合创始人兼CEO Rob May向媒体表示:"它减少了一些阻力,但并没有解决根本问题。"同周,Anthropic还宣布将从6月15日起对智能体SDK的使用拆分计费,这对习惯将程序化使用和交互式使用合并计入同一订阅额度的用户来说,并非好消息。
或许,Mythos 1和Sonnet 4.8的到来将带来更多惊喜。
Q&A
Q1:Claude Opus 4.8的努力程度控制功能有什么用?
A:努力程度控制功能允许用户调整Claude在任务中的计算投入。设置为高努力模式时,Claude会更频繁、更深入地思考,给出更优质的回答;设置为低努力模式时,响应速度更快,消耗速率限制也更慢。这一功能对担心触碰速率上限的用户尤为实用,可根据任务复杂程度灵活分配算力资源。
Q2:Opus 4.8的动态工作流功能具体能做什么?
A:动态工作流功能目前处于研究预览阶段,允许用户通过Claude Code处理大规模编程项目。用户可以要求Claude规划整体任务,并在单个会话中并行运行数百个子智能体,系统会在返回结果前自动验证输出内容。典型应用场景包括大型代码库迁移,Claude Code可从项目启动到最终合并,跨越数十万行代码完成全流程工作。
Q3:Opus 4.8和GPT-5.5在基准测试上有什么差距?
A:整体来看,Opus 4.8在多项基准测试中领先于GPT-5.5。在智能体编程方面,Opus 4.8得分69.2%,远高于GPT-5.5的58.65%;在智能体算力使用得分方面,Opus 4.8以83.4%对78.7%占优。但在智能体终端编程这一细分领域,GPT-5.5仍以高出3.6个百分点的成绩保持领先,是Opus 4.8目前尚未超越的方向。
好文章,需要你的鼓励
Velotric Tempo是一款以骑行体验为核心的轻量级通勤电动自行车,整车重量仅17.7kg。配备350W后轮毂电机和360Wh电池,续航可达50-65公里。支持踏频与扭矩传感器双模式切换,骑行感受自然流畅。内置Apple Find My及安卓追踪功能,具备UL认证和IPX6/IPX7防水等级。主要不足在于Class 3模式下油门被完全禁用,油门手感欠佳,且售价1499美元略偏高,挡泥板和后货架需另购。
PaW是一种为AI智能体设计的协同训练框架,无需额外模型或数据,仅利用强化学习训练中已有的轨迹数据,让智能体同时学会决策与预测环境变化,在多个任务上取得稳定提升。
一家加拿大家具制造商借助发那科M-710iC工业机器人,成功将传统劳动密集型软垫工序自动化。该系统由发那科授权系统集成商Dvolu开发,集机器视觉、机器人操作与激光裁剪于一体,可完成面料拉伸、钉合、裁剪及码垛等工序,无需人工干预即可适应零件差异。项目旨在解决家具行业劳动力短缺问题,为难以招募和留用工人的岗位提供有效替代方案。
萨尔大学团队提出语义运动锚点方法,通过自动生成同时描述手势外观与交流意图的自然语言说明书,让AI更准确地检索与语言语义匹配的手势,在BEAT2数据集上检索准确率提升8.2%。