Anthropic于周四正式发布了其目前最先进公开模型的最新版本——Opus 4.8。该模型已在所有平台全面上线,定价标准与上一版本Opus保持一致。
此次新模型的发布距离Opus 4.7上线仅41天,这对Anthropic而言是一个远超以往的快速迭代周期。作为对比,最新版Sonnet和Haiku模型距今分别已有三个月和七个月未更新。此番加速迭代,或许与Opus 4.7发布后遭遇的冷淡反响有关——部分用户认为该版本表现不尽如人意。
与此同时,OpenAI的Codex和谷歌的Gemini Flash模型相继推出重要更新,也进一步加剧了Anthropic在竞争中的压力。
新版本除了延续行业领先的基准测试成绩外,在处理错误或不确定数据方面也获得了特别关注。在官方发布博文中,Anthropic早期测试用户发现,Opus 4.8"更倾向于主动标记工作中的不确定性,且更少提出缺乏依据的结论"。
桥水基金(Bridgewater Associates)的用户测评也印证了这一点,其表示此次升级最显著的变化在于"Opus 4.8能够主动发现分析输入和输出中存在的问题,而这正是其他模型通常会忽略、留给用户自行排查的部分"。
与新模型同步发布的,还有一项名为"动态工作流"(Dynamic Workflows)的新功能,目前以研究预览版形式开放使用。该系统旨在帮助Opus等大型模型协调管理跨数百个并行子智能体的复杂任务。
官方博文中写道:"Claude Code结合Opus 4.8,现已能够在现有测试套件的约束下,从启动到合并,完整执行涵盖数十万行代码的代码库级迁移任务。"
值得一提的是,Anthropic旗下最先进的Mythos模型目前仍处于暂缓发布状态——上个月的初步预览因引发网络安全方面的顾虑而被叫停。不过,Anthropic在今天的Opus发布公告中暗示,一旦必要的安全防护措施就位,Mythos的预览期或将很快结束。
"我们正在加快推进相关安全措施的开发工作,预计将在未来几周内向所有用户开放Mythos级别的模型。"Anthropic在公告中表示。
Q&A
Q1:Opus 4.8相比Opus 4.7有哪些改进?
A:Opus 4.8最显著的改进在于对不确定数据的处理能力。新版本更倾向于主动标记分析中的不确定性,减少提出无依据结论的情况。桥水基金的测试反馈也指出,Opus 4.8能主动发现分析输入和输出中存在的问题,而非将排查工作留给用户,这是其他模型普遍缺失的能力。
Q2:动态工作流功能具体是做什么的?
A:动态工作流(Dynamic Workflows)是Anthropic与Opus 4.8同步推出的新功能,目前以研究预览版形式开放。该功能旨在帮助Opus等大型模型协调管理跨数百个并行子智能体的复杂任务。结合Claude Code使用,可实现对数十万行代码的代码库级迁移,覆盖从任务启动到代码合并的完整流程。
Q3:Anthropic的Mythos模型什么时候正式发布?
A:目前Mythos模型仍未正式对外开放。此前的初步预览因引发网络安全顾虑而暂停。Anthropic在Opus 4.8发布公告中表示,公司正加快推进相关安全防护措施的开发,预计将在未来几周内向所有用户开放Mythos级别的模型,具体发布时间尚未正式确认。
好文章,需要你的鼓励
今天讲的出海案例是依米康,这家数据中心温控与液冷设备厂商正在把泰国纳入海外交付体系,并用生产线、总装车间和焓差实验室承接算力设施订单。
BioMatrix是首个将分子序列、分子三维结构、蛋白质序列、蛋白质三维结构和自然语言统一在单一语言模型中的生物基础模型,在80项任务中77项达到最优或第二优。
Salesforce正式推出Help Agent,这是基于Agentforce平台的预封装AI客服智能体,可在数分钟内连接企业知识库、操作功能及网页、短信、语音等沟通渠道。该产品同步推出按解决率计费模式,每次成功自主解决客户问题收费2美元,无需按token或操作次数计费。Help Agent支持低代码构建,内置测试功能,并配备全新客户服务门户。该产品预计于2026年7月正式上线。
浙江大学提出SKILLHARNESS框架,通过为AI电脑助手的每项技能附加安全边界,从成功、失败和风险三类经历中学习,使AI在动态危险环境中安全高效地完成任务。