Anthropic于周四正式发布了其目前最先进公开模型的最新版本——Opus 4.8。该模型已在所有平台全面上线,定价标准与上一版本Opus保持一致。
此次新模型的发布距离Opus 4.7上线仅41天,这对Anthropic而言是一个远超以往的快速迭代周期。作为对比,最新版Sonnet和Haiku模型距今分别已有三个月和七个月未更新。此番加速迭代,或许与Opus 4.7发布后遭遇的冷淡反响有关——部分用户认为该版本表现不尽如人意。
与此同时,OpenAI的Codex和谷歌的Gemini Flash模型相继推出重要更新,也进一步加剧了Anthropic在竞争中的压力。
新版本除了延续行业领先的基准测试成绩外,在处理错误或不确定数据方面也获得了特别关注。在官方发布博文中,Anthropic早期测试用户发现,Opus 4.8"更倾向于主动标记工作中的不确定性,且更少提出缺乏依据的结论"。
桥水基金(Bridgewater Associates)的用户测评也印证了这一点,其表示此次升级最显著的变化在于"Opus 4.8能够主动发现分析输入和输出中存在的问题,而这正是其他模型通常会忽略、留给用户自行排查的部分"。
与新模型同步发布的,还有一项名为"动态工作流"(Dynamic Workflows)的新功能,目前以研究预览版形式开放使用。该系统旨在帮助Opus等大型模型协调管理跨数百个并行子智能体的复杂任务。
官方博文中写道:"Claude Code结合Opus 4.8,现已能够在现有测试套件的约束下,从启动到合并,完整执行涵盖数十万行代码的代码库级迁移任务。"
值得一提的是,Anthropic旗下最先进的Mythos模型目前仍处于暂缓发布状态——上个月的初步预览因引发网络安全方面的顾虑而被叫停。不过,Anthropic在今天的Opus发布公告中暗示,一旦必要的安全防护措施就位,Mythos的预览期或将很快结束。
"我们正在加快推进相关安全措施的开发工作,预计将在未来几周内向所有用户开放Mythos级别的模型。"Anthropic在公告中表示。
Q&A
Q1:Opus 4.8相比Opus 4.7有哪些改进?
A:Opus 4.8最显著的改进在于对不确定数据的处理能力。新版本更倾向于主动标记分析中的不确定性,减少提出无依据结论的情况。桥水基金的测试反馈也指出,Opus 4.8能主动发现分析输入和输出中存在的问题,而非将排查工作留给用户,这是其他模型普遍缺失的能力。
Q2:动态工作流功能具体是做什么的?
A:动态工作流(Dynamic Workflows)是Anthropic与Opus 4.8同步推出的新功能,目前以研究预览版形式开放。该功能旨在帮助Opus等大型模型协调管理跨数百个并行子智能体的复杂任务。结合Claude Code使用,可实现对数十万行代码的代码库级迁移,覆盖从任务启动到代码合并的完整流程。
Q3:Anthropic的Mythos模型什么时候正式发布?
A:目前Mythos模型仍未正式对外开放。此前的初步预览因引发网络安全顾虑而暂停。Anthropic在Opus 4.8发布公告中表示,公司正加快推进相关安全防护措施的开发,预计将在未来几周内向所有用户开放Mythos级别的模型,具体发布时间尚未正式确认。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。