Anthropic今日发布Claude Opus 4.6,该公司称这是其针对企业和知识工作最强大的模型。这个新的大语言模型是Opus 4.5的升级版本,具备更广泛的自主能力和更精准的首次执行结果。
Anthropic将Opus 4.6描述为"前沿模型",专门设计用于处理复杂的端到端企业工作流程。"前沿模型"一词在AI行业中用来描述处于当前AI能力前沿的AI系统。
使用Opus 4.6,"文档、电子表格和演示文稿将需要更少的迭代修改",这是ZDNET收到的公司代表邮件中的表述。
Anthropic表示:"AI要真正解决企业工作问题,必须在三个关键成果上取得成功:查找信息、分析信息和从中产出成果。"据该公司称,4.6在这三个关键成果上都表现出色。
这些都表明AI智能体能力的跃升,具备处理复杂、长期任务的能力,而不仅仅是孤立的子任务。
以旅行为例,简单的子任务可能是告诉司机"在下一个红绿灯右转",而更复杂的任务则是告诉位于纽约市的司机开车到波士顿的法尼尔厅。司机需要自己确定步骤并到达目的地。同样,Opus 4.6更广泛自主能力的理念是它可以为大规模任务规划和执行复杂的步骤序列。
据该公司称,Opus 4.6还减少了"常见企业交付成果"所需的修正和重构次数。
云存储供应商Box的AI负责人Yashodha Bhavnani表示:"Claude Opus 4.6在高推理任务方面表现卓越,如跨法律、金融和技术内容的多源分析。Box的评估显示性能提升10%,达到68%相比58%的基线,在技术领域获得近乎完美的分数。"
Anthropic还将Claude Opus 4.6定位为金融建模的宝贵资源。该AI可以协助处理监管文件、市场报告和内部数据,为以前需要分析师花费数天完成的项目提供快速结果。Anthropic表示Opus 4.6"处理合规敏感输出所需的细微差别"。
Opus 4.6在法律推理方面同样表现强大。法律AI公司Harvey的AI研究主管Niko Grupen表示:"Claude Opus 4.6在所有Claude模型中获得最高的BigLaw Bench得分90.2%。40%的完美分数和84%超过0.8的成绩,它在法律推理方面能力卓越。"
另一个引人注目的新功能是Claude与PowerPoint的集成。发布后,Claude将能够直接在PowerPoint内部工作(可能作为插件),并能够读取布局、字体和幻灯片母版。这样,AI的编辑可以保持"品牌一致性和模板一致性"。
据该公司称,Claude Opus 4.6可以"从企业模板构建幻灯片、重构故事线、将项目符号转换为图表,或根据描述生成完整演示文稿——所有这些都无需离开应用程序"。
PowerPoint功能目前处于研究预览阶段,通过等待列表提供。ZDNET已申请访问权限。一旦获得,我们将创建一些精美的幻灯片并向您报告。
Claude以其智能体编程能力而闻名。Claude Opus 4.6在Opus 4.5优势基础上构建,具有更多智能体行为。该公司表示,自主编程改进将特别有益于拥有大型代码库、长期任务和复杂实现的开发人员。
作为Claude Code用户,这引出了一个关键问题。使用Opus 4.5的Claude Code经常需要运行压缩序列来释放可用资源。这个过程不仅耗时很长,还经常中断项目流程。
如果4.6应该能够处理更大的代码库,那么上下文窗口需要增长。Anthropic表示"Claude Opus 4.6将在发布时支持1M上下文(测试版)。这是第一个具有长上下文的Opus模型。"看到这个功能的实际表现将非常有趣。
该公司为API和订阅Claude用户提供Claude Opus 4.6中智能体团队的研究预览。该公司表示团队"让Claude Code像真正的工程团队一样工作。不再是一个智能体按顺序完成任务,您可以将工作分配给多个智能体——每个都拥有自己的部分并直接与其他智能体协调"。
我一直在Claude Code中使用Opus 4.5运行多个并行智能体时遇到困难,特别是在Xcode 26.3预览版中。我发现一旦主智能体启动一系列子智能体,它们就不再可见以供我亲自管理。当其中一个或多个卡住时(它们似乎经常如此),整个智能体编程过程就会挂起。
我希望Claude Opus 4.6中的智能体团队能提供更好的透明度、更好的整体管理和更好的损害控制,这样如果它们卡住了,它们会报告并寻求帮助。请继续关注。我会做一些测试并报告整体性能。
尽管如此,无代码AI公司Replit的总裁Michele Catasta表示:"Claude Opus 4.6在智能体规划方面是一个巨大飞跃。它将复杂任务分解为独立子任务,并行运行工具和子智能体,并以真正的精确性识别阻碍。"
Anthropic表示:"Claude Opus 4.6今天在claude.ai、我们的API和所有主要云平台上可用。"对于API用户,Token定价与之前版本相比没有变化。
一些功能如PowerPoint、1M上下文和智能体团队被描述为研究预览或测试版,在发布时不能广泛使用。但Anthropic在AI时间上工作。因此研究预览和测试版中的项目更可能在几周而不是几个月后推出。毕竟,它确实有AI来帮助编写其产品代码。
Q&A
Q1:Claude Opus 4.6相比之前版本有什么主要改进?
A:Claude Opus 4.6在Opus 4.5基础上升级,具备更广泛的自主能力和更精准的首次执行结果。它能处理复杂的端到端企业工作流程,在查找信息、分析信息和产出成果三个关键领域表现出色,大大减少了文档、电子表格和演示文稿的迭代修改次数。
Q2:Claude Opus 4.6在编程方面有什么新功能?
A:Claude Opus 4.6支持1M上下文窗口,这是第一个具有长上下文的Opus模型。它还提供智能体团队功能,可以将工作分配给多个智能体并行处理,而不是单个智能体按顺序完成任务,特别有益于拥有大型代码库、长期任务和复杂实现的开发人员。
Q3:Claude Opus 4.6与PowerPoint的集成有什么特色?
A:Claude可以直接在PowerPoint内部工作,能够读取布局、字体和幻灯片母版,确保AI编辑保持品牌和模板一致性。它可以从企业模板构建幻灯片、重构故事线、将项目符号转换为图表,或根据描述生成完整演示文稿,所有操作都无需离开应用程序。目前该功能处于研究预览阶段。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。