微软Copilot让Claude与GPT携手协作，共同提升智能体研究能力

微软正在Copilot的Researcher智能体中同时整合Anthropic的Claude与OpenAI的GPT模型。新增的"批评"功能让GPT负责起草内容，Claude负责审核准确性、完整性和引用规范。基准测试显示，双模型协作模式得分57.4，高于任何单一模型。此外，微软还推出"council"功能，支持多模型并排对比。Copilot Cowork功能现已上线，让企业数据保留在安全边界内使用Claude能力，进一步深化了微软的多模型战略布局。

微软在AI领域的策略，长期以来主要依赖第三方大语言模型。起初主要使用OpenAI的GPT系列模型，近来也引入了Anthropic的Claude——而现在，微软正将两者同时整合，用于提升Copilot的研究者（Researcher）智能体的能力。

研究者智能体专为需要深度推理或跨多源信息解决问题的场景而设计，近期新增了一项可选的"批评"（Critique）功能。在这一工作流程中，GPT负责起草内容，随后由Claude进行审核。根据微软的官方声明，审核内容涵盖"准确性、完整性与引用规范性"三个维度。

微软表示，未来还可能为用户提供反向切换选项，即由Claude负责撰写、GPT负责审核。

这种工作流程乍看之下可能略显粗糙，但其实与开发者有时采用一个模型编写代码、再用另一个不同系列的模型进行代码审查的做法并无本质区别。

至少从微软的基准测试结果来看，这一方案展现出明显优势。在Perplexity的深度研究DRACO基准测试中，Anthropic的Claude Opus 4.6单独运行得分为42.7分，在Perplexity深度研究模式下得分为50.4分，而开启"批评"功能的Copilot研究者智能体得分高达57.4分，超越了所有单独模型的表现。

目前尚无OpenAI GPT-5.4的基准测试数据，但其得分预计与Opus 4.6处于相近水平。

研究功能的另一项新特性是"委员会"（Council）功能，允许用户并排对比不同模型处理同一查询的结果。

此外，微软近期还宣布将Anthropic的Claude Cowork工具引入Copilot。Cowork本质上是面向知识工作者的Claude Code，能够运行需要完成多步骤工作流的长时间智能体任务。该功能以"Copilot Cowork"为名，现已在早期访问计划Microsoft 365 Frontier中上线。

微软在此处的优势在于：许多客户对直接向Anthropic上传企业数据心存顾虑。而这些企业本已在使用Microsoft 365，Copilot Cowork的数据完全由企业自主掌控（Cowork在沙盒云环境中运行），这使他们得以放心使用这些新工具。

Capital Group企业技术高级副总裁巴顿·华纳（Barton Warner）表示："这不是关于生成内容或答案，而是真正付诸行动——串联步骤、协调任务、贯穿日常工作流程。由于Cowork在我们的企业数据环境及安全与风险边界内运行，我们可以充满信心地进行试验、学习并推广扩展，这让我们能够更快推进，并将AI聚焦于真正能创造价值的场景。"

引入Anthropic来推出Cowork和Critique等功能，折射出微软当前所处的战略位置：一方面在逐步摆脱对OpenAI的早期依赖，另一方面也在与另一家模型供应商建立更深层的合作关系。

对于为Copilot支付高额费用的客户而言，一个核心问题始终萦绕心头：使用微软服务的价值，究竟在于其所调度的模型本身，还是在于使这些模型真正发挥作用的企业数据与信任层？

微软显然押注于后者。而对Anthropic来说，这次合作是其迈向企业AI首选供应商目标的又一重要布局。

微软商业应用与智能体总裁查尔斯·拉曼纳（Charles Lamanna）在首次宣布Cowork时曾指出："正是这种多模型优势，让Copilot与众不同。"如果微软拥有自己的前沿模型，或许会采取不同的策略，但就现状而言，这已是其所能做出的最优选择。

Q&A

Q1：Copilot研究者智能体的"批评"功能是如何运作的？

A：Copilot研究者智能体的"批评"功能采用双模型协作机制：由OpenAI的GPT负责起草内容，再交由Anthropic的Claude进行审核，审核范围涵盖准确性、完整性与引用规范性三个方面。在Perplexity的DRACO基准测试中，开启该功能后得分达57.4分，高于Claude Opus 4.6单独运行的42.7分和深度研究模式下的50.4分，显示出明显的性能提升效果。

Q2：Copilot Cowork是什么？有什么特别之处？

A：Copilot Cowork是微软将Anthropic的Claude Cowork工具引入Copilot后推出的功能，主要面向需要处理多步骤复杂工作流的知识工作者。其核心优势在于数据安全性：Cowork运行于沙盒云环境中，企业数据无需上传至Anthropic，完全在企业自有的Microsoft 365环境内受控运行，因此特别适合对数据安全要求较高的企业客户。目前该功能已在Microsoft 365 Frontier早期访问计划中上线。

Q3：微软为什么要同时使用GPT和Claude，而不是只用一个模型？

A：微软目前没有自研的前沿大语言模型，因此必须依赖第三方模型。引入多模型策略一方面是为了减少对单一供应商OpenAI的依赖，另一方面也通过多模型协作实现性能互补——不同模型家族在审查彼此输出时往往能发现对方遗漏的问题。微软认为自身的核心价值在于整合模型的企业数据管理能力与信任层，而非模型本身，因此多模型策略是其现阶段最优解。

来源：The New Stack

0赞

好文章，需要你的鼓励

微软Copilot让Claude与GPT携手协作，共同提升智能体研究能力

来源：The New Stack

2026

04/16

15:05

分享

点赞

1976年大学实验如何催生美国风能产业

江波龙：建设完成mSSD月产能百万交付能力！mSSD高速存储介质赋能端侧AI规模应用

从IO500双榜第一，看国产存储的系统级突破

Rocket Lab宣布以80亿美元收购卫星运营商铱星公司

Tidal宣布将为AI生成音乐添加标签并移除欺诈内容

Claude Tag：将职场AI从个人助手升级为团队协作伙伴

数百万颗超新星爆炸或将揭开暗能量的秘密

Base44发布自研大语言模型，氛围编程平台寻求核心竞争壁垒

遗留系统与数据鸿沟制约亚洲财资中心发展

机器人手部公司与特斯拉达成商业秘密诉讼和解，完成1100万美元融资

OpenAI携手Trail of Bits发起"Patch the Planet"开源安全修复计划

想进大厂？初创公司或许才是你的最佳跳板

Kelsey Hightower在KubeCon 2026：面对AI，人人都是初级工程师

Anthropic多事之秋：模型泄露、源码暴露与GitHub下架风波

Anthropic发布Claude Mythos：仅限特定合作伙伴使用

Sam Altman承诺投入数十亿用于AI安全，OpenAI实际花了多少？

AWS智能体注册表：助力企业发现与管理AI智能体

新加坡华侨银行为理财顾问推出生成式AI培训项目

TDX 2026：Salesforce 描绘 SaaS 的智能体进化之路

英国地形测量局携手Snowflake，构建AI洪水风险评估模型

鞋履公司转型AI基础设施，历史泡沫是否正在重演？

GitHub Copilot遭用户强烈反弹，限速调整背后是定价模型的崩溃

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: