微软为Copilot研究智能体增加多模型AI功能，提升准确性

微软正在为其Microsoft 365 Copilot研究助手增加多模型功能，旨在提高AI生成研究输出的准确性和深度。更新引入了"批评"系统，为生成和评估分配不同角色，以及"委员会"功能来比较多个模型的输出。内部测试显示，带有批评功能的研究助手在综合评分上比之前系统提高了13.8%。专家指出，多模型系统虽然功能强大但增加了管理复杂性，企业需要重新考虑AI部署的治理框架。

微软正在为其Microsoft 365 Copilot"研究"智能体扩展新的多模型功能，旨在提高AI生成研究输出的准确性和深度。

此次更新引入了"批评"系统，该系统为生成和评估分配单独的角色，同时还有一个"委员会"功能，可以比较多个模型的输出，并突出显示一致性、分歧点和独特见解。

使用DRACO基准测试的内部测试显示，配备批评系统的研究智能体在综合评分上超越了之前报告的系统13.8%（7.0分）。

"我们看到分析广度和深度方面的改善最大（+3.33），其次是呈现质量（+3.04）和事实准确性（+2.58），"微软在博客文章中表示。"所有维度都显示出统计学意义上的显著改善（配对t检验，p < 0.0001）。"

委员会功能并行运行多个模型以生成独立报告，通过判断系统综合关键差异和见解，帮助IT团队比较不同的解读。

"简单来说，这就像拥有一个聪明的专业人员加上一个严格的审查员，"Pareekh咨询公司CEO Pareekh Jain说道。"但这仍然是渐进式的，不是魔法。它减少了错误但不能完全消除错误。"

其他专家指出，仅仅模型协调可能不足以推动有意义的企业成果。

"多模型系统在与CRM和HRM系统等内部企业数据集成时才能发挥其全部潜力，"Counterpoint Research研究副总裁Neil Shah说道。"这确保了AI驱动的洞察在上下文中具有细致入微的特点，反映公司独特的市场地位、客户特征和决策者的具体要求。"

基准测试的局限性与现实考量

微软的DRACO基准测试结果看起来很强，但企业应该谨慎对待它们。

"将其视为最佳情况测试；它显示AI模型可以相互检查并发现错误，但真实的公司数据要复杂得多，包含冲突信息和过时文档，"Jain说道。"还存在判断偏见的风险；如果两个AI相似，审查员可能会错过相同的错误。虽然基准测试衡量逻辑，但它们无法捕捉真正的商业价值。"

向多模型系统的转变为企业IT团队引入了新的操作复杂性层面。系统更强大，但也更难管理。

组织现在必须跟踪包括初始草稿、批评和最终输出的交互链，而不是单一的输入输出流。

"这创建了更大的审计跟踪，安全和合规团队必须审查以了解决策是如何制定的，"Jain补充道。"它还增加了成本和延迟，因为一个问题可以触发许多模型调用。另一个挑战是责任归属。如果出现问题，很难知道哪个部分失败了，比如生成器、审查员还是管理它们的系统。"

分析师表示，这将要求企业重新思考围绕AI部署的治理框架。

"企业必须优先考虑对模型到输出选择过程的治理，以及如何混合或选择多个响应的细化，"Shah说道。"这种持续监控和校准将成为流程质量管理的基本组成部分。"Shah补充说，企业还需要结构化机制来评估输出及其现实影响，确保整个决策过程的可追溯性，并改善多模型系统随时间的管理方式。

Q&A

Q1：微软Copilot研究智能体的多模型功能是什么？

A：这是微软为Microsoft 365 Copilot"研究"智能体新增的功能，包括"批评"系统和"委员会"功能。批评系统为生成和评估分配单独角色，委员会功能则比较多个模型输出，突出一致性、分歧和独特见解，旨在提高AI研究输出的准确性和深度。

Q2：多模型AI系统会给企业带来哪些挑战？

A：主要挑战包括操作复杂性增加、成本和延迟提升、责任归属困难等。企业需要跟踪更复杂的交互链，审计跟踪更大，当出现问题时很难确定是生成器、审查员还是管理系统的问题。还可能存在判断偏见风险。

Q3：企业如何更好地部署多模型AI系统？

A：专家建议企业应与CRM、HRM等内部数据系统集成，确保AI洞察反映公司独特情况。需要重新思考治理框架，建立结构化评估机制，确保决策过程可追溯，并将持续监控和校准作为流程质量管理的基本组成部分。

来源：Computerworld

0赞

好文章，需要你的鼓励

微软为Copilot研究智能体增加多模型AI功能，提升准确性

来源：Computerworld

2026

04/03

11:11

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

Gemma 4：最强开放模型重磅发布，性能密度创新高

NVIDIA加速Gemma 4本地智能体AI：从RTX到Spark全面优化

微软发布三款高速图像语音AI模型

微软发布三款AI模型，与OpenAI展开直接竞争

Google发布Gemma 4对抗中国开源模型

Google Vids获Veo与Lyria AI模型升级支持

微软扩展Copilot功能引发企业AI安全新挑战

AI自动控制Stream Deck按钮功能上线

心理健康AI检测工具获FDA批准困难重重

OpenAI收购TBPN科技脱口秀节目 布局AI传播战略

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会

OpenAI收购TBPN科技脱口秀节目布局AI传播战略