微软正在为其Microsoft 365 Copilot"研究"智能体扩展新的多模型功能,旨在提高AI生成研究输出的准确性和深度。
此次更新引入了"批评"系统,该系统为生成和评估分配单独的角色,同时还有一个"委员会"功能,可以比较多个模型的输出,并突出显示一致性、分歧点和独特见解。
使用DRACO基准测试的内部测试显示,配备批评系统的研究智能体在综合评分上超越了之前报告的系统13.8%(7.0分)。
"我们看到分析广度和深度方面的改善最大(+3.33),其次是呈现质量(+3.04)和事实准确性(+2.58),"微软在博客文章中表示。"所有维度都显示出统计学意义上的显著改善(配对t检验,p < 0.0001)。"
委员会功能并行运行多个模型以生成独立报告,通过判断系统综合关键差异和见解,帮助IT团队比较不同的解读。
"简单来说,这就像拥有一个聪明的专业人员加上一个严格的审查员,"Pareekh咨询公司CEO Pareekh Jain说道。"但这仍然是渐进式的,不是魔法。它减少了错误但不能完全消除错误。"
其他专家指出,仅仅模型协调可能不足以推动有意义的企业成果。
"多模型系统在与CRM和HRM系统等内部企业数据集成时才能发挥其全部潜力,"Counterpoint Research研究副总裁Neil Shah说道。"这确保了AI驱动的洞察在上下文中具有细致入微的特点,反映公司独特的市场地位、客户特征和决策者的具体要求。"
基准测试的局限性与现实考量
微软的DRACO基准测试结果看起来很强,但企业应该谨慎对待它们。
"将其视为最佳情况测试;它显示AI模型可以相互检查并发现错误,但真实的公司数据要复杂得多,包含冲突信息和过时文档,"Jain说道。"还存在判断偏见的风险;如果两个AI相似,审查员可能会错过相同的错误。虽然基准测试衡量逻辑,但它们无法捕捉真正的商业价值。"
向多模型系统的转变为企业IT团队引入了新的操作复杂性层面。系统更强大,但也更难管理。
组织现在必须跟踪包括初始草稿、批评和最终输出的交互链,而不是单一的输入输出流。
"这创建了更大的审计跟踪,安全和合规团队必须审查以了解决策是如何制定的,"Jain补充道。"它还增加了成本和延迟,因为一个问题可以触发许多模型调用。另一个挑战是责任归属。如果出现问题,很难知道哪个部分失败了,比如生成器、审查员还是管理它们的系统。"
分析师表示,这将要求企业重新思考围绕AI部署的治理框架。
"企业必须优先考虑对模型到输出选择过程的治理,以及如何混合或选择多个响应的细化,"Shah说道。"这种持续监控和校准将成为流程质量管理的基本组成部分。"Shah补充说,企业还需要结构化机制来评估输出及其现实影响,确保整个决策过程的可追溯性,并改善多模型系统随时间的管理方式。
Q&A
Q1:微软Copilot研究智能体的多模型功能是什么?
A:这是微软为Microsoft 365 Copilot"研究"智能体新增的功能,包括"批评"系统和"委员会"功能。批评系统为生成和评估分配单独角色,委员会功能则比较多个模型输出,突出一致性、分歧和独特见解,旨在提高AI研究输出的准确性和深度。
Q2:多模型AI系统会给企业带来哪些挑战?
A:主要挑战包括操作复杂性增加、成本和延迟提升、责任归属困难等。企业需要跟踪更复杂的交互链,审计跟踪更大,当出现问题时很难确定是生成器、审查员还是管理系统的问题。还可能存在判断偏见风险。
Q3:企业如何更好地部署多模型AI系统?
A:专家建议企业应与CRM、HRM等内部数据系统集成,确保AI洞察反映公司独特情况。需要重新思考治理框架,建立结构化评估机制,确保决策过程可追溯,并将持续监控和校准作为流程质量管理的基本组成部分。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。