微软正在为其Microsoft 365 Copilot"研究"智能体扩展新的多模型功能,旨在提高AI生成研究输出的准确性和深度。
此次更新引入了"批评"系统,该系统为生成和评估分配单独的角色,同时还有一个"委员会"功能,可以比较多个模型的输出,并突出显示一致性、分歧点和独特见解。
使用DRACO基准测试的内部测试显示,配备批评系统的研究智能体在综合评分上超越了之前报告的系统13.8%(7.0分)。
"我们看到分析广度和深度方面的改善最大(+3.33),其次是呈现质量(+3.04)和事实准确性(+2.58),"微软在博客文章中表示。"所有维度都显示出统计学意义上的显著改善(配对t检验,p < 0.0001)。"
委员会功能并行运行多个模型以生成独立报告,通过判断系统综合关键差异和见解,帮助IT团队比较不同的解读。
"简单来说,这就像拥有一个聪明的专业人员加上一个严格的审查员,"Pareekh咨询公司CEO Pareekh Jain说道。"但这仍然是渐进式的,不是魔法。它减少了错误但不能完全消除错误。"
其他专家指出,仅仅模型协调可能不足以推动有意义的企业成果。
"多模型系统在与CRM和HRM系统等内部企业数据集成时才能发挥其全部潜力,"Counterpoint Research研究副总裁Neil Shah说道。"这确保了AI驱动的洞察在上下文中具有细致入微的特点,反映公司独特的市场地位、客户特征和决策者的具体要求。"
基准测试的局限性与现实考量
微软的DRACO基准测试结果看起来很强,但企业应该谨慎对待它们。
"将其视为最佳情况测试;它显示AI模型可以相互检查并发现错误,但真实的公司数据要复杂得多,包含冲突信息和过时文档,"Jain说道。"还存在判断偏见的风险;如果两个AI相似,审查员可能会错过相同的错误。虽然基准测试衡量逻辑,但它们无法捕捉真正的商业价值。"
向多模型系统的转变为企业IT团队引入了新的操作复杂性层面。系统更强大,但也更难管理。
组织现在必须跟踪包括初始草稿、批评和最终输出的交互链,而不是单一的输入输出流。
"这创建了更大的审计跟踪,安全和合规团队必须审查以了解决策是如何制定的,"Jain补充道。"它还增加了成本和延迟,因为一个问题可以触发许多模型调用。另一个挑战是责任归属。如果出现问题,很难知道哪个部分失败了,比如生成器、审查员还是管理它们的系统。"
分析师表示,这将要求企业重新思考围绕AI部署的治理框架。
"企业必须优先考虑对模型到输出选择过程的治理,以及如何混合或选择多个响应的细化,"Shah说道。"这种持续监控和校准将成为流程质量管理的基本组成部分。"Shah补充说,企业还需要结构化机制来评估输出及其现实影响,确保整个决策过程的可追溯性,并改善多模型系统随时间的管理方式。
Q&A
Q1:微软Copilot研究智能体的多模型功能是什么?
A:这是微软为Microsoft 365 Copilot"研究"智能体新增的功能,包括"批评"系统和"委员会"功能。批评系统为生成和评估分配单独角色,委员会功能则比较多个模型输出,突出一致性、分歧和独特见解,旨在提高AI研究输出的准确性和深度。
Q2:多模型AI系统会给企业带来哪些挑战?
A:主要挑战包括操作复杂性增加、成本和延迟提升、责任归属困难等。企业需要跟踪更复杂的交互链,审计跟踪更大,当出现问题时很难确定是生成器、审查员还是管理系统的问题。还可能存在判断偏见风险。
Q3:企业如何更好地部署多模型AI系统?
A:专家建议企业应与CRM、HRM等内部数据系统集成,确保AI洞察反映公司独特情况。需要重新思考治理框架,建立结构化评估机制,确保决策过程可追溯,并将持续监控和校准作为流程质量管理的基本组成部分。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。