微软正在为其Microsoft 365 Copilot"研究"智能体扩展新的多模型功能,旨在提高AI生成研究输出的准确性和深度。
此次更新引入了"批评"系统,该系统为生成和评估分配单独的角色,同时还有一个"委员会"功能,可以比较多个模型的输出,并突出显示一致性、分歧点和独特见解。
使用DRACO基准测试的内部测试显示,配备批评系统的研究智能体在综合评分上超越了之前报告的系统13.8%(7.0分)。
"我们看到分析广度和深度方面的改善最大(+3.33),其次是呈现质量(+3.04)和事实准确性(+2.58),"微软在博客文章中表示。"所有维度都显示出统计学意义上的显著改善(配对t检验,p < 0.0001)。"
委员会功能并行运行多个模型以生成独立报告,通过判断系统综合关键差异和见解,帮助IT团队比较不同的解读。
"简单来说,这就像拥有一个聪明的专业人员加上一个严格的审查员,"Pareekh咨询公司CEO Pareekh Jain说道。"但这仍然是渐进式的,不是魔法。它减少了错误但不能完全消除错误。"
其他专家指出,仅仅模型协调可能不足以推动有意义的企业成果。
"多模型系统在与CRM和HRM系统等内部企业数据集成时才能发挥其全部潜力,"Counterpoint Research研究副总裁Neil Shah说道。"这确保了AI驱动的洞察在上下文中具有细致入微的特点,反映公司独特的市场地位、客户特征和决策者的具体要求。"
基准测试的局限性与现实考量
微软的DRACO基准测试结果看起来很强,但企业应该谨慎对待它们。
"将其视为最佳情况测试;它显示AI模型可以相互检查并发现错误,但真实的公司数据要复杂得多,包含冲突信息和过时文档,"Jain说道。"还存在判断偏见的风险;如果两个AI相似,审查员可能会错过相同的错误。虽然基准测试衡量逻辑,但它们无法捕捉真正的商业价值。"
向多模型系统的转变为企业IT团队引入了新的操作复杂性层面。系统更强大,但也更难管理。
组织现在必须跟踪包括初始草稿、批评和最终输出的交互链,而不是单一的输入输出流。
"这创建了更大的审计跟踪,安全和合规团队必须审查以了解决策是如何制定的,"Jain补充道。"它还增加了成本和延迟,因为一个问题可以触发许多模型调用。另一个挑战是责任归属。如果出现问题,很难知道哪个部分失败了,比如生成器、审查员还是管理它们的系统。"
分析师表示,这将要求企业重新思考围绕AI部署的治理框架。
"企业必须优先考虑对模型到输出选择过程的治理,以及如何混合或选择多个响应的细化,"Shah说道。"这种持续监控和校准将成为流程质量管理的基本组成部分。"Shah补充说,企业还需要结构化机制来评估输出及其现实影响,确保整个决策过程的可追溯性,并改善多模型系统随时间的管理方式。
Q&A
Q1:微软Copilot研究智能体的多模型功能是什么?
A:这是微软为Microsoft 365 Copilot"研究"智能体新增的功能,包括"批评"系统和"委员会"功能。批评系统为生成和评估分配单独角色,委员会功能则比较多个模型输出,突出一致性、分歧和独特见解,旨在提高AI研究输出的准确性和深度。
Q2:多模型AI系统会给企业带来哪些挑战?
A:主要挑战包括操作复杂性增加、成本和延迟提升、责任归属困难等。企业需要跟踪更复杂的交互链,审计跟踪更大,当出现问题时很难确定是生成器、审查员还是管理系统的问题。还可能存在判断偏见风险。
Q3:企业如何更好地部署多模型AI系统?
A:专家建议企业应与CRM、HRM等内部数据系统集成,确保AI洞察反映公司独特情况。需要重新思考治理框架,建立结构化评估机制,确保决策过程可追溯,并将持续监控和校准作为流程质量管理的基本组成部分。
好文章,需要你的鼓励
2025年1月,OpenAI、软银、甲骨文和MGX联合宣布"星际之门"计划,承诺投资5000亿美元,部署高达10GW算力基础设施。如今,该项目已从白宫发布会上的宏大承诺,演变为一场前所未有规模的基础设施建设实验。项目已扩展至德克萨斯、威斯康星、俄亥俄等多地,并延伸至阿布扎比和挪威。然而,融资争议、合作伙伴摩擦、能源压力及政策监管收紧,正考验着这一"AI工业园"模式能否真正落地。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
加密货币交易所OKX正式推出AI智能体交易市场OKX AI,允许AI代理相互雇佣、自主结算,并建立基于区块链的可携带信誉档案。该平台经过50家早期服务商封测后向开发者开放,依托稳定币和链上支付基础设施,支持全天候微支付。OKX创始人徐明星表示,传统金融基础设施为人类而建,智能体经济需要为自主软件专门设计的基础设施。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。