微软近日开源了一款AI评估框架,该框架能够将自然语言需求转化为可执行测试用例。此举进一步强化了微软在企业AI治理领域的布局,旨在帮助各组织在将智能体部署至生产环境之前进行系统性验证。
这一框架名为ASSERT(自适应规范驱动的评估与回归测试评分系统),可根据书面规范、产品需求文档及治理文件,自动生成评估场景、数据集、评测指标和评分报告。
"智能体的失效方式往往难以察觉,"微软在博客中写道,"它们可能偏离既定策略、在边缘场景中产生不安全的输出,或在生产环境中呈现出与测试阶段截然不同的行为。通用基准测试无法捕捉这些问题,因为它们并非围绕你的策略、你的智能体或你的应用场景构建。"
ASSERT无需开发者手动创建评估套件,而是将书面意图直接转化为可复用的测试用例,并可集成到AI开发流水线中。
在市场竞争层面,ASSERT的发布使微软进入了一个已相当拥挤的AI评估赛道,现有参与者包括LangChain旗下的LangSmith、Braintrust、Patronus AI、Galileo、Arize AI的Phoenix以及Promptfoo等平台,它们均为企业提供大语言模型应用的基准测试、监控与验证服务。
此次发布恰逢企业快速扩大AI智能体部署规模之际,而正式评估实践仍属少数。
Gartner高级总监分析师Anushree Verma表示:"事实上,99%的组织在将AI智能体投入生产之前根本不进行任何评估。"
Verma指出,行业下一个竞争优势的关键,与其说在于推理模型的进步,不如说在于组织在部署前对AI智能体进行仿真与压力测试的能力。
"智能体AI的下一个竞争护城河,并不在于推理模型的复杂程度或底层架构,而在于训练环境的深度与真实性——尤其是通过智能体仿真来支撑关键任务场景的部署。"她说道。
Gartner预测,到2029年,在受监管行业中超过75%未引入智能体仿真机制而设计的特定领域智能体,将无法实现预期价值。
Forrester则认为,企业正在向行为评估方向迈进,但大多数组织尚未将其纳入正式的生产环境要求。
Forrester首席分析师Biswajeet Mahapatra表示:"大多数企业仍处于中间阶段,行为评估的应用参差不齐,尚未被视为正式的生产准入门槛。"
Forrester数据显示,逾45%的组织已在使用AI智能体,另有25%正处于试点阶段,但由于治理机制不成熟、运营规范不足,许多组织在规模化落地时仍面临困难。
"总体来看,行为评估正变得越来越重要,但对大多数组织而言,它仍是一种临时性或工具驱动的做法,而非贯穿整个生命周期的标准化发布门控机制。"Mahapatra说道。
微软表示,ASSERT采用大语言模型作为评判者,在公司内部验证中,模型生成的评估结果与人工审核人员的一致率达到80%至90%。
Mahapatra认为,这一一致性水平有助于实现大规模AI测试的自动化,但不应将其视为独立的治理机制。
"与人工审核者80%至90%的一致率表明两者高度对齐,但作为治理或合规的独立控制手段仍不够充分,"他表示。
他建议,企业应建立分层监督机制:由AI在规模层面负责评估AI,同时由人工在高风险、受监管或存在模糊性的场景中保留监督职责。此外,买家还需警惕偏差、一致性问题,以及对单一模型同时承担生成与评估角色的过度依赖。
微软以MIT开源许可证发布了ASSERT,允许各组织对框架进行审查、修改,并将其集成到现有AI开发工作流中。
然而,Mahapatra指出,开源并不能消除围绕评估中立性的质疑。
"以MIT许可证开源确实降低了厂商锁定风险,并提升了跨模型生态的互操作性,"他说,"但这并不能完全消除信任或利益冲突方面的疑虑,因为原始厂商仍然影响着评估标准、评分逻辑以及可接受行为定义的编码方式。"
他建议,企业不应仅依赖单一评估框架,而应将AI系统与多种评估方法进行交叉验证,并保留对内部评估策略的自主掌控权。
Q&A
Q1:ASSERT框架是什么?它主要解决什么问题?
A:ASSERT是微软开源的一款AI评估框架,全称为"自适应规范驱动的评估与回归测试评分系统"。它的核心能力是将自然语言写成的需求文档、产品规范或治理文件,自动转化为可执行的测试用例、评估场景和评分报告,帮助企业在将AI智能体部署至生产环境之前进行系统性验证,解决传统通用基准测试无法针对特定业务场景进行评估的痛点。
Q2:ASSERT的评估准确率怎么样?能替代人工审核吗?
A:微软内部验证显示,ASSERT以大语言模型作为评判者,其评估结果与人工审核人员的一致率达到80%至90%。这一水平有助于大规模自动化测试,但分析师认为不足以作为独立的治理控制手段。建议企业采用分层监督机制,AI负责规模化评估,人工则在高风险或模糊场景中保留监督权,不宜完全依赖单一工具替代人工审核。
Q3:企业目前在AI智能体评估方面的整体现状如何?
A:根据Gartner数据,目前99%的组织在将AI智能体投入生产之前不进行任何评估。Forrester数据则显示,超过45%的组织已在使用AI智能体,但行为评估仍以临时性、工具驱动为主,尚未成为标准化的发布门控流程。Gartner预测,到2029年,受监管行业中超过75%未引入智能体仿真机制的特定领域智能体将无法交付预期价值。
好文章,需要你的鼓励
2025年1月,OpenAI、软银、甲骨文和MGX联合宣布"星际之门"计划,承诺投资5000亿美元,部署高达10GW算力基础设施。如今,该项目已从白宫发布会上的宏大承诺,演变为一场前所未有规模的基础设施建设实验。项目已扩展至德克萨斯、威斯康星、俄亥俄等多地,并延伸至阿布扎比和挪威。然而,融资争议、合作伙伴摩擦、能源压力及政策监管收紧,正考验着这一"AI工业园"模式能否真正落地。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
加密货币交易所OKX正式推出AI智能体交易市场OKX AI,允许AI代理相互雇佣、自主结算,并建立基于区块链的可携带信誉档案。该平台经过50家早期服务商封测后向开发者开放,依托稳定币和链上支付基础设施,支持全天候微支付。OKX创始人徐明星表示,传统金融基础设施为人类而建,智能体经济需要为自主软件专门设计的基础设施。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。