AI研究人员和实验室在评估AI模型方面取得了长足进展,涵盖安全合规性、奉承倾向以及与预期目标的一致性等多个维度。然而,企业和开发者面临着一项新的具体需求:如何确保AI系统在其特定产品或服务场景中的行为符合预期。
为了简化这一测试流程,微软于近日正式推出了ASSERT工具。ASSERT全称为Adaptive Spec-driven Scoring for Evaluation and Regression Testing,即自适应规范驱动的评估与回归测试评分框架。
微软表示,这一开源框架借助AI技术,能够将对目标、策略或预期行为的高层次自然语言描述,转化为完整且可评分的测试方案,从而简化特定应用场景下AI行为的评估过程。
ASSERT的工作流程如下:接收对AI模型预期行为和策略的自然语言描述,将其转化为一套结构化的可接受与不可接受行为规范,进而自动生成问题场景和测试用例,并在目标系统上运行,最终对结果进行评分。此外,该框架还能记录AI系统的完整执行路径,包括中间步骤和工具调用情况,帮助开发者定位故障发生的具体位置。
开发者也可以根据需要提供系统上下文、可用工具和约束条件,进一步自定义评估的覆盖范围。
举例来说,开发者可以为一个文档研究类AI智能体设定以下规则:不得向公司外部人员发送邮件、机密信息仅限C级高管查阅、在回答时须结合上下文给出简洁摘要。ASSERT将依据这些规则,持续生成测试用例,验证系统是否始终遵守上述规定。
微软表示,对于那些需要根据具体应用场景、产品策略和工具环境来规范AI行为的场景,通用型评估方案往往力不从心,而ASSERT正是为填补这一空白而设计的。
微软负责任AI部门首席产品官Sarah Bird表示:"我们发现,评估对于做出正确决策至关重要。如果你不了解AI系统的行为方式,就很难判断它是否达到了组织的要求……我们的经验表明,要构建一个真正值得信赖的系统,就需要对大量针对具体应用的维度进行评估。"
Bird还指出,ASSERT可应用于系统开发阶段、部署上线后,乃至持续的日常监控场景。
此次发布恰逢AI行业的一场深刻变革。随着模型能力的不断提升,研究人员越来越重视可重复测试与回归检验机制。斯坦福大学的HELM、MLCommons的AILuminate,以及METR等评估机构,也相继推出了用于衡量模型在不同条件下行为表现的基准测试体系。
Q&A
Q1:微软ASSERT工具是什么?它能解决什么问题?
A:ASSERT是微软推出的一款开源AI行为评估框架,全称为自适应规范驱动的评估与回归测试评分框架。它能够将开发者用自然语言描述的AI行为预期和策略规则,自动转化为结构化测试用例,并对AI系统的实际表现进行评分。它主要解决的是通用评估工具无法覆盖特定应用场景的问题,帮助开发者确认AI系统是否按照产品需求运行。
Q2:ASSERT是如何生成测试用例的?
A:ASSERT的流程分为几个步骤:首先接收开发者输入的自然语言行为描述,将其转化为可接受与不可接受行为的结构化规范;然后基于这些规范自动生成问题场景和测试用例;接着在目标AI系统上运行这些测试并对结果评分;同时还会记录AI系统的执行路径,包括中间步骤和工具调用,方便开发者排查问题。
Q3:ASSERT在什么阶段可以使用?
A:根据微软负责任AI部门首席产品官Sarah Bird的介绍,ASSERT可以在三个阶段使用:系统开发阶段、部署上线之后,以及持续的日常监控过程中。这意味着它不仅是一次性的测试工具,还可以作为长期监控AI系统行为合规性的基础设施。
好文章,需要你的鼓励
研究人员意外发现,标准MOSFET晶体管可同时模拟神经元和突触行为,形成"神经突触随机存取存储器"(NSRAM)。该技术仅需一至两个晶体管即可实现传统需数十乃至数百个元件才能完成的神经信号处理,且与现有硅基制造工艺完全兼容,良率达100%。未来有望应用于边缘AI及高能效神经形态芯片,长远或可挑战GPU地位。
复旦大学团队提出ICWM框架,让机器人在任务前通过随机探测动作自主感知当前视角和物理配置,无需重新训练即可适应新摄像头角度,真实机器人测试成功率最高提升175%。
本文提出一种评估人工智能风险的新方法,借鉴生态学与演化论视角,从理论生态模型中推导出三项风险指标,涵盖种群模型与生态系统模型。研究旨在为AI治理策略提供量化工具,并对分析局限性及政策改进方向进行了深入探讨,为构建更科学的AI风险评估体系提供参考框架。
西安交通大学团队提出Fast-LeWM,用动作前缀并行预测替代逐步推演,将AI世界模型规划速度提升近4倍,同时平均成功率从85.8%提升至90.5%。