智能体技术正在快速发展,其自主性也在不断增强。从网络导航到递归改进自身编程技能,智能体AI有望重新整合在线经济并重新定义互联网。
然而,对于企业环境而言,AI智能体带来了巨大的风险。从辅助转向自动化可能是一个危险的举措,特别是当这些实体被赋予执行关键操作的完全权限时——从完成简单的金融交易到协调复杂的供应链。
为了降低这种风险,卡内基梅隆大学和富士通的研究人员开发了三个基准测试,用于衡量AI智能体何时足够安全或有效,能够在没有人工监督的情况下运行业务操作。这些基准测试在1月26日举行的2026年新加坡人工智能AAAI会议的研讨会上发布。
FieldWorkArena基准测试
第一个基准测试名为FieldWorkArena,用于评估部署在现场的AI智能体,特别是物流和制造环境,如工厂和仓库。FieldWorkArena计算智能体在检测安全规则违规和工作程序偏差,以及生成事故报告方面的准确率。例如,一个检查高风险区域个人防护设备(PPE)合规性的AI智能体需要理解PPE标准,识别区域内的工人,分析他们所穿戴的设备是否符合标准,并报告合规人员数量。
该基准测试不使用模拟,而是采用真实世界的数据源,包括工作手册、安全法规以及现场拍摄的图像和视频。日本庆应义塾大学教授、研讨会组织者之一的Hideo Saito强调了在为智能体AI基准测试收集输入数据集时数据隐私的重要性,"特别是当你想将此类数据集用于商业、非学术用途时"。例如,FieldWorkArena的数据是在视频录像中出现的人员同意下获得的,同时对面部和敏感工作区域进行了模糊处理以防止身份识别。
研究人员评估了三个能够处理图像和文本数据的多模态大语言模型:Anthropic的Claude Sonnet 3.7、Google的Gemini 2.0 Flash和OpenAI的GPT-4o。结果令人担忧,三个模型都获得了较低的准确率分数。尽管它们在信息提取和图像识别方面表现出色,但这些大语言模型有时会出现幻觉,并且在精确计数对象和测量特定距离方面存在困难。
这些发现表明,企业需要基于企业环境和现实任务的智能体AI基准测试。这就是富士通主导FieldWorkArena开发的原因,该公司注意到客户对评估为现场工作优化的AI智能体效率的需求不断增长,富士通研究院AI实验室高级项目总监Hiro Kobashi说:"客户对大语言模型感到不确定和担忧,所以我们想为他们提供良好、充分的基准测试。"
ECHO和企业RAG基准测试
虽然FieldWorkArena可以通过其GitHub存储库访问,但Kobashi指出,在研讨会上展示的其他两个基准测试——ECHO(基于证据的幻觉观察)和企业检索增强生成(RAG)基准测试,将在一个月内向公众开放。ECHO评估视觉语言模型(VLMs)幻觉缓解策略的有效性,这些模型被设计用于回答关于图像的问题或从视觉输入生成文本。结果表明,裁剪图像使模型将注意力集中在相关区域,以及应用强化学习进行推理等技术,可以最大限度地减少VLMs中的幻觉。
同时,企业RAG基准测试评估AI智能体从权威知识库中检索数据并使用该数据来增强其生成回应的能力。测量的指标包括检索与查询相关的正确区域以及从检索到的信息中正确推理。
未来发展方向
未来,Kobashi和他的团队计划扩展他们创建的基准测试的功能,以适应其他行业和用例。"客户需求非常多样化。我们不能仅通过使用一个基准测试来涵盖所有需求,所以我们需要拥有多种基准测试,"他说。
持续更新基准测试是团队计划采取的另一个关键步骤。随着AI智能体的发展,它们的基准测试分数也可能上升,达到进步微小的程度。这将表明需要更新、更全面的基准测试来指导更好的企业AI智能体的开发。
Q&A
Q1:FieldWorkArena基准测试是用来做什么的?
A:FieldWorkArena是用于评估部署在现场的AI智能体的基准测试,特别针对物流和制造环境如工厂和仓库。它计算智能体在检测安全规则违规、工作程序偏差以及生成事故报告方面的准确率,比如检查高风险区域个人防护设备的合规性。
Q2:目前的大语言模型在FieldWorkArena测试中表现如何?
A:测试结果令人担忧,包括Claude Sonnet 3.7、Gemini 2.0 Flash和GPT-4o在内的三个多模态大语言模型都获得了较低的准确率分数。尽管它们在信息提取和图像识别方面表现出色,但经常出现幻觉,并且在精确计数对象和测量特定距离方面存在困难。
Q3:ECHO基准测试主要解决什么问题?
A:ECHO(基于证据的幻觉观察)主要评估视觉语言模型幻觉缓解策略的有效性。研究结果表明,通过裁剪图像使模型将注意力集中在相关区域,以及应用强化学习进行推理等技术,可以最大限度地减少视觉语言模型中的幻觉现象。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。