一名汽车工厂工人能清楚记得前一天晚上把半成品零件放在哪个储物箱,并迅速返回取回。但与她并肩工作的机器人,却难以建立和调用同类"时空记忆"。
如今,麻省理工学院(MIT)的研究人员开发出一套长期记忆框架,让机器人能够快速建立并回忆起对复杂大型环境的详细认知模型。
未来,这项技术可以让工厂工人只需对机器人助手说一句"去把我们昨晚开始组装的零件拿来",机器人便能独立完成任务。
这套新方法将先进的地图表示与机器人在长期移动过程中收集到的丰富环境描述相结合,使机器人能够快速调用记忆,以自然语言回答关于环境的复杂问题。
这一记忆框架在回答问题的准确性上优于现有主流方法,同时运行速度足以支持移动机器人实时使用。
除在机器人领域的潜在应用外,该方法还可应用于增强现实系统,例如辅助维修工人检测异常,或帮助通勤者进行路线导航。
MIT航空航天系副教授、信息与决策系统实验室(LIDS)主要研究员、MIT SPARK实验室主任卢卡·卡洛内(Luca Carlone)表示:"如果我们希望机器人与人类并肩工作并更好地与人类互动,它们就必须说同一种语言。机器人必须能像人类一样对时间和空间进行推理。这正是我们方法的核心所在——将传统地图转化为基于语言的地图,让机器人更容易理解并通过语言进行访问。"
该论文的共同作者还包括第一作者、MIT博士生尼古拉斯·戈洛(Nicolas Gorlo),以及MIT前研究科学家、现任德国纽伦堡理工大学教授卢卡斯·施密德(Lukas Schmid)。相关研究近期已在计算机视觉与模式识别会议(CVPR)上发表。
时空记忆
记忆能力使人工智能系统(如聊天机器人)得以回答复杂问题,并对之前与用户的交互进行推理。
卡洛内表示:"我们希望设计一种新型记忆——时空记忆,让AI驱动的机器人能够记住真实的交互过程和传感器观测数据。就像ChatGPT,但要扎根于现实世界,能够回答任何关于环境的问题,比如'我把钱包放哪儿了?'"
为构建这套记忆框架,MIT研究人员将两个研究方向加以融合:计算机视觉与机器人地图构建。
多模态计算机视觉模型能够理解并详细描述场景中的物体,但通常每次只能处理单条标注。而机器人地图构建框架虽然能够创建整个公寓或大学校园等大规模环境的三维地图,却往往缺乏对物体的详细描述,或计算成本过高。
MIT研究人员开发的方法名为"随时随地描述一切"(Describe Anything, Anywhere, Anytime, at Any Moment,简称DAAAM),融合了两种方式的优势。
借助DAAAM,机器人在穿越环境的过程中,会为所见物体附上丰富的描述。例如,机器人可能会记录MIT校园某栋建筑叫做Stata中心、采用某种特定风格的建筑设计;或者某个自行车停放架上有五辆自行车,其中红色那辆轮胎漏气。
这些详细信息被存储在按空间排列的三维地图表示中,物体将被归入各自所在的区域。由此,机器人便能记住那辆轮胎漏气的红色自行车停在Stata中心外的停车架上。
然而,现有技术在捕捉此类丰富描述时,通常需要数秒才能完成对少数几个物体的标注,这对于实时运行来说太慢——机器人在几分钟的探索中可能会看到数百个物体。
卡洛内补充道:"机器人形成这种空间记忆的速度越快,其在环境中执行任务的效率就越高。"
流程优化
为提升速度,DAAAM在机器人移动过程中对附近物体进行聚合,并采用优化方法筛选关键帧进行标注。这些关键帧是能够最清晰观察多个物体的图像,使系统能够并行详细描述多个物体,将计算速度提升十倍。
随着机器人对空间的探索,系统将每批标注信息关联到三维地图上特定位置的多个物体。
戈洛解释道:"我们对每个物体只进行一次标注,因此框架可以在超大规模环境中实时运行。通过将物体聚类到不同区域,系统能够回答关于环境中物体与位置的各类查询。"
系统构建完空间记忆后,还需要从海量物体与描述数据库中高效检索信息。
为此,研究人员引入了一个大语言模型,该模型能够调用多种工具快速检索特定信息,同时有效降低幻觉现象。这使DAAAM能够在几秒钟内准确回答用户的查询。
例如,若用户询问机器人关于它在MIT校园某栋建筑附近看到的某件雕塑,DAAAM既可以使用语义搜索工具根据"雕塑"一词检索信息,也可以使用另一工具根据建筑位置进行检索。
经过测试并与其他方法对比,DAAAM的准确率根据问题类型提高了21%至53%不等。
未来,研究团队希望进一步扩展DAAAM,使系统能够记录环境中发生的重要事件,同时也在研究如何将置信度纳入系统的回答中。
戈洛表示:"我们最终的目标是打造能够协助完成各类任务的机器人。借助这一框架,我们正在努力构建基础能力,使通用智能体能够完成用户提出的任何任务。"
本研究部分资金来源于美国陆军研究实验室和海军研究办公室。卡洛内目前以亚马逊学者身份在外访学;本文所述研究工作在MIT完成,与亚马逊无关。
Q&A
Q1:DAAAM框架是什么?它能解决什么问题?
A:DAAAM(随时随地描述一切)是MIT研究人员开发的一套机器人长期时空记忆框架。它解决的核心问题是:机器人难以像人类一样记住"什么物体在什么时间出现在什么地方"。通过将先进地图表示与丰富的自然语言描述相结合,机器人可以实时构建空间记忆,并用自然语言回答关于环境的复杂问题,例如"我把钥匙放在哪儿了"。
Q2:DAAAM框架是如何提升运行速度的?
A:DAAAM通过两个关键机制提升速度:一是在机器人移动过程中对附近物体进行聚合,筛选出视野最清晰的关键帧,实现多个物体的并行标注,将计算速度提升约十倍;二是对每个物体只标注一次,避免重复处理。这使得系统能够在超大规模环境中实时运行,满足移动机器人的实际使用需求。
Q3:DAAAM与现有方法相比准确率提升了多少?
A:经过测试,DAAAM在回答问题的准确率上比现有主流方法提高了21%至53%,具体提升幅度取决于问题的类型。此外,系统还通过引入大语言模型调用多种检索工具,有效降低了AI常见的"幻觉"问题,能够在数秒内给出准确回答。
好文章,需要你的鼓励
"影子AI"是指员工在未经公司批准的情况下使用AI工具办公。虽然ChatGPT等工具能提升效率,但将内部文件、客户数据或源代码输入未授权平台,可能导致企业数据失控。IBM报告显示,20%的企业存在未授权AI工具,63%尚无AI治理政策。专家建议,一味封禁效果有限,企业应明确哪些工具可用、哪些数据禁止上传,员工也应主动核查AI输出内容,避免将敏感信息粘贴至公共AI平台。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
Hirebotics联合Fanuc发布首款基于无代码Beacon平台的防爆协作喷涂机器人Cobot Painter。该方案适用于金属制造商,无需专用喷涂房或复杂编程,可在现有人工喷涂环境中数日内完成部署。操作人员通过平板或手机的"点击示教"功能即可引导机器人完成路径学习,实现液体涂料、粉末涂装等高精度重复作业,帮助制造商将涂装业务收回自主管理。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。