机器人技术令人惊叹,却也令人沮丧——它们几乎能完成你交代的任何任务,前提是你得以正确的方式下达指令。不久前,"正确方式"意味着编写代码。尽管我们已经摆脱了那种僵化的限制,但易用性与任务复杂度之间仍然存在一种令人头疼的反比关系。
AI曾承诺改变这一现状。其核心理念在于:当AI被具身化地植入机器人——赋予AI软件一个存在于现实世界的物理载体——这些机器人便将具备推理与理解能力。这仍属前沿领域,尽管我们已在研究场景中见到了大量具身AI的案例,但要找到能让推理型机器人稳定创造商业价值的应用场景并不容易。波士顿动力是少数几家能在一定规模上实现腿式机器人商业化部署的公司之一,目前已有数千台机器人投入实际运营。近日,该公司宣布其四足机器人Spot正式搭载谷歌DeepMind的Gemini Robotics-ER 1.6——这是一款高级具身推理模型,为复杂任务带来了更强的可用性与智能化水平。
尽管相关视频展示的是Spot在家庭场景中的表现,但此次合作的核心聚焦于腿式机器人少数已被证明具有商业可行性的应用领域之一:巡检。也就是说,在工业设施中四处游走,确认没有任何东西处于即将失控的危险状态。搭载新AI后,Spot现在能够自主识别危险碎片或泄漏物,读取复杂的仪表和液位计,并在需要理解周围环境时调用视觉-语言-动作模型等工具。
波士顿动力Spot业务副总裁兼总经理Marco da Silva在一份新闻稿中表示:"Gemini Robotics ER 1.6等技术的进步,标志着机器人在更好地理解和运作于物理世界方面迈出了重要一步。仪表读取和更可靠的任务推理等能力,将使Spot能够完全自主地感知、理解并应对现实世界中的各种挑战。"
"推理"和"理解"这两个词越来越频繁地被用于AI和机器人领域,但正如丰田研究院的Gill Pratt近期指出的那样,这些词对机器人在实际中意味着什么,并不总是清晰的。谷歌DeepMind机器人业务负责人Carolina Parada在接受采访时解释说:"我们衡量理解能力的基准是:系统给出的回答应当与人类的反应一致。"要让机器人可靠、安全地执行任务,机器人对世界的理解方式与人类保持一致至关重要。否则,人类给机器人下达的指令与机器人实际执行任务的方式之间,可能会出现偏差。
波士顿动力的演示视频就是一个潜在问题的典型案例。其中一条指令是让Spot"回收客厅里的易拉罐"。从视频来看,它完成了任务,但在执行过程中是横向夹持易拉罐的——如果罐内还有残余液体,后果可想而知。人类会凭借多年的生活经验自然而然地避免这种情况,但机器人目前尚不具备这类世界常识。
Parada表示,Gemini Robotics-ER 1.6会从安全的角度处理类似情况。"如果你让机器人给你端杯水,它会推理出不能把水杯放在桌子边缘,以免摔落。我们通过ASIMOV基准来追踪这一能力,其中包含大量以自然语言描述的、机器人不应做的事情示例。"当前版本的Spot在操作过程中尚未启用这些语义安全模型,但未来计划让其在持握物体时具备相应的安全推理能力。
Gemini Robotics-ER 1.6作为机器人高级推理模型,与机器人本身作为物理世界接口之间,目前似乎仍存在一定脱节。1.6版本的新功能之一是"成功检测",该功能整合多个摄像角度,以更可靠地判断Spot是否已成功抓取物体。如果完全依赖视觉来完成物体交互,这无疑是个好方案;但机器人其实还有许多成熟的抓取成功检测方式,例如触觉传感器和力传感器,而1.6版本目前并未使用这些手段。这背后的原因,折射出机器人领域尚未攻克的一个根本难题:如何在需要物理数据的情况下训练模型。
Parada解释说:"目前,这些模型严格来说只支持视觉输入。网络上有大量关于如何拾取一支笔的视觉信息。如果我们拥有足够多的触觉数据,完全可以学习这项技能,但互联网上几乎没有触觉传感相关的数据。"使用Spot新巡检功能的客户将被要求与波士顿动力共享数据,这正是获取此类数据的来源之一。
拥有付费客户这一事实,使波士顿动力在依赖AI进行商业化部署的腿式机器人领域显得颇为罕见。而这些客户必须能够信任机器人——这在涉及AI时始终是一大难题。da Silva在采访中表示:"我们对此非常重视。我们通过面向少数客户的Beta计划来推出DeepMind的新能力,以了解可能出现的问题,并且只会主动推广那些我们有把握能正常运作的功能。"像Spot这样的机器人需要达到一定的实用门槛,好在现实世界并不苛求完美。da Silva说:"设施中大多数关键基础设施都会配备仪表来告知你是否出现了问题。但也有很多未被仪表监测的地方,一旦疏忽同样可能引发故障。我们发现,80%以上的准确率是让用户不会感到烦躁的门槛。低于这个水平,机器人基本上就像在'狼来了',操作人员会开始无视它。"
da Silva与Parada都认为,机器人巡检领域仍有大量改进空间。正如Parada所指出的,Spot作为可规模化商业平台的独特地位,为探索Gemini Robotics-ER 1.6等模型如何发挥最大价值提供了宝贵机会,并可将这些经验应用于其他具身AI平台,包括波士顿动力的Atlas。这是否意味着Atlas将成为下一代工业巡检机器人?大概不会。但如果这些来自真实世界的经验能让我们离安全可靠、能够收拾衣物、遛狗、且不会弄得一团糟地清理易拉罐的机器人更近一步,那确实值得所有人为之期待。
Q&A
Q1:Gemini Robotics-ER 1.6是什么?它给Spot带来了哪些新能力?
A:Gemini Robotics-ER 1.6是谷歌DeepMind开发的高级具身推理模型。搭载该模型后,Spot能够自主识别危险碎片或泄漏物、读取复杂工业仪表和液位计,并在需要时调用视觉-语言-动作模型来理解周围环境,从而在工业设施巡检中实现更高程度的自主操作。
Q2:Spot在执行任务时如何保证安全性?
A:Gemini Robotics-ER 1.6从安全角度出发设计了推理机制,例如不会将水杯放在容易摔落的桌边。谷歌DeepMind通过ASIMOV基准进行追踪,该基准包含大量自然语言描述的"机器人不应做的事"。不过,当前版本的Spot在物体操作方面尚未完全启用语义安全模型,这一功能计划在未来版本中加入。
Q3:为什么Spot目前只依赖视觉传感器,而不使用触觉或力传感器?
A:主要原因是训练数据匮乏。互联网上存在大量视觉数据,但触觉传感相关的数据极为稀少,导致模型无法从中学习。为解决这一问题,使用Spot新巡检功能的客户需要向波士顿动力共享使用数据,以帮助逐步积累物理交互数据,支撑未来模型的训练与优化。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。