波士顿动力与谷歌DeepMind携手赋予Spot推理能力

波士顿动力宣布，其四足机器人Spot已搭载谷歌DeepMind的Gemini Robotics-ER 1.6高级具身推理模型。该模型使Spot能够自主识别危险碎片或泄漏、读取复杂仪表，并在工业巡检场景中更智能地应对环境挑战。目前模型仅支持视觉感知，尚未整合触觉等传感器数据。波士顿动力通过beta测试逐步向客户推出新功能，并要求客户共享数据以持续优化模型性能。

机器人技术令人惊叹，却也令人沮丧——它们几乎能完成你交代的任何任务，前提是你得以正确的方式下达指令。不久前，"正确方式"意味着编写代码。尽管我们已经摆脱了那种僵化的限制，但易用性与任务复杂度之间仍然存在一种令人头疼的反比关系。

AI曾承诺改变这一现状。其核心理念在于：当AI被具身化地植入机器人——赋予AI软件一个存在于现实世界的物理载体——这些机器人便将具备推理与理解能力。这仍属前沿领域，尽管我们已在研究场景中见到了大量具身AI的案例，但要找到能让推理型机器人稳定创造商业价值的应用场景并不容易。波士顿动力是少数几家能在一定规模上实现腿式机器人商业化部署的公司之一，目前已有数千台机器人投入实际运营。近日，该公司宣布其四足机器人Spot正式搭载谷歌DeepMind的Gemini Robotics-ER 1.6——这是一款高级具身推理模型，为复杂任务带来了更强的可用性与智能化水平。

尽管相关视频展示的是Spot在家庭场景中的表现，但此次合作的核心聚焦于腿式机器人少数已被证明具有商业可行性的应用领域之一：巡检。也就是说，在工业设施中四处游走，确认没有任何东西处于即将失控的危险状态。搭载新AI后，Spot现在能够自主识别危险碎片或泄漏物，读取复杂的仪表和液位计，并在需要理解周围环境时调用视觉-语言-动作模型等工具。

波士顿动力Spot业务副总裁兼总经理Marco da Silva在一份新闻稿中表示："Gemini Robotics ER 1.6等技术的进步，标志着机器人在更好地理解和运作于物理世界方面迈出了重要一步。仪表读取和更可靠的任务推理等能力，将使Spot能够完全自主地感知、理解并应对现实世界中的各种挑战。"

"推理"和"理解"这两个词越来越频繁地被用于AI和机器人领域，但正如丰田研究院的Gill Pratt近期指出的那样，这些词对机器人在实际中意味着什么，并不总是清晰的。谷歌DeepMind机器人业务负责人Carolina Parada在接受采访时解释说："我们衡量理解能力的基准是：系统给出的回答应当与人类的反应一致。"要让机器人可靠、安全地执行任务，机器人对世界的理解方式与人类保持一致至关重要。否则，人类给机器人下达的指令与机器人实际执行任务的方式之间，可能会出现偏差。

波士顿动力的演示视频就是一个潜在问题的典型案例。其中一条指令是让Spot"回收客厅里的易拉罐"。从视频来看，它完成了任务，但在执行过程中是横向夹持易拉罐的——如果罐内还有残余液体，后果可想而知。人类会凭借多年的生活经验自然而然地避免这种情况，但机器人目前尚不具备这类世界常识。

Parada表示，Gemini Robotics-ER 1.6会从安全的角度处理类似情况。"如果你让机器人给你端杯水，它会推理出不能把水杯放在桌子边缘，以免摔落。我们通过ASIMOV基准来追踪这一能力，其中包含大量以自然语言描述的、机器人不应做的事情示例。"当前版本的Spot在操作过程中尚未启用这些语义安全模型，但未来计划让其在持握物体时具备相应的安全推理能力。

Gemini Robotics-ER 1.6作为机器人高级推理模型，与机器人本身作为物理世界接口之间，目前似乎仍存在一定脱节。1.6版本的新功能之一是"成功检测"，该功能整合多个摄像角度，以更可靠地判断Spot是否已成功抓取物体。如果完全依赖视觉来完成物体交互，这无疑是个好方案；但机器人其实还有许多成熟的抓取成功检测方式，例如触觉传感器和力传感器，而1.6版本目前并未使用这些手段。这背后的原因，折射出机器人领域尚未攻克的一个根本难题：如何在需要物理数据的情况下训练模型。

Parada解释说："目前，这些模型严格来说只支持视觉输入。网络上有大量关于如何拾取一支笔的视觉信息。如果我们拥有足够多的触觉数据，完全可以学习这项技能，但互联网上几乎没有触觉传感相关的数据。"使用Spot新巡检功能的客户将被要求与波士顿动力共享数据，这正是获取此类数据的来源之一。

拥有付费客户这一事实，使波士顿动力在依赖AI进行商业化部署的腿式机器人领域显得颇为罕见。而这些客户必须能够信任机器人——这在涉及AI时始终是一大难题。da Silva在采访中表示："我们对此非常重视。我们通过面向少数客户的Beta计划来推出DeepMind的新能力，以了解可能出现的问题，并且只会主动推广那些我们有把握能正常运作的功能。"像Spot这样的机器人需要达到一定的实用门槛，好在现实世界并不苛求完美。da Silva说："设施中大多数关键基础设施都会配备仪表来告知你是否出现了问题。但也有很多未被仪表监测的地方，一旦疏忽同样可能引发故障。我们发现，80%以上的准确率是让用户不会感到烦躁的门槛。低于这个水平，机器人基本上就像在'狼来了'，操作人员会开始无视它。"

da Silva与Parada都认为，机器人巡检领域仍有大量改进空间。正如Parada所指出的，Spot作为可规模化商业平台的独特地位，为探索Gemini Robotics-ER 1.6等模型如何发挥最大价值提供了宝贵机会，并可将这些经验应用于其他具身AI平台，包括波士顿动力的Atlas。这是否意味着Atlas将成为下一代工业巡检机器人？大概不会。但如果这些来自真实世界的经验能让我们离安全可靠、能够收拾衣物、遛狗、且不会弄得一团糟地清理易拉罐的机器人更近一步，那确实值得所有人为之期待。

Q&A

Q1：Gemini Robotics-ER 1.6是什么？它给Spot带来了哪些新能力？

A：Gemini Robotics-ER 1.6是谷歌DeepMind开发的高级具身推理模型。搭载该模型后，Spot能够自主识别危险碎片或泄漏物、读取复杂工业仪表和液位计，并在需要时调用视觉-语言-动作模型来理解周围环境，从而在工业设施巡检中实现更高程度的自主操作。

Q2：Spot在执行任务时如何保证安全性？

A：Gemini Robotics-ER 1.6从安全角度出发设计了推理机制，例如不会将水杯放在容易摔落的桌边。谷歌DeepMind通过ASIMOV基准进行追踪，该基准包含大量自然语言描述的"机器人不应做的事"。不过，当前版本的Spot在物体操作方面尚未完全启用语义安全模型，这一功能计划在未来版本中加入。

Q3：为什么Spot目前只依赖视觉传感器，而不使用触觉或力传感器？

A：主要原因是训练数据匮乏。互联网上存在大量视觉数据，但触觉传感相关的数据极为稀少，导致模型无法从中学习。为解决这一问题，使用Spot新巡检功能的客户需要向波士顿动力共享使用数据，以帮助逐步积累物理交互数据，支撑未来模型的训练与优化。

来源：Spectrum

0赞

好文章，需要你的鼓励

波士顿动力与谷歌DeepMind携手赋予Spot推理能力

来源：Spectrum

2026

04/15

14:47

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

思科收购Galileo与Astrix，布局AI基础设施安全治理版图

Starburst推出AI数据助手，让传统商业智能仪表板走向终结

Claude Code推出Routines功能，让定时任务更智能灵活

OpenAI发布GPT-5.4-Cyber模型，普通用户暂时无缘使用

谷歌面向Windows推出全新Gemini桌面应用

AI数据中心初创公司Fluidstack估值数月内从75亿美元飙升至180亿美元

谷歌为Chrome引入"Skills"功能，让Gemini提示词一键复用

英伟达押注AI助力量子计算：用大模型解决量子错误率难题

GitHub推出堆叠PR功能，大幅提升代码审查效率

金融风险管理平台Pillar完成2000万美元种子轮融资，由a16z领投

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会