机器人会迎来ChatGPT式突破吗?

未来数十年,数十亿台AI驱动的自主机器人将走进工厂、仓库、养老院及家庭。2025年,机器人领域投资已达创纪录的407亿美元。然而,从演示视频到真实落地之间仍存在巨大鸿沟。作者认为,机器人领域的重大突破不会来自单一的ChatGPT式飞跃,而将依赖多种AI工具协同配合的系统工程,包括智能体架构、高质量训练数据、新型执行器以及大量真实场景部署经验的积累。

未来几十年,数十亿台自主运行的AI驱动机器人将与人类并肩工作——在工厂生产线上协作、在仓库执行重复性任务、照护老年人、在危险灾区提供援助、将包裹和食物送到家门口,最终还会进入我们的家庭提供帮助。有些机器人会像人类一样,但更多不会。可以确定的是,无论外形如何,机器人都将严重依赖AI才能创造真实世界的价值。

2025年,机器人公司的总投资达到创纪录的407亿美元,占所有风险投资的9%。因此,价值数十亿美元的问题是:AI驱动的机器人要产生严肃的经济影响需要什么条件?当今许多机器人和AI公司都在做出大胆宣称,比如人形机器人很快就会进入我们的家庭,但承诺与现实之间仍存在巨大差距。

与我们共同生活和工作的机器人承诺长期以来一直是科幻小说的素材。虽然许多程序员试图将这一承诺变为现实,但物理世界对于传统计算机程序来说太过复杂,无法处理其呈现的无尽复杂性。得益于AI,机器人不再被编程——相反,它们学习在真实世界中运作。通过足够的练习,它们可以学会感知和理解周围世界,对世界进行推理,并利用这种推理和理解来执行有用、可靠且安全的任务。

我们两人在过去十年一直工作在AI和机器人的前沿,一位是俄勒冈州立大学机器人学教授兼Agility Robotics联合创始人,另一位是Google X的Everyday Robots项目前CEO。我们在真实世界环境中部署AI驱动机器人的经验让我们对AI在复杂机器人系统中的近期应用有了独特视角,也了解哪些领域仍处于科幻前沿。我们相信AI将推动机器人技术的拐点,但这将通过精心设计的不同AI工具协调系统来实现,而非单一的ChatGPT式突破。

随着围绕AI的兴奋与对可能性的不确定性相匹配,以下是定义机器人AI的五个严峻事实。

不要相信YouTube上的机器人视频

多年来,我们在YouTube上看到人形机器人在舞池到障碍赛道上表演惊人动作的视频。机器人领域的内部知识是"永远不要相信YouTube机器人视频"。能够在非结构化人类环境中执行真实工作的真实机器人,与精心编排和剪辑的机器人表演之间仍存在显著差距。最近引起广泛关注的表演是在2026年中国春节联欢晚会上,Unitree人形机器人与儿童一起表演武术。虽然令人印象深刻,但这属于严格编排的机器人表演的长期传统,一切都经过精心编排和提前规划。低级控制、同步和编排令人惊叹,但春晚机器人表演显示的自主性和智能水平更接近工厂中制造汽车的工业机器人,而非很快会出现在你客厅的东西。

看到这类演示仍然引发了关于机器人技术真实水平的问题。如果机器人能表演功夫动作、后空翻和跳舞,为什么它们还没有出现在工厂车间?为什么它们不能在晚餐后帮我洗碗?简单的答案是:让AI驱动的机器人能够在多样化的人类环境中执行通用任务仍然非常困难。虽然春节联欢晚会等令人印象深刻的技术壮举可能让我们看起来非常接近,但这些演示中AI的使用仅用于低级运动控制(防止机器人摔倒),因此只是机器人在我们人类生活和工作的真实非结构化空间中实现通用目的的一小部分解决方案。

机器人不会有ChatGPT时刻

像OpenAI的ChatGPT和Anthropic的Claude这样的大语言模型最初是在互联网规模的文本数据库上训练的。2022年底的某一天,世界醒来发现ChatGPT展示了AI计算机突然可以用散文或诗歌与我们"交谈",并且几乎可以谈论任何话题。大语言模型已被证明具有良好的泛化能力,现在能够接受多模态输入(文本、图像、视频)并产生多模态输出。重要的是,训练数据语料库既庞大又由人类生成,这些特征构成了AI训练的黄金标准。

给AI一个身体(以机器人的形式),使其能够在物理世界中与人互动,仍然是一个非常困难且广泛未解决的问题。通用机器人的AI模型必须同时满足多个通常相互冲突的物理、几何和时间限制,同时在非结构化、动态环境中运行。为了泛化,机器人模型需要在高维配置空间中收集的数据上进行训练,其中"维度"代表文本、光照条件、自由度、关节限制、速度、力和安全边界等等。重要的是,这必须是好数据——它必须包含来自物理世界中无限可能配置的许多示例。

由于现有这类数据源非常少,远程操作、视频分析、人类动作捕捉以及在模拟和真实世界中的自我探索等方法都被视为收集数据的重要方式。这是一项艰巨的任务。例如,在Google X的Everyday Robots项目中,我们在2022年运行了2.4亿个机器人实例来收集训练数据,主要用于训练垃圾分类模型。每项技能都需要类似数量的数据才能达到类似的能力水平,而这还未达到人类水平。

通用机器人需要智能体AI

我们距离单一AI模型可能让通用机器人与我们共同生活和工作的时刻还很遥远。

通用机器人可以有轮子或腿。它们可以有一个、两个、三个或更多手臂。有些有螺旋桨可以飞行,而其他可能设计用于水下操作。有些会在繁忙的道路上行驶。物理世界无限多样且复杂。然后还有所有将围绕机器人的人和其他动物。如何训练模型在所有这些环境中安全可靠地操作机器人?简单的答案是,你做不到。至少在相当长的时间内做不到。

我们相信,引领通用机器人下一个重大突破的获胜AI架构将是机器人的"智能体AI",这是能够推理、规划、使用工具并从结果中学习以在有限监督下执行复杂任务的高级协调模型。在机器人上运行的智能体高级模型将为不同类型的任务调用专门的系统。我们可能很快会看到多个机器人通过其机载智能体AI模型相互协作和协调。

AI工具正在解锁机器人技术中的新强大能力,这反过来将实现新解决方案和新市场。令人鼓舞的是,这些新模型被广泛提供,有些甚至作为开源解决方案。这种可用性类似于互联网发生的情况:当它变得无处不在时,真正的进步才会发生。我们预计,随着对这些AI工具和技术的广泛访问,机器人技术中复杂行为的民主化不可避免。

机器人硬件需要赶上AI软件

机器人是具有许多部件的复杂系统,所有部件都需要以极高的精度协同工作。为了使机器人有用且安全,它的每个部分都必须协调,从感知系统到控制它的计算机,一直到其各个执行器。

执行器——即电机和齿轮——是机器人重要部分的一个很好的例子,过去的方法无法带我们到达目标。大多数工业机器人大规模使用的执行器不适用于在人类环境中运行的机器人。如果这些机器人意外与障碍物碰撞,产生的冲击会很剧烈,力很大,东西会损坏。人类不会以这种方式移动。我们与世界互动的方式更加柔顺,我们不断与环境接触并利用这种接触来帮助我们完成事情。

考虑将钥匙插入锁中的挑战:人类通常不会通过将钥匙与钥匙孔完美对齐来做到这一点。相反,我们只是感觉钥匙孔的边缘并晃动钥匙。机器人需要能够以新颖的方式操作,通过使用对力敏感且能够与环境进行柔顺交互的新型执行器来实现可比的能力。虽然这类执行器确实存在,但它们尚未普遍用于设计在人周围运行的机器人系统。

客户需求推动机器人AI发展

看起来令人印象深刻的任务与提供价值的真实世界任务之间存在很大差异。机器人技术是莫拉维克悖论的完美例子,该悖论指出,对人类来说困难的任务对计算机来说很容易(如两个大数相乘),而对人类来说容易的任务(如幼儿的动作)对计算机和机器人来说极其困难。

服务客户是一个无情的现实检验,因为客户只关心解决他们实际遇到的问题。如果我们要部署基于AI的机器人解决方案,它们必须优于当前的做法,同时展示可靠的性能指标和安全性。Agility Robotics在客户地点部署人形机器人Digit的早期工作导致我们意识到,第一个障碍是安全性:在人类空间中平衡和操纵物体的机器人给工作场所带来了新型风险。在首次人形机器人部署中,物理屏障是必要的,Agility启动了一项多年工程努力来解决安全挑战,涉及机器人设计的几乎每个方面,并严重依赖基于AI的新方法进行人类检测和行为控制。

Everyday Robots在Google于2019年部署了在办公楼中自主工作的机器人,执行清洁咖啡桌和分类垃圾等杂务。我们很快了解到真实世界对机器人来说有多"混乱"和困难。这一经验为我们的AI系统架构和部署提供了信息,同时还收集了可以与模拟数据结合用于训练和改进模型的真实世界数据。

这种专注于创建满足特定客户需求的产品并在真实世界环境中部署机器人,是为近期实用性提供AI工具和基础设施结构信息的唯一方式,也是通往长期更广泛能力和通用性的道路。不会有"顿悟"时刻,没有灵丹妙药算法,也没有足够的数据量可以在没有广泛真实世界经验的情况下产生通用机器人。

Q&A

Q1:为什么YouTube上的机器人视频不能代表真实的机器人能力?

A:机器人领域的内部知识是"永远不要相信YouTube机器人视频"。这些视频中的机器人表演通常是精心编排和剪辑的,一切都经过提前规划。虽然看起来令人印象深刻,但它们使用的AI仅用于低级运动控制,与能够在非结构化人类环境中执行真实工作的机器人之间仍存在显著差距。

Q2:机器人AI为什么不能像ChatGPT那样实现单一突破?

A:给AI一个身体使其在物理世界中与人互动仍然是一个非常困难且广泛未解决的问题。机器人AI模型必须同时满足多个相互冲突的物理、几何和时间限制,需要在高维配置空间中训练,而这类数据源非常稀缺。每项技能都需要海量数据才能达到类似能力水平,因此不会有单一的ChatGPT式突破时刻。

Q3:智能体AI在机器人技术中扮演什么角色?

A:智能体AI是能够推理、规划、使用工具并从结果中学习的高级协调模型,可以在有限监督下执行复杂任务。在机器人上运行的智能体高级模型将为不同类型的任务调用专门的系统,多个机器人还可以通过其机载智能体AI模型相互协作和协调,这被认为是引领通用机器人下一个重大突破的获胜架构。

来源:IEEE Spectrum - Robotics

0赞

好文章,需要你的鼓励

2026

05/21

10:30

分享

点赞

邮件订阅