为什么机器人不能洗碗?其实它可以,但可能做得不如我们希望的那样好或那样便宜。我曾多次在机器人文章的开头提到20世纪末的电视节目《杰森一家》,正如我们感叹"我们的飞行汽车在哪里?"一样,我们也在感叹缺乏像动画片中穿着围裙的助手那样的机器人管家或女佣,能够承担那些我们认为乏味和繁重的家务活。
但现在,随着我们第一次真正拥有了大量此类技术,我们对其困难程度有了更清晰的认识。以下是我听到的一些关于机器人AI局限性的情况,这些都很好地解释了为什么洗碗自动化设备发展缓慢。
莫拉维克悖论与自然选择的美妙
我最近第一次了解到这个概念,在研究为什么例如深蓝在1997年击败了卡斯帕罗夫,但我们仍然没有机器人来做家务。莫拉维克悖论指出,尽管计算机在纯粹的智力方面可以完全超越我们,但在现实世界中做事情仍然是人类的领域。你只需稍微深入了解一下就会发现,像我们自己的马文·明斯基这样的知名人士自1980年代以来就熟悉这个概念,当时它被归因于在卡内基梅隆大学工作的奥地利人汉斯·莫拉维克。
对我来说,背后的推理原因才是最迷人的。为什么?为什么人类如此擅长在现实空间中操纵物体,而机器人却很难效仿?
答案是查尔斯·达尔文。或者准确地说,是自然选择原理。这表明我们在很长时间内变得更擅长这些事情——比如说,几百万年。
所以我们有巨大的先发优势。
你认为原始人类的灵巧性较差,还是这更多的是学术理论?
无论如何,莫拉维克悖论在很大程度上解释了为什么仅仅依靠传感器不足以让机器人在现实世界中真正发挥作用。这项挑战结合了精细运动技能和决策制定、物理学知识和直觉。至于物理学知识,其中很多可能是直觉性的、本能的、内置的——对我们来说。这不是很奇怪吗?
机器人研究的更多问题
了解实用机器人学局限性的另一种方法是从大语言模型获取列表。微软Copilot在提示时简单地提到了以下几点:人形机器人的复杂性、市场挑战、效率不足、技术限制,以及"投资和耐心",重新提出了ROI的难题,这个问题使许多外围技术陷入困境,直到它们的时代再次到来。
ChatGPT的回答更为雄辩:
问:"为什么机器人做家务如此困难?"
答:"因为家务是混乱感知+棘手操作+无尽边缘情况的糟糕组合。机器人必须在变化的光线下识别杂物,围绕宠物/孩子规划安全动作,并操纵有弹性、光滑、起皱的东西(洗衣、海绵、垃圾袋)。家庭环境也不标准化。人类轻松泛化;机器人仍然在低成本下难以实现这种稳健性。"
是的,你必须处理垃圾袋。还有海绵。但我认为另一部分,"围绕宠物/孩子规划安全动作"是拼图的更大一块。
机器人专家的思考
然后还有来自最近一次TED演讲的更多内容,Navid Aghasadeghi,一位曾为波士顿动力和其他公司从事这些项目的人,指出了构建家务机器人的各种障碍。
"我们没有像《杰森一家》中罗西那样的机器人,可以在房子里走来走去,洗碗、洗衣服,这样你就可以花更多时间陪伴家人,"Aghasadeghi说。"我应该说,我觉得我至少部分负责这种情况,因为我在机器人学领域工作了15年。"
在某些意义上,他争辩说,这归结为软件和硬件的交汇点。
"你必须让软件正确,"Aghasadeghi补充说。"这就是智能。软件必须告诉机器人如何解释世界,它还必须告诉机器人采取什么动作序列来实际做一些有用的事情。一旦你有了这些,你显然需要硬件。所以你需要能够移动机器人关节的执行器,作为整体,可以移动机器人的整个身体,并让机器人对环境施加力量并做有用的事情。"
然后,他继续说,你需要大量传感器来帮助机器人准确感知周围的世界,你需要大规模地添加所有这些东西。
他也引用了莫拉维克悖论,但然后在最后添加了一个转折:
"我们能够构建一个可以击败象棋大师的象棋引擎,而在此之前我们无法构建能够简单行走的机器人,或者无法构建能够抓取不同大小物体、操纵它们并将物体堆叠在一起的机器人,"他说。"这些是一个一两岁的人类婴儿很快学会做的事情,机器人长期以来一直在这方面失败,互联网上充满了许多机器人失败的视频,直到现在。"
这里是关键转折:
"但事情即将发生变化……"
进化阶段
为了解释,Aghasadeghi描述了机器人学的三个不同阶段,直到今天。
第一个是一类简单无脑移动的机器人。
"这些是从位置A到位置B的机器人,"Aghasadeghi说。"它们真的没有感知能力,所以它们不能真正看到环境。它们只知道如何执行这项任务。因此,它们本质上是不安全的,只能在精确制造且一切都在正确位置的环境中操作。"
他识别的第二阶段是"规划和感知",机器人开始能够看到和理解周围的世界,并对多阶段任务进行推理。
第三个是他称为"AI驱动的机器人",机器人中的AI赋予它们一种不寻常的智能。
"这些机器人由驱动你的ChatGPT和驱动你的图像生成技术的同类AI提供动力,这些技术实际上能够超越任务进行泛化,"他说。"所以本质上,我们现在有了通用学习机器和通用学习算法……驱动你的ChatGPT的同一个大语言模型……现在被植入机器人大脑中。有人可以要求机器人清洁他们的厨房、关闭橱柜和洗碗,机器人能够首先理解语言,理解提示计划,作为一系列动作,它必须做这些来完成任务,然后还要理解环境,作为其功能,决定这些任务序列。"
从世界中学习
"这是否意味着机器人学已经解决?"Aghasadeghi反问道。"答案是,还没有,主要问题……是数据问题。"
简而言之,Aghasadeghi建议,尽管ChatGPT可以使用网络的广泛覆盖来学习事实,但现实世界的数据库还没有为机器人学习如何握住物体等技能提供支持。他补充说,研究人员正在努力研究"远程操作"任务,为新一代机器人构建此类数据集。
"这是否意味着我们明年就会有机器人四处奔走为我们做事?"Aghasadeghi说。"我认为我们还没有到那一步。这里的类比是,机器人现在就像几年前的Palm Pilot一样,如果你年龄足够大还记得的话,机器人学需要iPhone所发生的革命,才能让机器人学真正能够围绕在我们身边……机器人学实际上可以作为人类的镜子。因此,通过理解我们必须构建什么技术来增强人类,我们实际上对自己有了更好的理解,这就是我希望的未来,能够构建……让我们更加繁荣的技术。"
所有这些都是对机器人AI障碍的迷人探索,以及如何大胆自信地向前迈进的建议。总有一天,机器人会洗碗,这样你就不必洗了。
Q&A
Q1:什么是莫拉维克悖论?它如何解释机器人做家务的困难?
A:莫拉维克悖论指出,尽管计算机在纯粹的智力方面可以完全超越人类,但在现实世界中做事情仍然是人类的领域。这个悖论解释了为什么深蓝能在1997年击败卡斯帕罗夫,但我们仍然没有能够胜任家务的机器人。人类经过几百万年的自然选择进化,在现实世界的物体操纵方面具有巨大的先发优势。
Q2:Navid Aghasadeghi提到的机器人学三个发展阶段是什么?
A:第一阶段是简单无脑移动的机器人,只能从位置A到位置B,没有感知能力,只能在精确制造的环境中操作。第二阶段是"规划和感知"阶段,机器人开始能够看到和理解周围世界,并对多阶段任务进行推理。第三阶段是"AI驱动的机器人",由类似ChatGPT的大语言模型驱动,具有通用学习能力。
Q3:为什么现在的机器人仍然不能很好地做家务?主要障碍是什么?
A:主要障碍是数据问题。虽然ChatGPT可以使用网络的广泛覆盖来学习事实,但现实世界的数据库还没有为机器人学习如何握住物体等实际技能提供足够支持。此外,家务涉及混乱感知、精细操作和无数边缘情况的复杂组合,需要处理不标准化的家庭环境以及围绕宠物和孩子的安全规划。
好文章,需要你的鼓励
今年是AI智能体的爆发年。聊天机器人正演进为能代表用户执行任务的自主智能体,企业持续投资智能体平台。调研显示,超半数高管表示其组织已在使用AI智能体,88%在智能体上投入过半AI预算的公司已从至少一个用例中获得投资回报。Gartner预测,到2026年40%的企业软件应用将包含智能体AI,2035年智能体AI可能驱动约30%的企业应用软件收入。企业开始将AI智能体视为员工,建立招聘培训体系。
NVIDIA联合多所高校开发的SpaceTools系统通过双重交互强化学习方法,让AI学会协调使用多种视觉工具进行复杂空间推理。该系统在空间理解基准测试中达到最先进性能,并在真实机器人操作中实现86%成功率,代表了AI从单一功能向工具协调专家的重要转变,为未来更智能实用的AI助手奠定基础。
谷歌的Nano Banana Pro AI模型生成的图像逼真度令人震惊,其关键在于完美模拟了手机相机的拍照特征。这些AI生成的图像具备手机拍照的典型特点:明亮平坦的曝光、较大的景深范围、略显粗糙的细节处理,甚至包含噪点。该模型还能自动添加符合情境的细节元素,如房产照片的水印等,使图像更加真实可信。这种技术进步意味着辨别AI生成内容变得更加困难。
这项研究解决了现代智能机器人面临的"行动不稳定"问题,开发出名为TACO的决策优化系统。该系统让机器人在执行任务前生成多个候选方案,然后通过伪计数估计器选择最可靠的行动,就像为机器人配备智能顾问。实验显示,真实环境中机器人成功率平均提升16%,且系统可即插即用无需重新训练,为机器人智能化发展提供了新思路。