周三,Google DeepMind 宣布推出两款新的机器人控制 AI 模型:Gemini Robotics 和 Gemini Robotics-ER。该公司表示,这些模型将帮助各种形状和大小的机器人更有效且精细地理解和交互物理世界,为未来诸如人形机器人助手等应用铺平道路。
值得注意的是,尽管机器人平台的硬件似乎在稳步发展 (好吧,也许并非总是如此),但开发一个能够安全、精确地自主驾驭这些机器人应对新场景的 AI 模型仍然困难重重。业界所谓的"具身 AI"是 Nvidia 等公司的一个重大目标,它仍是一个圣杯,有潜力将机器人转变为物理世界中的通用劳动力。
沿着这个方向,Google 的新模型在其 Gemini 2.0 大语言模型的基础上,增加了专门用于机器人应用的功能。Gemini Robotics 包含了 Google 称之为"视觉-语言-动作" (VLA) 的能力,使其能够处理视觉信息、理解语言命令并生成物理动作。相比之下,Gemini Robotics-ER 专注于"具身推理",具有增强的空间理解能力,让机器人专家可以将其连接到现有的机器人控制系统中。
例如,使用 Gemini Robotics,你可以要求机器人"拿起香蕉放入篮子中",它将使用摄像头视图识别香蕉,引导机械臂成功完成动作。或者你可以说"折一只折纸狐狸",它会运用折纸知识和如何小心折纸的能力来完成任务。
2023 年,我们报道了 Google 的 RT-2,它通过使用互联网数据来帮助机器人理解语言命令并适应新场景,在未见过的任务上的表现比其前代提高了一倍,这代表了向更通用机器人能力迈出的重要一步。两年后,Gemini Robotics 似乎又取得了重大突破,不仅能够理解该做什么,还能执行 RT-2 明确无法处理的复杂物理操作。
虽然 RT-2 仅限于重复使用已经练习过的物理动作,但据报道,Gemini Robotics 展示了显著增强的灵巧性,能够完成此前不可能的任务,如折纸和将零食装入拉链袋。从仅能理解命令的机器人到能够执行精细物理任务的机器人,这一转变表明 DeepMind 可能已经开始解决机器人领域最大的挑战之一:让机器人将其"知识"转化为现实世界中的谨慎、精确动作。
更好的泛化结果 据 DeepMind 称,新的 Gemini Robotics 系统展示了更强的泛化能力,即执行未经专门训练的新任务的能力,相比其之前的 AI 模型有显著提升。在其公告中,公司称 Gemini Robotics "在综合泛化基准测试中的表现比其他最先进的视觉-语言-动作模型提高了一倍以上"。泛化很重要,因为能够适应新场景而无需针对每种情况进行特定训练的机器人,将来可以在不可预测的现实环境中工作。
这一点很重要,因为人们对目前人形机器人的实用性和实际能力仍持怀疑态度。Tesla 去年 10 月发布了 Optimus Gen 3 机器人,声称能够完成许多物理任务,但在公司承认其炫目演示中的几个机器人是由人类远程控制后,人们对其自主 AI 能力的真实性产生了疑虑。
在这里,Google 正在尝试打造真正的产品:一个通用型机器人大脑。带着这个目标,公司宣布与德克萨斯州奥斯汀的 Apptronik 合作,"利用 Gemini 2.0 打造下一代人形机器人"。虽然主要在名为 ALOHA 2 的双手机器人平台上进行训练,但 Google 表示 Gemini Robotics 可以控制不同类型的机器人,从研究用的 Franka 机械臂到更复杂的人形系统,如 Apptronik 的 Apollo 机器人。
虽然人形机器人方法对 Google 的生成式 AI 模型来说是一个相对较新的应用 (从这一轮基于大语言模型的技术来看),但值得注意的是,Google 此前在 2013-2014 年间收购了几家机器人公司 (包括制造人形机器人的 Boston Dynamics),但后来又将它们出售。与 Apptronik 的新合作似乎是一种全新的人形机器人研究方式,而不是那些早期努力的直接延续。
其他公司也一直在努力研发人形机器人硬件,如 Figure AI (该公司在 2024 年 3 月为其人形机器人获得了大量资金) 和前面提到的前 Alphabet 子公司 Boston Dynamics (去年 4 月推出了灵活的新型 Atlas 机器人),但能让机器人真正有用的 AI "驱动程序"尚未出现。在这方面,Google 还通过"可信测试者"计划向 Boston Dynamics、Agility Robotics 和 Enchanted Tools 等公司提供了 Gemini Robotics-ER 的有限访问权限。
安全性和局限性 在安全性考虑方面,Google 提到采用"分层、整体的方法",保持传统的机器人安全措施,如碰撞避免和力量限制。公司描述了受艾萨克·阿西莫夫机器人三定律启发而开发的"机器人宪法"框架,并发布了一个毫不意外地被称为"ASIMOV"的数据集,以帮助研究人员评估机器人动作的安全影响。
这个新的 ASIMOV 数据集代表了 Google 试图创建标准化方法,以评估机器人安全性,超越了物理伤害预防的范畴。该数据集似乎旨在帮助研究人员测试 AI 模型对机器人在各种场景中可能采取的行动的潜在后果的理解程度。根据 Google 的公告,该数据集将"帮助研究人员严格衡量机器人行为在现实场景中的安全影响"。
公司尚未宣布新 AI 模型的可用时间表或具体商业应用,这些模型仍处于研究阶段。虽然 Google 分享的演示视频展示了 AI 驱动能力的进步,但受控的研究环境仍然留下了这些系统在不可预测的现实环境中实际表现如何的开放性问题。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。