虽然当前展示的重点是机械臂而非完整的人形机器人,但其底层技术与下一代人形机器人所使用的技术是相同的。Google 表示,其 Gemini Robotics 模型旨在"轻松适应不同类型的机器人",目前已在 Apptronik 的人形机器人 Apollo 上进行测试。
"为了让 AI 在物理世界中发挥实用价值并为人类提供帮助,它们必须展现出'具身'推理能力 —— 即类似人类理解周围世界并作出反应的能力,"DeepMind 机器人团队负责人 Carolina Parada 在一份声明中表示。
这次演示是来自 Google、Meta 等科技巨头以及 Figure AI、Agility Robotics 等初创公司新一波人形机器人浪潮的一部分。这些机器人被定位为物流和家务的未来解决方案。除了飞行汽车之外,可能没有哪项科幻技术能像机器人助手这样长期吸引我们的想象力了 —— 它们终将把我们从洗碗和洗衣等琐事中解放出来 (当然,这些故事有时也会让我们感到恐惧)。如今,在先进 AI 模型的加持下,这些机械工人正从我们的想象中走出,开始迈入现实。
但在技术不断进步的同时,一个根本性的问题仍然存在:我们是该为我们的世界构建机器人,还是该调整我们的空间以适应更简单的机器?
人形机器人的制造者们推崇前者。他们认为,世界本就是为人类身体设计的,包括楼梯、与肩同高的架子,以及位于视线高度的重要物品。人形机器人支持者认为,这使得人类形态成为了旨在融入厨房等现有环境的机器的最合理设计。
他们正在与目前唯一成功的机器人展开艰难的竞争,这些机器人主要是仓库中的非人形机器人,仓库的货架系统是为轮式拣选机器人设计的,或者是专门划分给机器人的区域。这些专门设计的环境允许使用更简单的机器人设计。
但人形机器人公司拥有一个他们认为能改变一切的强大新工具:像 Google 的 Gemini 和 OpenAI 的 GPT 这样能理解和生成人类语言的 AI 系统。这项技术可以让人们像与他人交谈一样简单地与机器人对话 —— "叠那件衣服"或"把碗筷收起来" —— 无需专业编程或技术知识。更有前途的是,这些 AI 模型可能帮助机器人适应它们未经专门训练的新情况,这可能解决机器人领域最持久的挑战之一。
尽管有令人印象深刻的演示和诸多承诺,但当前的现实更为平淡。相比人类,机器人的动作仍然缓慢,在处理抓取时会改变形状的精细或可变形物品时仍然困难重重。家庭中充满不可预测的混乱,比如小孩四处奔跑、玩具散落一地,或是意外情况如在冰箱里找到钥匙 —— 这些在许多家庭中可能只是普通的周二场景 —— 仍然是远超当前能力的未经测试场景。
这些问题并没有阻止公司们尝试。据报道,Meta 正在构建一个人形机器人平台,旨在成为"机器人的 Android 系统"。已经在诸多项目中分身乏术的 Elon Musk 仍然抽出时间继续发布关于 Tesla 的 Optimus 人形机器人的消息。他最近在 X 平台上宣布,他的机器人中至少有一个将在"明年年底前"前往火星,比人类早至少几年。
但在这些机器人广泛使用之前,仍然存在其他重要障碍。人机交互研究人员观察到,人类对机器人错误的容忍度通常远低于对人类错误的容忍度。该领域的研究表明,虽然我们可能会原谅偶尔掉东西的人类同事,但机器人只要犯一个重大错误就可能永久失去用户信任。
随着机器人整合大语言模型,这个信任问题变得更加复杂,因为大语言模型有时会"产生幻觉"或生成错误信息。由于大语言模型幻觉而自信地误解命令的机器人可能在物理环境中造成危险情况。虽然 AI 聊天机器人的错误可能仅仅令人沮丧,但根据幻觉指令行动的机器人可能会损坏财产或伤害人员。
尽管如此,数十亿美元仍在持续流入人形机器人领域,这些投资来自于在科幻作品熏陶下成长起来且不愿放弃梦想的科技领袖们。在本周的 Nvidia 年度开发者大会上,CEO Jensen Huang 展示了新软件,他表示这将帮助人形机器人更容易地在我们的空间中移动。当后来被问到何时才能知道 AI 已经无处不在时,他说是当人形机器人"四处游荡"的时候。他说这很快就会到来。
"这不是一个五年后的问题,"他说,"这是一个几年内的问题。"
好文章,需要你的鼓励
AI颠覆预计将在2026年持续,推动企业适应不断演进的技术并扩大规模。国际奥委会、Moderna和Sportradar的领导者在纽约路透社峰会上分享了他们的AI策略。讨论焦点包括自建AI与购买第三方资源的选择,AI在内部流程优化和外部产品开发中的应用,以及小型模型在日常应用中的潜力。专家建议,企业应将AI建设融入企业文化,以创新而非成本节约为驱动力。
字节跳动等机构联合发布GAR技术,让AI能同时理解图像的全局和局部信息,实现对多个区域间复杂关系的准确分析。该技术通过RoI对齐特征重放方法,在保持全局视野的同时提取精确细节,在多项测试中表现出色,甚至在某些指标上超越了体积更大的模型,为AI视觉理解能力带来重要突破。
Spotify在新西兰测试推出AI提示播放列表功能,用户可通过文字描述需求让AI根据指令和听歌历史生成个性化播放列表。该功能允许用户设置定期刷新,相当于创建可控制算法的每周发现播放列表。这是Spotify赋予用户更多控制权努力的一部分,此前其AI DJ功能也增加了语音提示选项,反映了各平台让用户更好控制算法推荐的趋势。
Inclusion AI团队推出首个开源万亿参数思维模型Ring-1T,通过IcePop、C3PO++和ASystem三项核心技术突破,解决了超大规模强化学习训练的稳定性和效率难题。该模型在AIME-2025获得93.4分,IMO-2025达到银牌水平,CodeForces获得2088分,展现出卓越的数学推理和编程能力,为AI推理能力发展树立了新的里程碑。