虽然当前展示的重点是机械臂而非完整的人形机器人,但其底层技术与下一代人形机器人所使用的技术是相同的。Google 表示,其 Gemini Robotics 模型旨在"轻松适应不同类型的机器人",目前已在 Apptronik 的人形机器人 Apollo 上进行测试。
"为了让 AI 在物理世界中发挥实用价值并为人类提供帮助,它们必须展现出'具身'推理能力 —— 即类似人类理解周围世界并作出反应的能力,"DeepMind 机器人团队负责人 Carolina Parada 在一份声明中表示。
这次演示是来自 Google、Meta 等科技巨头以及 Figure AI、Agility Robotics 等初创公司新一波人形机器人浪潮的一部分。这些机器人被定位为物流和家务的未来解决方案。除了飞行汽车之外,可能没有哪项科幻技术能像机器人助手这样长期吸引我们的想象力了 —— 它们终将把我们从洗碗和洗衣等琐事中解放出来 (当然,这些故事有时也会让我们感到恐惧)。如今,在先进 AI 模型的加持下,这些机械工人正从我们的想象中走出,开始迈入现实。
但在技术不断进步的同时,一个根本性的问题仍然存在:我们是该为我们的世界构建机器人,还是该调整我们的空间以适应更简单的机器?
人形机器人的制造者们推崇前者。他们认为,世界本就是为人类身体设计的,包括楼梯、与肩同高的架子,以及位于视线高度的重要物品。人形机器人支持者认为,这使得人类形态成为了旨在融入厨房等现有环境的机器的最合理设计。
他们正在与目前唯一成功的机器人展开艰难的竞争,这些机器人主要是仓库中的非人形机器人,仓库的货架系统是为轮式拣选机器人设计的,或者是专门划分给机器人的区域。这些专门设计的环境允许使用更简单的机器人设计。
但人形机器人公司拥有一个他们认为能改变一切的强大新工具:像 Google 的 Gemini 和 OpenAI 的 GPT 这样能理解和生成人类语言的 AI 系统。这项技术可以让人们像与他人交谈一样简单地与机器人对话 —— "叠那件衣服"或"把碗筷收起来" —— 无需专业编程或技术知识。更有前途的是,这些 AI 模型可能帮助机器人适应它们未经专门训练的新情况,这可能解决机器人领域最持久的挑战之一。
尽管有令人印象深刻的演示和诸多承诺,但当前的现实更为平淡。相比人类,机器人的动作仍然缓慢,在处理抓取时会改变形状的精细或可变形物品时仍然困难重重。家庭中充满不可预测的混乱,比如小孩四处奔跑、玩具散落一地,或是意外情况如在冰箱里找到钥匙 —— 这些在许多家庭中可能只是普通的周二场景 —— 仍然是远超当前能力的未经测试场景。
这些问题并没有阻止公司们尝试。据报道,Meta 正在构建一个人形机器人平台,旨在成为"机器人的 Android 系统"。已经在诸多项目中分身乏术的 Elon Musk 仍然抽出时间继续发布关于 Tesla 的 Optimus 人形机器人的消息。他最近在 X 平台上宣布,他的机器人中至少有一个将在"明年年底前"前往火星,比人类早至少几年。
但在这些机器人广泛使用之前,仍然存在其他重要障碍。人机交互研究人员观察到,人类对机器人错误的容忍度通常远低于对人类错误的容忍度。该领域的研究表明,虽然我们可能会原谅偶尔掉东西的人类同事,但机器人只要犯一个重大错误就可能永久失去用户信任。
随着机器人整合大语言模型,这个信任问题变得更加复杂,因为大语言模型有时会"产生幻觉"或生成错误信息。由于大语言模型幻觉而自信地误解命令的机器人可能在物理环境中造成危险情况。虽然 AI 聊天机器人的错误可能仅仅令人沮丧,但根据幻觉指令行动的机器人可能会损坏财产或伤害人员。
尽管如此,数十亿美元仍在持续流入人形机器人领域,这些投资来自于在科幻作品熏陶下成长起来且不愿放弃梦想的科技领袖们。在本周的 Nvidia 年度开发者大会上,CEO Jensen Huang 展示了新软件,他表示这将帮助人形机器人更容易地在我们的空间中移动。当后来被问到何时才能知道 AI 已经无处不在时,他说是当人形机器人"四处游荡"的时候。他说这很快就会到来。
"这不是一个五年后的问题,"他说,"这是一个几年内的问题。"
好文章,需要你的鼓励
邻里社交应用Nextdoor推出重新设计版本,新增本地新闻、实时警报和名为"Faves"的AI功能,用于发现本地商户和地点。该应用与3500家本地出版商合作提供新闻内容,通过Samdesk和Weather.com提供天气、交通、停电等实时警报。Faves功能利用15年邻里对话数据训练的大语言模型,为用户提供本地化AI推荐服务,帮助用户找到最佳餐厅、徒步地点等本地信息。
Skywork AI推出的第二代多模态推理模型R1V2,通过创新的混合强化学习方法,成功解决了AI"慢思考"策略在视觉推理中的挑战。该模型在保持强大推理能力的同时有效控制视觉幻觉,在多项权威测试中超越同类开源模型,某些指标甚至媲美商业产品,为开源AI发展树立了新标杆。
英国生物银行完成了世界上最大规模的全身成像项目,收集了10万名志愿者的超过10亿次扫描数据,用于研究人体衰老和疾病过程。该项目历时11年,每次扫描耗时5小时,投资6200万英镑。目前已有8万人的成像数据供全球研究人员使用,剩余数据将于年底前发布。项目已开发出能预测38种常见疾病的AI工具,并在心脏病、痴呆症和癌症诊断方面取得突破。
这项由北京大学等多所高校联合完成的研究,首次对OpenAI GPT-4o的图像生成能力进行了全面评估。研究团队设计了名为GPT-ImgEval的综合测试体系,从文本转图像、图像编辑和知识驱动创作三个维度评估GPT-4o,发现其在所有测试中都显著超越现有方法。研究还通过技术分析推断GPT-4o采用了自回归与扩散相结合的混合架构,并发现其生成图像仍可被现有检测工具有效识别,为AI图像生成领域提供了重要的评估基准和技术洞察。