将植物放进花盆、把零食装进容器、成功分类洗涤衣物——这些看似简单的动作并不意味着明年你就能在家里拥有一台人形机器人。但是,Google DeepMind最新展示的Apptronik公司Apollo机器人让家庭清洁、维护甚至烹饪的自动化梦想变得更加真实。这台机器人能够遵循语音指令,操作它从未见过的物体。
在演示视频中,Google展示了机器人打开密封袋、将面包放入袋中、按颜色分拣衣物,以及操控形状奇特的真实物品——有些柔软,有些难以抓取。这些机器人能理解"拿起绿色方块"或"把这些衣物分成深色和浅色"这样的指令,并能适应环境变化,比如当训练人员移动容器或它们试图抓取的物体时。
不过,它们的动作还不够快。
"有时它们看起来有些笨拙,"数学家、广播主持人、DeepMind播客主持人Hannah Fry说道,"但你必须记住,拥有一个能理解语义、能对眼前场景形成上下文认知、能推理复杂任务的机器人,这个想法在几年前还是完全不可想象的。"
Google今年早些时候投资了Apptronik的4.03亿美元大规模融资轮。去年12月,Apptronik宣布与Google DeepMind的机器人实验室建立战略合作伙伴关系,旨在"将最顶尖的人工智能与前沿硬件和具身智能结合起来"。
简单概括:Apptronik提供机器人硬件,Google提供智能大脑。这个大脑最近因为Gemini 3变得更加智能,而专门为机器人设计的Gemini Robotics版本明确支持多种具身形态——从双臂工业机器人到像Apollo这样的完整人形机器人——无需为每种身体形态重新训练。
目标是:一个能够胜任所有任务的通用机器人。
换句话说,Apptronik的Apollo正在接受训练,要做的不仅仅是搬箱子或重复预编程的基本工厂动作。它正在学习如何应对我们人类生活的复杂、不可预测的世界:打包午餐、分拣衣物、打开未知容器,甚至在面对从未见过的物体或任务时优雅地做出反应。
最新的硬件和软件在展示这一前景方面正变得越来越出色。Figure公司已经展示了其人形机器人流畅优雅地运行,还展示了Figure处理典型家庭挑战的能力:把餐具放进洗碗机、收纳杂货等等。得益于更好的AI、更优秀的硬件和更便宜的组件,过去两年的发展步伐大大加快了。
如果这次基于实验室的最新演示在真实世界中证明是可靠的,那么它预示着一些相当重要的事情。DeepMind和Apptronik正在将高质量的人形机器人硬件与基础模型智能融合成一个通用机器人,它能以最少的重新训练执行广泛的日常物理任务。其结果可能是长期以来人们想象的"通用机器人工人":一个成本效益高的机器,能够理解指令、规划多步程序、适应新物体并以接近人类的灵巧性执行任务。
不过在灵巧性方面不要抱太大期望。机器人还远未达到这个水平:Google在视频中演示的将面包片放入密封袋的动作看起来不错,但你会注意到,如果仔细观看视频,机器人实际上并没有密封袋子。这是一个极其困难的任务,有时连人类都会感到困难。
尽管如此,搭载Google DeepMind AI的Apollo至少完成了四件事:
灵巧性:精细操控非标准物品,如薯片袋
泛化能力:正确处理从未见过的物体
自然语言控制:遵循需要显著世界模型的语音指令,如"把绿色方块放到橙色托盘里"
长期规划:规划多个步骤来完成任务
但还有很长的路要走。人形机器人需要更快地完成任务:现在它们在处理物体和工作时看起来都像是在慢动作中移动。这意味着需要更好的硬件:关节、肌肉(执行器)和控制系统。
此外,它们还需要更好的训练方法。
"这些机器人需要大量数据来学习这些任务,"Google DeepMind机器人技术总监Kanishka Rao说,"所以我们需要一个突破,让它们能够更有效地利用数据学习。"
这包括交互数据和操作数据:机器人大脑可以利用这些数据来学习如何执行它们从未面对过的任务。
最后,当然,它们需要保证在人类环境中使用是安全的,在那里它们可能会遇到人——包括儿童——和宠物。
当然,还有奶奶珍贵的瓷器。
Q&A
Q1:Apollo机器人有哪些核心能力?
A:Apollo机器人具备四大核心能力:灵巧操控非标准物品如薯片袋、处理从未见过的物体、遵循复杂语音指令如"把绿色方块放到橙色托盘里",以及规划多步骤任务。它还能在环境变化时进行适应。
Q2:Google和Apptronik的合作模式是什么?
A:简单来说是"硬件+软件"的结合,Apptronik提供Apollo人形机器人硬件,Google提供基于Gemini 3的AI大脑。专门的Gemini Robotics版本支持从双臂工业机器人到完整人形机器人的多种形态,无需重新训练。
Q3:人形机器人距离真正普及还有哪些挑战?
A:主要有三大挑战:动作速度太慢,需要更好的硬件如关节和执行器;训练效率低,需要大量数据才能学会新任务;安全性保障,确保在有人类和宠物的环境中安全使用。目前连密封袋子这样的精细动作都难以完成。
好文章,需要你的鼓励
TPU与GPU之间的竞争正在重塑AI硬件市场格局。GPU基于并行处理,能处理多样化任务,而TPU专门针对张量矩阵运算进行优化。谷歌TPU采用类似RISC的设计理念,通过限制功能来提升特定运算效率。随着Meta计划在2027年采购数十亿美元的TPU芯片,Anthropic宣布使用百万TPU训练Claude模型,TPU生态系统正在获得发展动力,对英伟达的GPU霸主地位构成挑战。
Meta与华盛顿大学联合研究团队开发出无需人类标注的AI评判官自我训练框架。该方法通过生成合成对比数据、自我判断筛选和反复学习,使110亿参数的AI评判官在多项视觉语言任务中超越GPT-4o等大型模型,成本仅为传统方法的1%,为AI自主学习和评估开辟新路径。
本文提出2026年AI发展十大预测,包括AI估值修正、投资泡沫持续、AGI不仅依赖大语言模型、AI代理将加剧工作替代等。作者强调社会接受度对技术发展的重要性,认为成功企业将重构运营模式以AI为核心,同时指出政府仍将重视STEM教育而忽视社会科学的价值。
华中科技大学团队开发出4DLangVGGT技术,首次实现AI系统对4D动态场景的语言理解。该技术突破传统方法需要逐场景训练的限制,能跨场景通用部署。系统结合几何感知和语义理解,不仅能识别物体还能描述其时间变化过程。实验显示在多项指标上超越现有方法1-2%,为机器人、AR/VR、智能监控等领域提供重要技术支撑。