波士顿动力公司发布了最新幕后视频,展示其最新款电动人形机器人Atlas执行重物搬运和操控任务。该公司表示,这些任务旨在为系统进入真实工业应用做准备。
演示的核心内容是Atlas举起并搬运一台重约50磅的小型冰箱,不过波士顿动力表示,在测试中机器人成功处理了一台装满物品、重量超过100磅的冰箱。
该公司指出,突破点不仅在于机器人的物理力量,更在于开发出能够适应真实世界的AI驱动控制系统,这套系统能够"通过支撑和计算质量与惯性来处理重物;使用全身控制而非仅靠双手来操控物体"。
最新的Atlas系统代表了人形机器人开发领域的重大转变,各公司越来越专注于教会机器人如何在不可预测的工业环境中执行实际物理工作,而不仅仅是展示行走能力。
在视频配套的详细技术博客中,波士顿动力将Atlas描述为"用于体力劳动的通用工具",专为需要"高强度、耐力和灵巧性"的工厂、仓库和建筑工地设计。
技术突破与训练方法
该公司解释说,冰箱实验旨在展示强化学习、全身协调和物理适应性方面的进步。与严重依赖指尖操控和视觉引导的传统机器人系统不同,Atlas正在接受训练,在处理重物时动态使用整个身体。
波士顿动力写道:"你不能仅仅通过看着冰箱并用手就能举起它。你必须为此做好准备,预判重量,身体前倾,让你的身体去适应它的形状、适应它的重量,并测试你是否能够举起它。"
该公司表示,Atlas通过强化学习在模拟环境中学习这种行为,机器人在图形处理单元(GPU)上并行进行模拟训练,"在模拟中练习了数百万小时"。
波士顿动力还强调了最小化所谓"模拟到现实差距"的重要性,即机器人在模拟中的表现与真实硬件中的表现之间的差异。据该公司称,Atlas硬件架构和模拟保真度的改进,现在使工程师能够快速从模拟训练转向物理测试。
该公司表示,其目标之一是"能够在短短一天内训练和部署新行为"。
硬件设计革新
最新的Atlas平台与早期液压版本的人形机器人有显著不同。新系统完全采用电力驱动,硬件设计经过简化,旨在支持大规模制造和部署。
波士顿动力表示,机器人全身仅使用两种类型的执行器,具有对称的四肢,并配备可现场更换的手臂、腿部、手部和头部单元,以简化维护并降低运营成本。
该公司还透露,Atlas的关节具有无限旋转能力,因为关节处已消除了电缆——这一设计旨在提高可靠性并实现更灵活的运动。
波士顿动力认为,如果人形机器人要从受控的研究环境走向真实的工业运营,这些能力至关重要。
该公司写道:"这标志着机器人技术的关键转变,人形机器人从实验室走向动态工业环境。"
行业竞争与未来展望
这一发布正值人形机器人领域竞争日益激烈之际,包括特斯拉、Figure AI、Agility Robotics和1X Technologies在内的公司都在加速推进人形系统在物流、制造和仓储运营中的商业化。
虽然许多人形机器人已经能够令人印象深刻地行走、攀爬或保持平衡,但波士顿动力的最新演示突显了许多研究人员越来越认为是该行业最大剩余挑战的问题:在真实世界环境中可靠的操控和物理交互。
新的Atlas视频表明,波士顿动力现在正集中精力于下一阶段——打造不仅能够在世界中移动,而且能够在其中工作的机器人。
Q&A
Q1:波士顿动力的Atlas机器人能搬运多重的物体?
A:在演示中,Atlas举起并搬运了一台重约50磅的小型冰箱。波士顿动力表示,在测试中机器人成功处理了一台装满物品、重量超过100磅的冰箱。
Q2:Atlas机器人是如何学会搬运重物的?
A:Atlas通过强化学习在模拟环境中学习搬运行为,在图形处理单元上并行进行模拟训练,练习了数百万小时。它学会使用全身控制而非仅靠双手来操控物体,通过支撑和计算质量与惯性来处理重物。
Q3:新版Atlas机器人与旧版本有什么不同?
A:最新的Atlas平台完全采用电力驱动,取代了早期的液压系统。新系统硬件经过简化,全身仅使用两种类型的执行器,具有对称的四肢,并配备可现场更换的手臂、腿部、手部和头部单元,关节还具有无限旋转能力。
好文章,需要你的鼓励
谷歌宣布为旗下互动世界构建工具Project Genie新增Google街景功能,用户可基于真实地点生成可探索的游戏世界。只需选定美国境内的地图位置,描述角色形象,并选择"沙漠"或"石器时代"等风格,系统即可生成与现实街景绑定的沉浸式虚拟场景。每次游玩时长限60秒,支持WASD操控,目前仅向AI Ultra订阅用户开放,后续将逐步扩展覆盖范围。
新加坡国立大学构建了首个视频隐喻理解基准ViMU,含588段视频与2352道题,测试16个主流AI模型均未超过50%,揭示AI在视频潜台词理解上的系统性短板。
随着AI编程工具的普及,越来越多的非开发者开始尝试自己构建应用。谷歌在I/O大会上宣布,AI Studio新增功能可让用户通过提示词快速生成原生Android应用,并直接导出到手机。此外,谷歌还推出了基于Gemini的自定义小组件功能,并提出"生成式UI"概念,让手机界面根据需求实时生成。与此同时,苹果据报道也在探索通过提示词创建快捷指令的功能,手机个性化体验或将迎来新突破。
浙江大学等机构联合提出PanoWorld,通过球面空间交叉注意力和57万张全景图训练数据,让AI能直接理解360度全景图的空间结构,在导航和视觉搜索任务中大幅超越现有方法。