机器人机器学习公司Generalist宣布推出GEN-1,这是一款新型物理AI系统。该公司表示,GEN-1在"广泛的物理技能"方面"达到了生产级别的成功率",这些技能过去需要人类双手的灵巧性和肌肉记忆才能完成。Generalist还称赞这款新模型能够通过即兴创造新动作来应对干扰,并"连接不同领域的想法来解决新问题"。
GEN-1基于Generalist之前的GEN-0模型构建。该公司在11月份将GEN-0作为概念验证进行推广,证明了缩放定律在机器人训练中的适用性,展示了更多的预训练数据和计算时间如何提高训练后的性能。但是,虽然大语言模型能够有效处理互联网上集体写作的数万亿词汇作为训练的一部分,但机器人模型没有类似的、易于获取的关于人类如何操作物体的高质量数据源。
为了帮助解决这个问题,Generalist依赖于"数据手套"——一套可穿戴的钳形设备,在人类执行手工任务时捕获微小动作和视觉信息。Generalist现在声称已经收集了超过50万小时和"PB级的物理交互数据"来帮助训练其物理模型。
结果是一个自主系统,既精确到能够把钱放进钱包,又适应性强到能够叠衣服或分拣汽车零件。据Generalist称,该模型现在在重复性但精细的机械任务(如折叠盒子、包装手机和维修机器人吸尘器)上达到了99%的成功率,速度约为之前GEN-0模型的三倍。根据该公司的说法,GEN-1在仅花费约一小时将其预训练适应到适用于其特定机器人实体的"机器人数据"后,就能达到这些指标。
从错误中恢复
过去,复杂的机器人系统通常依赖于精心预编程的动作,或者被训练专注于变化很少的单一任务。Generalist表示,GEN-1的与众不同之处在于,单一模型能够基于以前的经验进行即兴发挥,并自然地响应干扰,即使这些干扰"完全超出了训练分布范围"。
例如,在接受《福布斯》采访时,Generalist工程师描述了模型给塑料袋轻轻摇晃,让毛绒玩具滑入其中,尽管这样的动作在训练数据中没有明确编程。Generalist发布的视频还显示,当柔性物体弹出预期位置时,机器人手臂能够智能调整,或者在衬衫在折叠任务中途被移动时重新折叠。Generalist还描述了当小垫圈被推出位置时,模型会调整和重新抓取,使用双手将它们插入所需位置。
"没有人编程让机器人犯错,因此也没有人编程让机器人从错误中恢复,"Generalist工程师Felix Wang在视频中说。"这种能力是免费获得的。"
Generalist并不是唯一一家将机器学习技术引入物理领域的公司。去年,Google展示了其Gemini机器人模型的"视觉学习行动"能力,可以理解和响应人类的一般行动提示。Physical Intelligence也凭借在轮式平台上的一对机器人手臂引起轰动,该系统在专门设计的模拟家庭环境中接受训练,执行从清理溢出物到铺床等任务。
还有特斯拉,它在2024年底首次推出了人形Optimus机器人,但展示的演示实际上是由远程人类操作员遥控的。今年1月,特斯拉CEO马斯克承认,目前的Optimus机器人仍然没有在特斯拉做"有用的工作",尽管此前声称情况并非如此。
不过,通过GEN-1,Generalist表示其物理模型已经达到了类似GPT-3的拐点,一些任务开始"跨越在经济有用环境中部署所需的性能水平",并且"我们可以期待每一代新模型都会产生一套新的、日益复杂的可以掌握的任务"。我们满怀希望地认为,这意味着我们终于走上了在不久的将来拥有价格合理的家用叠衣机器人的道路。
Q&A
Q1:GEN-1机器人模型有什么特别之处?
A:GEN-1是Generalist公司开发的物理AI系统,在重复性但精细的机械任务上达到99%成功率,速度是前代模型的三倍。它能够处理折叠盒子、包装手机、维修吸尘器等任务,并具备从错误中自动恢复的能力。
Q2:GEN-1如何获得训练数据?
A:Generalist使用"数据手套"——一套可穿戴的钳形设备来收集训练数据。这些设备在人类执行手工任务时捕获微小动作和视觉信息,公司已收集超过50万小时和PB级的物理交互数据。
Q3:GEN-1与其他机器人系统有什么不同?
A:传统机器人系统通常依赖预编程动作或专注单一任务。GEN-1的特别之处在于能够基于经验即兴发挥,自然响应干扰,甚至处理训练范围外的情况,并且能够自动从错误中恢复。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。