作者| 金旺
栏目| 机器人新纪元
2024年3月27日,浙江人形机器人创新中心正式成立,与之一并亮相的,还有领航者1号人形机器人。
浙江人形机器人创新中心坐落于浙江省宁波市,是由宁波市政府与浙江大学智能系统与控制研究所熊蓉教授团队联合组建,为的正是研究人形机器人。
就在前不久,浙江人形机器人创新中心发布了第二代人形机器人领航者2号,领航者2号也有了一个新的名字,NAVIAI,NAVIAI也是该创新中心首个具备精确技能作业能力的人形机器人。
相较于一代人形机器人,NAVIAI不仅长大了一号(身高为165cm,体重为60kg),据官方表示,这代人形机器人还具备了以下四个特点:
全身协调稳定行走,这代产品突破了非线性模型预测控制和全身运动控制,可以实现更协调稳定的行走,双臂自然摆动辅助平衡,并降低了行走着地的声音;
拟人全身模仿学习,采用隐空间优化与融合模型预测控制的动作模仿学习,能够快速学习新动作,实现高自由度作业臂连续动态运动下稳定站立;
类人具身智能导航,采用大模型结合强化学习的决策规划框架,兼顾用户指令理解与开放空间感知,赋予人形机器人智能交互导航能力;
通用高精智能控制,突破了长序列操作任务行为决策与可泛化高精度伺服控制技术,实现了杂乱堆叠场景高效桌面整理与可泛化亚毫米精度轴孔装配。
在近日开幕的2024世界机器人大会(WRC 2024)上,浙江人形机器人创新中心展出了他们新发布的人形机器人NAVIAI,他们甚至在展台模拟零售场景搭建了一个“杂货铺”,站在“柜台”内的NAVIAI可以随时从货架上取下饮料,递到“结账台”上。
这样有灵性的人形机器人,也引来了不少围观。
而关于这款人形机器人、浙江人形机器人创新中心,以及人形机器人热闹的2024年,我们和浙江人形机器人创新中心首席科学家、浙江大学求是特聘教授熊蓉教授进行了一场对话,熊蓉教授告诉了我们她对这些问题的理解。
问:浙江人形机器人创新中心对于人形机器人产业的价值和意义是什么?
熊蓉:浙江人形机器人创新中心是以人形机器人产品打造为牵引,推动人形机器人技术发展,同时带动上游核心零部件供应链,并推动人形机器人在下游真实场景落地应用,借由这一方式推动人形机器人产品、技术和产业生态发展。
问:现在人形机器人硬件本体标准化发展到了怎样的一个程度?
熊蓉:人形机器人的标准化目前还处于大家刚开始探讨的阶段,虽然人形机器人已经发展了50年,但在过去50年里,人形机器人一直是研究领域的问题,直到去年才真正进入到了产品化、产业化初级阶段。
现在相关的标委会也都在设立人形机器人的技术标准,推动人形机器人相关标准的建立。
但我觉得这个标准更多包括规范、应用的输出,由此带动技术的发展,至于说我们是不是要去统一人形机器人的关节,乃至硬件本体,目前还处于一个百花齐放的状态。
就像计算机最初都是各家有各家的标准,直到发展到一定阶段,大家才开始做兼容、标准化。
02 大模型用于运动控制,稳定性是关键
问:浙江人形机器人创新中心刚刚发布的NAVIAI,在运动控制这一块用到的是怎样的控制算法?
熊蓉:我们这次展出的两台演示行走的人形机器人,一台用的是非线性模型预测控制+全身控制,而且我们是基于开源方案做了优化和改进,所以可以看到它在走路的时候,它的双臂和腰会根据它的步幅和步速自动进行自然的调整,从而有了这样一个拟人化行走的形态。
另外一台人形机器人,我们是用强化学习方式来进行运动控制。
此外,我们在展台上还有一台灰色的人形机器人,它站在屏幕前面,我们在大会期间会让它做定时的讲解功能演示,在讲解演示过程中,它整个手臂会连续动态地运动。
因为我们这台人形机器人的手臂具备作业能力,会有负载要求,每条手臂重6.5公斤,这种连续动态运动实际上对人形机器人的稳定控制带来了很大的挑战。
我们今年3月发布一代人形机器人时,一代人形机器人的手臂要比二代轻一些,但依然需要通过两条腿不停地动态运动来保持身体平衡。这次需要让机器人始终保持站立状态,控制空间很小,对控制技术带来了很大的挑战。
我们这一代人形机器人能够实现这样的能力,是将机理控制、模仿学习、强化学习进行了打通,形成了现在的融合控制算法。
此外,我们现在的人形机器人已经在展厅讲解和工业场景中的装配、分拣等技能作业方面有一些落地应用。
问:运动控制方面,NAVIAI是否有用到了大模型?
熊蓉:我们在交互方面有用到语言大模型,但是视觉的话,我们要保证可靠性、稳定性,我们自己有一套三维重构和检测识别算法。
技能作业方面,我们用的是自己提出的一套方法构建的技能作业模型,它是通用的,可以用到各种视觉、力觉伺服控制系统中。
基于这套架构和算法,我们的人形机器人在今年3月已经能够实现精准对接,例如将插头插到插座中,现在用同样的技术可以拿工具进行打螺丝作业。
03 人形机器人服务人类,至少还要五年
问:人形机器人要进入家庭场景扮演保姆的角色,难点在哪里?
熊蓉:即使是轮式移动机器人,现在大都是在有一定限定的场景中使用,如果到了一个新环境里,往往还需要人先对场景进行部署,当人流量较大时,依然会出现执行任务失败的情况。
从操作角度来看,我们日常生活中这么多物体是否都能准确认知,例如我们让人形机器人端茶倒水,我们原来认为用大模型是OK的,但真用大模型执行这样的任务时发现,茶壶、公道杯都识别不出来。
所以其实技术都还在一个推进过程中。
问:您觉得人形机器人真正进入我们实际生活中还需要多久?
熊蓉:如果不是两条腿的话,可能在五年左右会先在商用环境中从事服务性工作。
问:您认为人形机器人的合理价格区间应该在一个怎样的价位段?
熊蓉:如果是家庭场景的话,首先人形机器人要能满足人类对人形机器人任务性的需求,类似保姆,实际上,保姆行业在未来社会发展中会变得越来越贵,我觉得人形机器人的价格可以参照一台大众消费得起的车的价格来定义。
问:现在机器人热潮已经在呈现一个收紧的趋势吗,从产业大繁荣进入产业淘汰赛?
熊蓉:一定会有这样一个过程,人形机器人产业也会是由市场让有技术并且具有产品理念的团队沉淀下来,将人形机器人最终做扎实。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。