Google LLC 今天推出了两款全新的人工智能模型 - Gemini Robotics 和 Gemini Robotics-ER,这两款模型专门用于为自主机器提供动力。
这些算法基于该公司的 Gemini 2.0 系列大语言模型。Gemini 2.0 于去年 12 月推出,不仅可以处理文本,还能处理包括视频在内的多模态数据。这种多模态处理能力使新的 Gemini Robotics 和 Gemini Robotics-ER 模型能够分析机器人摄像头捕捉的画面,从而做出决策。
Gemini Robotics 被描述为一个视觉-语言-动作模型。据 Google 介绍,配备该模型的机器人可以根据自然语言指令执行复杂任务。例如,用户可以要求 AI 将纸张折叠成折纸形状,或将物品放入 Ziploc 袋中。
传统上,教导工业机器人执行新任务需要手动编程。这项工作不仅需要专业技能,还会消耗大量时间。为了简化机器人配置过程,Google 的研究人员在设计 Gemini Robotics 时特别注重其通用性。该公司表示,这款 AI 可以执行在训练过程中未曾学习过的任务,从而减少手动编程的需求。
为了测试 Gemini Robotics 对新任务的响应能力,Google 使用 AI 泛化基准进行评估。结果表明,该算法的性能是早期视觉-语言-动作模型的两倍多。根据 Google 的说法,Gemini Robotics 不仅能执行未经训练的任务,还能在环境条件发生变化时调整其执行方式。
Google DeepMind 机器人部门负责人 Carolina Parada 在博客文章中详细说明:"如果物体从机器人手中滑落,或有人移动了物品位置,Gemini Robotics 能够快速重新规划并继续执行任务 —— 这对于在充满意外的现实世界中运行的机器人来说是一项至关重要的能力。"
公司今天推出的另一个 AI 模型 Robotics-ER 主要针对空间推理能力。空间推理指的是机器人在执行任务前必须进行的一系列复杂计算。例如,拿起一个咖啡杯需要机器人手臂找到杯柄并计算最佳抓取角度。
在制定任务执行计划后,Gemini Robotics-ER 利用 Gemini 2.0 的编程能力将计划转换为配置脚本。这个脚本用于对安装了该 AI 的机器人进行编程。如果某个任务对 Gemini Robotics-ER 来说过于复杂,开发者可以通过"少量人工示范"来教导它最佳执行方案。
Parada 写道:"Gemini Robotics-ER 可以直接执行控制机器人所需的所有步骤,包括感知、状态估计、空间理解、规划和代码生成。在这种端到端的场景中,该模型的成功率比 Gemini 2.0 高出 2-3 倍。"
Google 将向多个合作伙伴提供 Gemini Robotics-ER,其中包括人形机器人初创公司 Apptronik Inc.,该公司上个月获得了 3.5 亿美元融资,Google 也参与其中。Google 将与 Apptronik 合作开发配备 Gemini 2.0 的人形机器人。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。