Google LLC 今天推出了两款全新的人工智能模型 - Gemini Robotics 和 Gemini Robotics-ER,这两款模型专门用于为自主机器提供动力。
这些算法基于该公司的 Gemini 2.0 系列大语言模型。Gemini 2.0 于去年 12 月推出,不仅可以处理文本,还能处理包括视频在内的多模态数据。这种多模态处理能力使新的 Gemini Robotics 和 Gemini Robotics-ER 模型能够分析机器人摄像头捕捉的画面,从而做出决策。
Gemini Robotics 被描述为一个视觉-语言-动作模型。据 Google 介绍,配备该模型的机器人可以根据自然语言指令执行复杂任务。例如,用户可以要求 AI 将纸张折叠成折纸形状,或将物品放入 Ziploc 袋中。
传统上,教导工业机器人执行新任务需要手动编程。这项工作不仅需要专业技能,还会消耗大量时间。为了简化机器人配置过程,Google 的研究人员在设计 Gemini Robotics 时特别注重其通用性。该公司表示,这款 AI 可以执行在训练过程中未曾学习过的任务,从而减少手动编程的需求。
为了测试 Gemini Robotics 对新任务的响应能力,Google 使用 AI 泛化基准进行评估。结果表明,该算法的性能是早期视觉-语言-动作模型的两倍多。根据 Google 的说法,Gemini Robotics 不仅能执行未经训练的任务,还能在环境条件发生变化时调整其执行方式。
Google DeepMind 机器人部门负责人 Carolina Parada 在博客文章中详细说明:"如果物体从机器人手中滑落,或有人移动了物品位置,Gemini Robotics 能够快速重新规划并继续执行任务 —— 这对于在充满意外的现实世界中运行的机器人来说是一项至关重要的能力。"
公司今天推出的另一个 AI 模型 Robotics-ER 主要针对空间推理能力。空间推理指的是机器人在执行任务前必须进行的一系列复杂计算。例如,拿起一个咖啡杯需要机器人手臂找到杯柄并计算最佳抓取角度。
在制定任务执行计划后,Gemini Robotics-ER 利用 Gemini 2.0 的编程能力将计划转换为配置脚本。这个脚本用于对安装了该 AI 的机器人进行编程。如果某个任务对 Gemini Robotics-ER 来说过于复杂,开发者可以通过"少量人工示范"来教导它最佳执行方案。
Parada 写道:"Gemini Robotics-ER 可以直接执行控制机器人所需的所有步骤,包括感知、状态估计、空间理解、规划和代码生成。在这种端到端的场景中,该模型的成功率比 Gemini 2.0 高出 2-3 倍。"
Google 将向多个合作伙伴提供 Gemini Robotics-ER,其中包括人形机器人初创公司 Apptronik Inc.,该公司上个月获得了 3.5 亿美元融资,Google 也参与其中。Google 将与 Apptronik 合作开发配备 Gemini 2.0 的人形机器人。
好文章,需要你的鼓励
跑分只是基准,情绪才是真相。我们整理了 1500 条海外开发者对 GLM-5.2 的评价,发现这个号称能“平替顶级闭源模型”的开源巨兽,最大的争议点竟然是“硬件成本”。当部署一个模型需要“一套房”时,你还愿意本地化吗?
南京大学与阿里巴巴提出MIMFlow,将掩码图像建模与标准化流端到端融合,让生成模型专注语义建模,以更少参数和更少令牌在ImageNet上取得FID 2.50的优异表现。
电动自行车频繁出现在负面新闻中——危险骑行、电池火灾、立法管制。这些问题确实存在,需要通过教育、执法和安全标准加以解决。但更大的图景常被忽视:数百万人因此骑车通勤、重拾运动、减少开车,带来健康、减排和出行独立性等多重效益。研究也表明,电动自行车骑行具有显著心肺锻炼价值。正如汽车不能只以醉驾定义,电动自行车也不应仅凭最坏案例被评判。
清华大学提出VG-GUI-Bench评测视频引导操作能力,并设计TASKER关键帧搜索算法,在视频问答和GUI智能体任务上均实现性能与效率的双重提升。