Google 推出两款全新 AI 机器人控制模型

谷歌公司今天推出了两款新型人工智能模型，Gemini Robotics和Gemini Robotics-ER，旨在为自主机器提供动力。这些算法基于该公司Gemini 2.0系列的大型语言模型，能够处理文本和视频等多模态数据，使得新模型能够在决策时分析机器人摄像头拍摄的画面。

Google LLC 今天推出了两款全新的人工智能模型 - Gemini Robotics 和 Gemini Robotics-ER，这两款模型专门用于为自主机器提供动力。

这些算法基于该公司的 Gemini 2.0 系列大语言模型。Gemini 2.0 于去年 12 月推出，不仅可以处理文本，还能处理包括视频在内的多模态数据。这种多模态处理能力使新的 Gemini Robotics 和 Gemini Robotics-ER 模型能够分析机器人摄像头捕捉的画面，从而做出决策。

Gemini Robotics 被描述为一个视觉-语言-动作模型。据 Google 介绍，配备该模型的机器人可以根据自然语言指令执行复杂任务。例如，用户可以要求 AI 将纸张折叠成折纸形状，或将物品放入 Ziploc 袋中。

传统上，教导工业机器人执行新任务需要手动编程。这项工作不仅需要专业技能，还会消耗大量时间。为了简化机器人配置过程，Google 的研究人员在设计 Gemini Robotics 时特别注重其通用性。该公司表示，这款 AI 可以执行在训练过程中未曾学习过的任务，从而减少手动编程的需求。

为了测试 Gemini Robotics 对新任务的响应能力，Google 使用 AI 泛化基准进行评估。结果表明，该算法的性能是早期视觉-语言-动作模型的两倍多。根据 Google 的说法，Gemini Robotics 不仅能执行未经训练的任务，还能在环境条件发生变化时调整其执行方式。

Google DeepMind 机器人部门负责人 Carolina Parada 在博客文章中详细说明："如果物体从机器人手中滑落，或有人移动了物品位置，Gemini Robotics 能够快速重新规划并继续执行任务 —— 这对于在充满意外的现实世界中运行的机器人来说是一项至关重要的能力。"

公司今天推出的另一个 AI 模型 Robotics-ER 主要针对空间推理能力。空间推理指的是机器人在执行任务前必须进行的一系列复杂计算。例如，拿起一个咖啡杯需要机器人手臂找到杯柄并计算最佳抓取角度。

在制定任务执行计划后，Gemini Robotics-ER 利用 Gemini 2.0 的编程能力将计划转换为配置脚本。这个脚本用于对安装了该 AI 的机器人进行编程。如果某个任务对 Gemini Robotics-ER 来说过于复杂，开发者可以通过"少量人工示范"来教导它最佳执行方案。

Parada 写道："Gemini Robotics-ER 可以直接执行控制机器人所需的所有步骤，包括感知、状态估计、空间理解、规划和代码生成。在这种端到端的场景中，该模型的成功率比 Gemini 2.0 高出 2-3 倍。"

Google 将向多个合作伙伴提供 Gemini Robotics-ER，其中包括人形机器人初创公司 Apptronik Inc.，该公司上个月获得了 3.5 亿美元融资，Google 也参与其中。Google 将与 Apptronik 合作开发配备 Gemini 2.0 的人形机器人。

来源：SiliconANGLE

0赞

好文章，需要你的鼓励

Google 推出两款全新 AI 机器人控制模型

来源：SiliconANGLE

2025

03/13

15:57

分享

点赞

为AI+而生，海辰储能发布全球首款锂钠协同AIDC全时长储能解决方案

长时储能开启智慧未来：海辰储能生态日全球首发三大新品

Arm 借助融合型 AI 数据中心，重塑计算格局

奥运级别的努力：首席信息官为2026年AI颠覆做准备

Spotify推出AI播放列表功能让用户掌控推荐算法

Adobe押注生成式AI获得回报，年度营收创历史新高

OpenAI与迪士尼达成十亿美元合作协议，米老鼠和漫威角色进入Sora

甲骨文150亿美元数据中心投资导致股价下跌

Spoor鸟类监测AI软件需求飞速增长

制药行业AI数据质量危机：垃圾进垃圾出的隐患

Harness获得2.4亿美元融资，估值达55亿美元，专注自动化AI编码后的开发流程

英伟达CEO黄仁勋独家专访：万亿美元押注AI工厂将成为新时代计算机

AI 时代的数据中心：未来十年规划展望

AI 编程助手拒绝写代码，建议用户自学编程

超越 ChatGPT：通往通用人工智能的 5 大挑战

Oracle 在 AI 主流化方面具有重大优势

Snap 推出基于自研生成模型的 AI 视频滤镜

Google 的 Gemma 3：一款支持 128K 上下文窗口的开源单 GPU AI 模型

精灵宝可梦 GO 迎来新东家，而 Niantic 正借助 AI 和 AR 重塑地图业务

Google 的 Gemini 2.0 Flash 原生多模态 AI 图像生成功能给人留下深刻印象

Google 推出两款全新 AI 机器人控制模型

Nvidia 赢得了 AI 训练竞赛，但推理市场仍未尘埃落定

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: