Google 推出两款全新 AI 机器人控制模型

谷歌公司今天推出了两款新型人工智能模型，Gemini Robotics和Gemini Robotics-ER，旨在为自主机器提供动力。这些算法基于该公司Gemini 2.0系列的大型语言模型，能够处理文本和视频等多模态数据，使得新模型能够在决策时分析机器人摄像头拍摄的画面。

Google LLC 今天推出了两款全新的人工智能模型 - Gemini Robotics 和 Gemini Robotics-ER，这两款模型专门用于为自主机器提供动力。

这些算法基于该公司的 Gemini 2.0 系列大语言模型。Gemini 2.0 于去年 12 月推出，不仅可以处理文本，还能处理包括视频在内的多模态数据。这种多模态处理能力使新的 Gemini Robotics 和 Gemini Robotics-ER 模型能够分析机器人摄像头捕捉的画面，从而做出决策。

Gemini Robotics 被描述为一个视觉-语言-动作模型。据 Google 介绍，配备该模型的机器人可以根据自然语言指令执行复杂任务。例如，用户可以要求 AI 将纸张折叠成折纸形状，或将物品放入 Ziploc 袋中。

传统上，教导工业机器人执行新任务需要手动编程。这项工作不仅需要专业技能，还会消耗大量时间。为了简化机器人配置过程，Google 的研究人员在设计 Gemini Robotics 时特别注重其通用性。该公司表示，这款 AI 可以执行在训练过程中未曾学习过的任务，从而减少手动编程的需求。

为了测试 Gemini Robotics 对新任务的响应能力，Google 使用 AI 泛化基准进行评估。结果表明，该算法的性能是早期视觉-语言-动作模型的两倍多。根据 Google 的说法，Gemini Robotics 不仅能执行未经训练的任务，还能在环境条件发生变化时调整其执行方式。

Google DeepMind 机器人部门负责人 Carolina Parada 在博客文章中详细说明："如果物体从机器人手中滑落，或有人移动了物品位置，Gemini Robotics 能够快速重新规划并继续执行任务 —— 这对于在充满意外的现实世界中运行的机器人来说是一项至关重要的能力。"

公司今天推出的另一个 AI 模型 Robotics-ER 主要针对空间推理能力。空间推理指的是机器人在执行任务前必须进行的一系列复杂计算。例如，拿起一个咖啡杯需要机器人手臂找到杯柄并计算最佳抓取角度。

在制定任务执行计划后，Gemini Robotics-ER 利用 Gemini 2.0 的编程能力将计划转换为配置脚本。这个脚本用于对安装了该 AI 的机器人进行编程。如果某个任务对 Gemini Robotics-ER 来说过于复杂，开发者可以通过"少量人工示范"来教导它最佳执行方案。

Parada 写道："Gemini Robotics-ER 可以直接执行控制机器人所需的所有步骤，包括感知、状态估计、空间理解、规划和代码生成。在这种端到端的场景中，该模型的成功率比 Gemini 2.0 高出 2-3 倍。"

Google 将向多个合作伙伴提供 Gemini Robotics-ER，其中包括人形机器人初创公司 Apptronik Inc.，该公司上个月获得了 3.5 亿美元融资，Google 也参与其中。Google 将与 Apptronik 合作开发配备 Gemini 2.0 的人形机器人。

来源：SiliconANGLE

0赞

好文章，需要你的鼓励

Google 推出两款全新 AI 机器人控制模型

来源：SiliconANGLE

2025

03/13

15:57

分享

点赞

智能体时代，IT决策者如何重塑测试体系：从资源消耗到价值引擎战略转型

具身智能大算力开发平台S600重磅亮相，地瓜机器人引领端云一体机器人进化新范式

联想刘军：中国区客户直营占比达到80%

联想基础设施业务增势强劲盈利基础稳固 第二财季营收近300亿元

枫清科技与麒麟软件达成战略合作，国产AI一体机亮相京津冀信创大会

一张“慢”榜单与一场“快”战争：中国算力排行榜的变与不变

昆仑元AI携手AMD重磅发布GPT-Factory Mini AI工作站

Google发布Nano Banana Pro最新图像生成模型

Gemini新增AI图像检测功能，但识别能力有限

ChatGPT全球推出群聊功能，支持多人协作对话

Google联手西屋推动核反应堆建设智能化优化方案

Sunday公司推出家用机器人Memo，计划让机器人走进千家万户

AI 时代的数据中心：未来十年规划展望

AI 编程助手拒绝写代码，建议用户自学编程

超越 ChatGPT：通往通用人工智能的 5 大挑战

Oracle 在 AI 主流化方面具有重大优势

Snap 推出基于自研生成模型的 AI 视频滤镜

Google 的 Gemma 3：一款支持 128K 上下文窗口的开源单 GPU AI 模型

精灵宝可梦 GO 迎来新东家，而 Niantic 正借助 AI 和 AR 重塑地图业务

Google 的 Gemini 2.0 Flash 原生多模态 AI 图像生成功能给人留下深刻印象

Google 推出两款全新 AI 机器人控制模型

Nvidia 赢得了 AI 训练竞赛，但推理市场仍未尘埃落定

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

联想基础设施业务增势强劲盈利基础稳固第二财季营收近300亿元