谷歌发布离线机器人AI系统，无需联网即可系鞋带

谷歌DeepMind发布新的离线视觉语言行动模型，让机器人无需云端支持即可自主运行。该模型基于Gemini的多模态理解能力，能够完成系鞋带、折衣服等复杂任务。相比之前的混合云端模式，新模型准确性仅略有下降，但大幅提升了响应速度和隐私保护。开发者可通过SDK进行定制化调优，仅需50-100次演示即可适应新任务。

尽管我们有时称Gemini和ChatGPT等聊天机器人为"机器人"，但生成式AI正在真正的物理机器人中发挥越来越重要的作用。继今年早些时候发布Gemini Robotics后，谷歌DeepMind现在推出了一款新的设备端VLA（视觉语言动作）模型来控制机器人。与之前的版本不同，这个版本不依赖云端组件，让机器人能够完全自主运行。

谷歌DeepMind机器人部门负责人Carolina Parada表示，这种AI机器人方法可以让机器人在复杂环境中更加可靠。这也是谷歌机器人模型的首个版本，开发者可以根据特定用途对其进行调优。

机器人技术对AI来说是一个独特的挑战，因为机器人不仅存在于物理世界中，还会改变其环境。无论是让机器人移动积木还是系鞋带，都很难预测机器人可能遇到的每种情况。传统的通过强化学习训练机器人动作的方法非常缓慢，但生成式AI允许更大程度的泛化。

"它利用Gemini的多模态世界理解能力来完成全新的任务，"Carolina Parada解释道。"这使得Gemini不仅能够生成文本、写诗、总结文章，还能编写代码、生成图像，同样也能生成机器人动作。"

通用机器人，无需云端支持

在之前的Gemini Robotics版本中（这仍然是谷歌机器人技术的"最佳"版本），平台运行混合系统，机器人上有一个小模型，云端运行一个更大的模型。你可能看过聊天机器人在生成输出时"思考"几秒钟，但机器人需要快速反应。如果你告诉机器人拾取并移动物体，你不希望它在生成每个步骤时暂停。本地模型允许快速适应，而基于服务器的模型可以帮助处理复杂的推理任务。谷歌DeepMind现在将本地模型作为独立的VLA发布，它的表现出人意料地强大。

新的Gemini Robotics设备端模型的准确性仅略低于混合版本。据Parada介绍，许多任务可以直接使用。"当我们与机器人互动时，发现它们在理解新情况方面能力惊人，"Parada告诉Ars。

通过发布带有完整SDK的模型，团队希望开发者能为Gemini驱动的机器人提供新任务并展示新环境，这可能会揭示模型标准调优无法处理的动作。使用SDK，机器人研究人员能够仅用50到100次演示就让VLA适应新任务。

在AI机器人技术中，"演示"与其他AI研究领域有所不同。Parada解释说，演示通常涉及远程操作机器人——手动控制机械设备完成任务来调优模型，使其能够自主处理该任务。虽然合成数据是谷歌训练的一个要素，但它不能替代真实数据。"我们仍然发现，对于最复杂、最精细的行为，我们需要真实数据，"Parada说。"但通过仿真可以做很多事情。"

然而，这些高度复杂的行为可能超出了设备端VLA的能力范围。它应该能够毫无问题地处理简单动作，如系鞋带（这对AI机器人来说传统上是一项困难任务）或折叠衬衫。但是，如果你想让机器人为你制作三明治，它可能需要更强大的模型来进行必要的多步推理，将面包放在正确的位置。

团队认为Gemini Robotics设备端版本非常适合云连接不稳定或不存在的环境。在本地处理机器人的视觉数据对隐私保护也更有利，例如在医疗环境中。

构建安全机器人

无论是提供危险信息的聊天机器人还是像终结者一样的机器人，AI系统的安全性始终是一个关注点。我们都见过生成式AI聊天机器人和图像生成器在输出中产生虚假信息，驱动Gemini Robotics的生成系统也不例外——模型不是每次都能做对，但给模型一个带有冰冷金属抓手的物理实体让问题变得更加棘手。

为确保机器人行为安全，Gemini Robotics采用多层方法。"通过完整的Gemini Robotics，你连接到一个能够推理什么是安全行为的模型，"Parada说。"然后让它与实际产生选项的VLA对话，接着VLA调用低级控制器，后者通常具有安全关键组件，比如可以施加多大力量或手臂可以多快移动。"

重要的是，新的设备端模型只是一个VLA，所以开发者需要自己构建安全机制。不过，谷歌建议他们复制Gemini团队的做法。建议早期测试程序中的开发者将系统连接到标准的Gemini Live API，其中包含安全层。他们还应该实施低级控制器进行关键安全检查。

任何有兴趣测试Gemini Robotics设备端版本的人都应申请加入谷歌的可信测试程序。谷歌的Carolina Parada表示，过去三年中机器人技术取得了许多突破，这只是开始——当前发布的Gemini Robotics仍基于Gemini 2.0。Parada指出，Gemini Robotics团队通常比Gemini开发落后一个版本，而Gemini 2.5被认为在聊天机器人功能方面有了巨大改进。也许机器人也会如此。

来源：Arstechnica

0赞

好文章，需要你的鼓励

谷歌发布离线机器人AI系统，无需联网即可系鞋带

来源：Arstechnica

2025

06/25

14:47

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

Pure Storage谈AI数据挑战超越硬件层面

AI正在终结传统营销模式：下一个时代将会如何？

HPE全面押注智能体AI技术变革企业运营

谷歌发布可在机器人本地运行的新Gemini模型

情感智能成为AI发展新赛道，新数据揭示语言模型发展趋势

Pythagora推出专业AI代理团队革新情感编程体验

AI初创公司Context携手高通推出智能代理自动驾驶系统

每位首席信息安全官必须回答的十个网络安全关键问题

前沿模型推动人工智能边界突破

Salesforce发布Agentforce 3，支持AI智能体可观测性和MCP协议

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会