谷歌发布离线机器人AI系统，无需联网即可系鞋带

谷歌DeepMind发布新的离线视觉语言行动模型，让机器人无需云端支持即可自主运行。该模型基于Gemini的多模态理解能力，能够完成系鞋带、折衣服等复杂任务。相比之前的混合云端模式，新模型准确性仅略有下降，但大幅提升了响应速度和隐私保护。开发者可通过SDK进行定制化调优，仅需50-100次演示即可适应新任务。

尽管我们有时称Gemini和ChatGPT等聊天机器人为"机器人"，但生成式AI正在真正的物理机器人中发挥越来越重要的作用。继今年早些时候发布Gemini Robotics后，谷歌DeepMind现在推出了一款新的设备端VLA（视觉语言动作）模型来控制机器人。与之前的版本不同，这个版本不依赖云端组件，让机器人能够完全自主运行。

谷歌DeepMind机器人部门负责人Carolina Parada表示，这种AI机器人方法可以让机器人在复杂环境中更加可靠。这也是谷歌机器人模型的首个版本，开发者可以根据特定用途对其进行调优。

机器人技术对AI来说是一个独特的挑战，因为机器人不仅存在于物理世界中，还会改变其环境。无论是让机器人移动积木还是系鞋带，都很难预测机器人可能遇到的每种情况。传统的通过强化学习训练机器人动作的方法非常缓慢，但生成式AI允许更大程度的泛化。

"它利用Gemini的多模态世界理解能力来完成全新的任务，"Carolina Parada解释道。"这使得Gemini不仅能够生成文本、写诗、总结文章，还能编写代码、生成图像，同样也能生成机器人动作。"

通用机器人，无需云端支持

在之前的Gemini Robotics版本中（这仍然是谷歌机器人技术的"最佳"版本），平台运行混合系统，机器人上有一个小模型，云端运行一个更大的模型。你可能看过聊天机器人在生成输出时"思考"几秒钟，但机器人需要快速反应。如果你告诉机器人拾取并移动物体，你不希望它在生成每个步骤时暂停。本地模型允许快速适应，而基于服务器的模型可以帮助处理复杂的推理任务。谷歌DeepMind现在将本地模型作为独立的VLA发布，它的表现出人意料地强大。

新的Gemini Robotics设备端模型的准确性仅略低于混合版本。据Parada介绍，许多任务可以直接使用。"当我们与机器人互动时，发现它们在理解新情况方面能力惊人，"Parada告诉Ars。

通过发布带有完整SDK的模型，团队希望开发者能为Gemini驱动的机器人提供新任务并展示新环境，这可能会揭示模型标准调优无法处理的动作。使用SDK，机器人研究人员能够仅用50到100次演示就让VLA适应新任务。

在AI机器人技术中，"演示"与其他AI研究领域有所不同。Parada解释说，演示通常涉及远程操作机器人——手动控制机械设备完成任务来调优模型，使其能够自主处理该任务。虽然合成数据是谷歌训练的一个要素，但它不能替代真实数据。"我们仍然发现，对于最复杂、最精细的行为，我们需要真实数据，"Parada说。"但通过仿真可以做很多事情。"

然而，这些高度复杂的行为可能超出了设备端VLA的能力范围。它应该能够毫无问题地处理简单动作，如系鞋带（这对AI机器人来说传统上是一项困难任务）或折叠衬衫。但是，如果你想让机器人为你制作三明治，它可能需要更强大的模型来进行必要的多步推理，将面包放在正确的位置。

团队认为Gemini Robotics设备端版本非常适合云连接不稳定或不存在的环境。在本地处理机器人的视觉数据对隐私保护也更有利，例如在医疗环境中。

构建安全机器人

无论是提供危险信息的聊天机器人还是像终结者一样的机器人，AI系统的安全性始终是一个关注点。我们都见过生成式AI聊天机器人和图像生成器在输出中产生虚假信息，驱动Gemini Robotics的生成系统也不例外——模型不是每次都能做对，但给模型一个带有冰冷金属抓手的物理实体让问题变得更加棘手。

为确保机器人行为安全，Gemini Robotics采用多层方法。"通过完整的Gemini Robotics，你连接到一个能够推理什么是安全行为的模型，"Parada说。"然后让它与实际产生选项的VLA对话，接着VLA调用低级控制器，后者通常具有安全关键组件，比如可以施加多大力量或手臂可以多快移动。"

重要的是，新的设备端模型只是一个VLA，所以开发者需要自己构建安全机制。不过，谷歌建议他们复制Gemini团队的做法。建议早期测试程序中的开发者将系统连接到标准的Gemini Live API，其中包含安全层。他们还应该实施低级控制器进行关键安全检查。

任何有兴趣测试Gemini Robotics设备端版本的人都应申请加入谷歌的可信测试程序。谷歌的Carolina Parada表示，过去三年中机器人技术取得了许多突破，这只是开始——当前发布的Gemini Robotics仍基于Gemini 2.0。Parada指出，Gemini Robotics团队通常比Gemini开发落后一个版本，而Gemini 2.5被认为在聊天机器人功能方面有了巨大改进。也许机器人也会如此。

来源：Arstechnica

0赞

好文章，需要你的鼓励

谷歌发布离线机器人AI系统，无需联网即可系鞋带

来源：Arstechnica

2025

06/25

14:47

分享

点赞

LangChain核心库曝出严重漏洞，AI智能体机密信息面临泄露风险

Mill如何与亚马逊和全食超市达成合作协议

TechCrunch创业大赛中的9家顶尖生物技术初创公司

2025年印度科技领域十大重要发展

中科大发布Live Avatar：AI数字人无限聊天不翻车

从软件定义汽车到AI驱动质控：Testin云测助力车机测试数智化价值落地

无需Linux即可运行自由开源软件

超越 SEO：AI 引擎优化如何改变在线可见性格局

新Mac必装应用：五款提升工作效率的神器推荐

DXC蒲公英计划：为神经多样性IT专业人士赋能

AMD Strix Halo与Nvidia DGX Spark：哪款AI工作站更胜一筹？

类人机器人投资热潮涌现但商业化仍需数十年

Pure Storage谈AI数据挑战超越硬件层面

AI正在终结传统营销模式：下一个时代将会如何？

HPE全面押注智能体AI技术变革企业运营

谷歌发布可在机器人本地运行的新Gemini模型

情感智能成为AI发展新赛道，新数据揭示语言模型发展趋势

Pythagora推出专业AI代理团队革新情感编程体验

AI初创公司Context携手高通推出智能代理自动驾驶系统

每位首席信息安全官必须回答的十个网络安全关键问题

前沿模型推动人工智能边界突破

Salesforce发布Agentforce 3，支持AI智能体可观测性和MCP协议

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: