Google LLC 今天推出了两款全新的人工智能模型 - Gemini Robotics 和 Gemini Robotics-ER,这两款模型专门用于为自主机器提供动力。
这些算法基于该公司的 Gemini 2.0 系列大语言模型。Gemini 2.0 于去年 12 月推出,不仅可以处理文本,还能处理包括视频在内的多模态数据。这种多模态处理能力使新的 Gemini Robotics 和 Gemini Robotics-ER 模型能够分析机器人摄像头捕捉的画面,从而做出决策。
Gemini Robotics 被描述为一个视觉-语言-动作模型。据 Google 介绍,配备该模型的机器人可以根据自然语言指令执行复杂任务。例如,用户可以要求 AI 将纸张折叠成折纸形状,或将物品放入 Ziploc 袋中。
传统上,教导工业机器人执行新任务需要手动编程。这项工作不仅需要专业技能,还会消耗大量时间。为了简化机器人配置过程,Google 的研究人员在设计 Gemini Robotics 时特别注重其通用性。该公司表示,这款 AI 可以执行在训练过程中未曾学习过的任务,从而减少手动编程的需求。
为了测试 Gemini Robotics 对新任务的响应能力,Google 使用 AI 泛化基准进行评估。结果表明,该算法的性能是早期视觉-语言-动作模型的两倍多。根据 Google 的说法,Gemini Robotics 不仅能执行未经训练的任务,还能在环境条件发生变化时调整其执行方式。
Google DeepMind 机器人部门负责人 Carolina Parada 在博客文章中详细说明:"如果物体从机器人手中滑落,或有人移动了物品位置,Gemini Robotics 能够快速重新规划并继续执行任务 —— 这对于在充满意外的现实世界中运行的机器人来说是一项至关重要的能力。"
公司今天推出的另一个 AI 模型 Robotics-ER 主要针对空间推理能力。空间推理指的是机器人在执行任务前必须进行的一系列复杂计算。例如,拿起一个咖啡杯需要机器人手臂找到杯柄并计算最佳抓取角度。
在制定任务执行计划后,Gemini Robotics-ER 利用 Gemini 2.0 的编程能力将计划转换为配置脚本。这个脚本用于对安装了该 AI 的机器人进行编程。如果某个任务对 Gemini Robotics-ER 来说过于复杂,开发者可以通过"少量人工示范"来教导它最佳执行方案。
Parada 写道:"Gemini Robotics-ER 可以直接执行控制机器人所需的所有步骤,包括感知、状态估计、空间理解、规划和代码生成。在这种端到端的场景中,该模型的成功率比 Gemini 2.0 高出 2-3 倍。"
Google 将向多个合作伙伴提供 Gemini Robotics-ER,其中包括人形机器人初创公司 Apptronik Inc.,该公司上个月获得了 3.5 亿美元融资,Google 也参与其中。Google 将与 Apptronik 合作开发配备 Gemini 2.0 的人形机器人。
好文章,需要你的鼓励
Birk Jernstrom在Shopify收购其上一家初创公司后,创立了货币化平台Polar,专注帮助开发者构建单人独角兽企业。该平台为开发者提供支付基础设施服务,处理全球计费和税务问题,让企业从第一天起就能销售在线产品和SaaS订阅服务。Polar获得了Accel领投的1000万美元种子轮融资,自2024年9月推出以来已吸引1.8万名客户。
Anthropic和Open Philanthropy研究人员发现,之前声称AI推理模型存在"准确率崩溃"的研究实际上混淆了推理能力和物理限制。通过重新分析发现,AI模型在遇到输出长度限制时会主动停止,而非推理失败;部分测试题目本身无解却被当作失败案例;改用程序生成方式后,模型在复杂问题上表现出色,揭示了AI评估方法的重要缺陷。
OpenAI首席执行官奥特曼证实,Meta为挖角OpenAI和谷歌DeepMind的顶尖AI研究人员,开出了超过1亿美元的薪酬包。然而,这些挖角努力基本失败。奥特曼表示,员工们认为OpenAI在实现AGI方面机会更大,公司文化更注重创新使命而非高薪。Meta正在组建超级智能团队,但面临OpenAI、Anthropic等竞争对手的激烈竞争。
华为联合多所高校发布TeleMath数据集,这是首个专门评估大型语言模型在通信数学问题求解能力的基准测试。研究团队设计创新的合成数据生成框架,从50个专家问题扩展至500个测试样本,涵盖信号处理、网络优化等七大领域。评估结果显示,专门的推理模型明显优于通用模型,为通信AI应用指明方向。