Google LLC 今天推出了两款全新的人工智能模型 - Gemini Robotics 和 Gemini Robotics-ER,这两款模型专门用于为自主机器提供动力。
这些算法基于该公司的 Gemini 2.0 系列大语言模型。Gemini 2.0 于去年 12 月推出,不仅可以处理文本,还能处理包括视频在内的多模态数据。这种多模态处理能力使新的 Gemini Robotics 和 Gemini Robotics-ER 模型能够分析机器人摄像头捕捉的画面,从而做出决策。
Gemini Robotics 被描述为一个视觉-语言-动作模型。据 Google 介绍,配备该模型的机器人可以根据自然语言指令执行复杂任务。例如,用户可以要求 AI 将纸张折叠成折纸形状,或将物品放入 Ziploc 袋中。
传统上,教导工业机器人执行新任务需要手动编程。这项工作不仅需要专业技能,还会消耗大量时间。为了简化机器人配置过程,Google 的研究人员在设计 Gemini Robotics 时特别注重其通用性。该公司表示,这款 AI 可以执行在训练过程中未曾学习过的任务,从而减少手动编程的需求。
为了测试 Gemini Robotics 对新任务的响应能力,Google 使用 AI 泛化基准进行评估。结果表明,该算法的性能是早期视觉-语言-动作模型的两倍多。根据 Google 的说法,Gemini Robotics 不仅能执行未经训练的任务,还能在环境条件发生变化时调整其执行方式。
Google DeepMind 机器人部门负责人 Carolina Parada 在博客文章中详细说明:"如果物体从机器人手中滑落,或有人移动了物品位置,Gemini Robotics 能够快速重新规划并继续执行任务 —— 这对于在充满意外的现实世界中运行的机器人来说是一项至关重要的能力。"
公司今天推出的另一个 AI 模型 Robotics-ER 主要针对空间推理能力。空间推理指的是机器人在执行任务前必须进行的一系列复杂计算。例如,拿起一个咖啡杯需要机器人手臂找到杯柄并计算最佳抓取角度。
在制定任务执行计划后,Gemini Robotics-ER 利用 Gemini 2.0 的编程能力将计划转换为配置脚本。这个脚本用于对安装了该 AI 的机器人进行编程。如果某个任务对 Gemini Robotics-ER 来说过于复杂,开发者可以通过"少量人工示范"来教导它最佳执行方案。
Parada 写道:"Gemini Robotics-ER 可以直接执行控制机器人所需的所有步骤,包括感知、状态估计、空间理解、规划和代码生成。在这种端到端的场景中,该模型的成功率比 Gemini 2.0 高出 2-3 倍。"
Google 将向多个合作伙伴提供 Gemini Robotics-ER,其中包括人形机器人初创公司 Apptronik Inc.,该公司上个月获得了 3.5 亿美元融资,Google 也参与其中。Google 将与 Apptronik 合作开发配备 Gemini 2.0 的人形机器人。
好文章,需要你的鼓励
当前企业面临引入AI的机遇与挑战。管理层需要了解机器学习算法基础,包括线性回归、神经网络等核心技术。专家建议从小规模试点开始,优先选择高影响用例,投资数据治理,提升员工技能。对于影子IT现象,应将其视为机会而非问题,建立治理流程将有效工具正式化。成功的AI采用需要明确目标、跨部门协作、变革管理和持续学习社区建设。
这项由东京科学技术大学等机构联合发布的研究提出了UMoE架构,通过重新设计注意力机制,实现了注意力层和前馈网络层的专家参数共享。该方法在多个数据集上显著优于现有的MoE方法,同时保持了较低的计算开销,为大语言模型的高效扩展提供了新思路。
美国垃圾收集行业2024年创收690亿美元,近18万辆垃圾车每周运营六至七天,每日停靠超千次。设备故障成为行业最大隐性成本,每辆车年均故障费用超5000美元。AI技术通过实时监控传感器数据,能提前数周预测故障,优化零部件库存管理,减少重复维修。车队报告显示,预测性维护每辆车年节省高达2500美元,显著提升运营效率和服务可靠性。
小米团队开发的MiMo-7B模型证明了AI领域"小而精"路线的可行性。这个仅有70亿参数的模型通过创新的预训练数据处理、三阶段训练策略和强化学习优化,在数学推理和编程任务上超越了320亿参数的大模型,甚至在某些指标上击败OpenAI o1-mini。研究团队还开发了高效的训练基础设施,将训练速度提升2.29倍。该成果已完全开源,为AI民主化发展提供了新思路。