谷歌DeepMind于周二发布了一款名为Gemini Robotics On-Device的新型语言模型,该模型可在机器人上本地执行任务,无需互联网连接。
基于该公司今年3月发布的Gemini Robotics模型,Gemini Robotics On-Device能够控制机器人的运动。开发者可以使用自然语言提示来控制和微调模型,以满足各种需求。
在基准测试中,谷歌声称该模型的性能接近基于云端的Gemini Robotics模型。公司表示,在通用基准测试中,它优于其他设备端模型,尽管没有具体说明这些模型的名称。
在演示中,该公司展示了运行这一本地模型的机器人执行解拉链包和折叠衣物等任务。谷歌表示,虽然该模型最初是为ALOHA机器人训练的,但后来适配到双臂Franka FR3机器人和Apptronik公司的Apollo人形机器人上。
谷歌声称双臂Franka FR3成功应对了之前从未"见过"的场景和物体,比如在工业传送带上进行装配作业。
谷歌DeepMind还发布了Gemini Robotics SDK。公司表示,开发者可以向机器人展示50到100次任务演示,在MuJoCo物理模拟器上使用这些模型训练机器人执行新任务。
其他AI模型开发者也在涉足机器人领域。英伟达正在构建一个为人形机器人创建基础模型的平台;Hugging Face不仅在开发开源机器人模型和数据集,还在研发机器人;韩国创业公司RLWRLD获得未来资产投资,正致力于创建机器人基础模型。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。