这让在家构建复杂机器人项目变得更容易。
本周早些时候,AI 开发平台 Hugging Face 发布了一个名为 SmolVLA 的开源机器人 AI 模型。Hugging Face 声称,SmolVLA 基于“兼容许可”的社区共享数据集训练,在虚拟环境和真实世界环境下均超越了许多规模更大的机器人模型。
Hugging Face 在博客文章中写道:“SmolVLA 旨在普及视觉-语言-行为 (VLA) 模型的应用,并加速向通用机器人代理的研究。SmolVLA 不仅是一个轻量但功能强大的模型,更是一种训练和评估通用机器人技术的方法。”
SmolVLA 是 Hugging Face 快速扩展低成本机器人硬件与软件生态系统努力的一部分。去年,该公司推出了 LeRobot,这是一个专注于机器人领域的模型、数据集和工具集合。最近,Hugging Face 收购了法国机器人初创公司 Pollen Robotics,并推出了多款经济实惠的机器人系统,其中包括仿人机器人,可供购买。
SmolVLA 拥有 4.5 亿参数,其训练数据来自 LeRobot Community 数据集,这是在 Hugging Face AI 开发平台上共享的特别标记的机器人数据集。参数,有时被称为“权重”,是指导模型行为的内部组件。
Hugging Face 声称,SmolVLA 足够小,可以在单一家用 GPU 上运行——甚至能够在 MacBook 上运行——并且可以在包括该公司自有机器人系统在内的“经济实惠”硬件上进行测试和部署。
更有趣的是,SmolVLA 还支持“异步推理栈”,Hugging Face 表示这一特性使模型能将机器人动作的处理与所见所听的信息处理分离。正如该公司在博客文章中解释:“由于这种分离,机器人在快速变化的环境中能够更快做出响应。”
Hugging Face 可从其平台下载 SmolVLA。当前,一位用户在 X 平台上声称已使用该模型控制第三方机器人手臂。
值得注意的是,Hugging Face 远非初露锋芒的开源机器人竞赛中唯一的参与者。Nvidia 拥有一系列开源机器人工具,而初创公司 K-Scale Labs 正在构建其所谓的“开源仿人机器人”组件。在该领域内,还有几家实力雄厚的公司,包括 Dyna Robotics、得到杰夫·贝佐斯支持的 Physical Intelligence 以及 RLWRLD。
好文章,需要你的鼓励
人工智能开发商Anthropic为其旗舰聊天机器人Claude推出新的医疗健康功能,用户现在可以与服务共享医疗记录以更好地了解自己的健康状况。Claude可以连接官方医疗记录和苹果健康等健身应用,进行更个性化的健康对话。新功能现已向美国的Claude Pro和Max订阅用户开放。公司强调该工具不用于诊断或治疗建议,而是帮助用户理解复杂医疗报告,为医患沟通做准备,并承诺严格保护用户隐私数据。
上海AI实验室联合团队开发RoboVIP系统,通过视觉身份提示技术解决机器人训练数据稀缺问题。该系统能生成多视角、时间连贯的机器人操作视频,利用夹爪状态信号精确识别交互物体,构建百万级视觉身份数据库。实验显示,RoboVIP显著提升机器人在复杂环境中的操作成功率,为机器人智能化发展提供重要技术突破。
谷歌发布通用商务协议(UCP)开放商务标准,旨在让AI智能体自动化整个购物流程,从产品发现到支付再到售后服务。该协议与Shopify、Target、沃尔玛等零售商合作开发,支持AI智能体协同处理客户购买流程各环节。谷歌还推出品牌商业智能体和直接优惠工具,优化AI搜索中的购物体验。麦肯锡预测智能体商务到2030年将成长为3万亿美元市场。
英伟达研究团队提出GDPO方法,解决AI多目标训练中的"奖励信号坍缩"问题。该方法通过分别评估各技能再综合考量,避免了传统GRPO方法简单相加导致的信息丢失。在工具调用、数学推理、代码编程三大场景测试中,GDPO均显著优于传统方法,准确率提升最高达6.3%,且训练过程更稳定。该技术已开源并支持主流AI框架。