这让在家构建复杂机器人项目变得更容易。
本周早些时候,AI 开发平台 Hugging Face 发布了一个名为 SmolVLA 的开源机器人 AI 模型。Hugging Face 声称,SmolVLA 基于“兼容许可”的社区共享数据集训练,在虚拟环境和真实世界环境下均超越了许多规模更大的机器人模型。
Hugging Face 在博客文章中写道:“SmolVLA 旨在普及视觉-语言-行为 (VLA) 模型的应用,并加速向通用机器人代理的研究。SmolVLA 不仅是一个轻量但功能强大的模型,更是一种训练和评估通用机器人技术的方法。”
SmolVLA 是 Hugging Face 快速扩展低成本机器人硬件与软件生态系统努力的一部分。去年,该公司推出了 LeRobot,这是一个专注于机器人领域的模型、数据集和工具集合。最近,Hugging Face 收购了法国机器人初创公司 Pollen Robotics,并推出了多款经济实惠的机器人系统,其中包括仿人机器人,可供购买。
SmolVLA 拥有 4.5 亿参数,其训练数据来自 LeRobot Community 数据集,这是在 Hugging Face AI 开发平台上共享的特别标记的机器人数据集。参数,有时被称为“权重”,是指导模型行为的内部组件。
Hugging Face 声称,SmolVLA 足够小,可以在单一家用 GPU 上运行——甚至能够在 MacBook 上运行——并且可以在包括该公司自有机器人系统在内的“经济实惠”硬件上进行测试和部署。
更有趣的是,SmolVLA 还支持“异步推理栈”,Hugging Face 表示这一特性使模型能将机器人动作的处理与所见所听的信息处理分离。正如该公司在博客文章中解释:“由于这种分离,机器人在快速变化的环境中能够更快做出响应。”
Hugging Face 可从其平台下载 SmolVLA。当前,一位用户在 X 平台上声称已使用该模型控制第三方机器人手臂。
值得注意的是,Hugging Face 远非初露锋芒的开源机器人竞赛中唯一的参与者。Nvidia 拥有一系列开源机器人工具,而初创公司 K-Scale Labs 正在构建其所谓的“开源仿人机器人”组件。在该领域内,还有几家实力雄厚的公司,包括 Dyna Robotics、得到杰夫·贝佐斯支持的 Physical Intelligence 以及 RLWRLD。
好文章,需要你的鼓励
法国人工智能公司Mistral AI宣布完成17亿欧元(约20亿美元)C轮融资,由荷兰半导体设备制造商ASML领投。此轮融资使Mistral估值从去年的60亿美元翻倍至137亿美元。英伟达、DST Global等知名投资机构参投。作为欧洲领先的AI开发商,Mistral凭借先进的多语言大模型与OpenAI等美国公司竞争,其聊天机器人Le Chat具备语音模式等功能。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
VAST Data收购了成立仅数月的初创公司Red Stapler,该公司由NetApp资深团队创立。Red Stapler创始人兼CEO Jonsi Stefansson将担任VAST云解决方案总经理,负责超大规模云战略。Red Stapler拥有6名开发人员,开发了跨SaaS交付、API集成、监控等功能的云控制平面和服务交付平台,将加速VAST AI OS在超大规模和多云环境中的部署,深化与全球领先超大规模云服务商的合作关系。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。