Hugging Face 和 Physical Intelligence 本周悄然推出了 Pi0 (Pi-Zero),这是首个可将自然语言命令直接转换为物理动作的机器人基础模型。
Hugging Face 的首席研究科学家 Remi Cadene 在一条引起 AI 社区广泛关注的 X 平台帖子中宣布:"Pi0 是最先进的视觉语言动作模型。它接收自然语言命令作为输入,直接输出自主行为。"
这次发布标志着机器人技术的一个重要时刻:首次通过开源平台广泛提供机器人基础模型。就像 ChatGPT 革新了文本生成一样,Pi0 旨在改变机器人学习和执行任务的方式。
Pi0 如何将 ChatGPT 式学习引入机器人技术,解锁复杂任务
这个最初由 Physical Intelligence 开发并现已移植到 Hugging Face 的 LeRobot 平台的模型,可以执行诸如叠衣服、收拾餐桌和打包杂货等复杂任务——这些任务传统上对机器人来说都极具挑战性。
Physical Intelligence 研究团队在他们的公告中写道:"当今的机器人是狭隘的专家,仅被编程用于在编排好的环境中进行重复动作。Pi0 改变了这一点,让机器人能够学习并遵循用户指令,使编程变得像告诉机器人你想要做什么一样简单。"
Pi0 背后的技术代表着重要的技术突破。该模型通过七个不同机器人平台和 68 个独特任务的数据进行训练,使其能够处理从精细操作到复杂多步骤程序的各种任务。它采用了一种称为流匹配的新技术,以 50Hz 的频率产生平滑的实时动作轨迹,使其在现实世界部署中具有高精度和适应性。
新的 FAST 技术将机器人训练速度提升 5 倍,扩展 AI 潜力
在此基础上,团队还推出了 "Pi0-FAST",这是模型的增强版本,incorporates 了一种称为频率空间动作序列标记化 (FAST) 的新标记方案。这个版本的训练速度比前代提高了五倍,并在不同环境和机器人类型中表现出更好的泛化能力。
这对工业界的影响是巨大的。制造设施可能通过简单的口头指令而不是复杂的编码来重新编程机器人执行新任务。仓库可以部署更灵活的自动化系统来适应不断变化的需求。甚至小企业也可能发现机器人技术更容易获得,因为编程和部署的门槛显著降低。
然而,挑战依然存在。虽然 Pi0 代表着重大进步,但它仍有局限性。该模型在处理非常复杂的任务时偶尔会遇到困难,并且需要大量计算资源。在工业环境中的可靠性和安全性也存在问题。
这次发布恰逢 AI 行业发展的关键时期。当各公司争相开发和部署人工通用智能 (AGI) 时,Pi0 代表了首次成功跨越语言模型和物理世界交互之间鸿沟的尝试之一。
该技术现已通过 Hugging Face 平台提供,开发者只需几行代码就能下载和使用预训练策略:
```python policy = Pi0Policy.from_pretrained("lerobot/pi0") ```
对企业用户来说,这种可访问性可能加速各行业采用先进机器人技术。企业现在可以针对特定用例微调模型,可能减少部署机器人解决方案所需的时间和成本。
企业领导者为何应关注开源机器人技术
开发团队还发布了全面的文档和培训材料,使这项技术能够被更广泛的用户群体使用。机器人技术的这种民主化可能导致各个领域的创新应用,从医疗保健到零售业。
随着技术的成熟,它可能重塑我们对自动化和人机交互的认知。通过自然语言控制机器人的能力可能使机器人辅助在家庭、医院和小企业中更容易实现——这些领域由于编程复杂性,传统机器人技术一直难以获得发展。
随着这次发布,机器人技术的未来看起来越来越对话化、适应性强和易于使用。虽然还有工作要做,但 Pi0 代表着向使多功能、智能机器人成为实用现实而不是科幻幻想迈出的重要一步。
好文章,需要你的鼓励
AI颠覆预计将在2026年持续,推动企业适应不断演进的技术并扩大规模。国际奥委会、Moderna和Sportradar的领导者在纽约路透社峰会上分享了他们的AI策略。讨论焦点包括自建AI与购买第三方资源的选择,AI在内部流程优化和外部产品开发中的应用,以及小型模型在日常应用中的潜力。专家建议,企业应将AI建设融入企业文化,以创新而非成本节约为驱动力。
字节跳动等机构联合发布GAR技术,让AI能同时理解图像的全局和局部信息,实现对多个区域间复杂关系的准确分析。该技术通过RoI对齐特征重放方法,在保持全局视野的同时提取精确细节,在多项测试中表现出色,甚至在某些指标上超越了体积更大的模型,为AI视觉理解能力带来重要突破。
Spotify在新西兰测试推出AI提示播放列表功能,用户可通过文字描述需求让AI根据指令和听歌历史生成个性化播放列表。该功能允许用户设置定期刷新,相当于创建可控制算法的每周发现播放列表。这是Spotify赋予用户更多控制权努力的一部分,此前其AI DJ功能也增加了语音提示选项,反映了各平台让用户更好控制算法推荐的趋势。
Inclusion AI团队推出首个开源万亿参数思维模型Ring-1T,通过IcePop、C3PO++和ASystem三项核心技术突破,解决了超大规模强化学习训练的稳定性和效率难题。该模型在AIME-2025获得93.4分,IMO-2025达到银牌水平,CodeForces获得2088分,展现出卓越的数学推理和编程能力,为AI推理能力发展树立了新的里程碑。