Hugging Face 和 Physical Intelligence 本周悄然推出了 Pi0 (Pi-Zero),这是首个可将自然语言命令直接转换为物理动作的机器人基础模型。
Hugging Face 的首席研究科学家 Remi Cadene 在一条引起 AI 社区广泛关注的 X 平台帖子中宣布:"Pi0 是最先进的视觉语言动作模型。它接收自然语言命令作为输入,直接输出自主行为。"
这次发布标志着机器人技术的一个重要时刻:首次通过开源平台广泛提供机器人基础模型。就像 ChatGPT 革新了文本生成一样,Pi0 旨在改变机器人学习和执行任务的方式。
Pi0 如何将 ChatGPT 式学习引入机器人技术,解锁复杂任务
这个最初由 Physical Intelligence 开发并现已移植到 Hugging Face 的 LeRobot 平台的模型,可以执行诸如叠衣服、收拾餐桌和打包杂货等复杂任务——这些任务传统上对机器人来说都极具挑战性。
Physical Intelligence 研究团队在他们的公告中写道:"当今的机器人是狭隘的专家,仅被编程用于在编排好的环境中进行重复动作。Pi0 改变了这一点,让机器人能够学习并遵循用户指令,使编程变得像告诉机器人你想要做什么一样简单。"
Pi0 背后的技术代表着重要的技术突破。该模型通过七个不同机器人平台和 68 个独特任务的数据进行训练,使其能够处理从精细操作到复杂多步骤程序的各种任务。它采用了一种称为流匹配的新技术,以 50Hz 的频率产生平滑的实时动作轨迹,使其在现实世界部署中具有高精度和适应性。
新的 FAST 技术将机器人训练速度提升 5 倍,扩展 AI 潜力
在此基础上,团队还推出了 "Pi0-FAST",这是模型的增强版本,incorporates 了一种称为频率空间动作序列标记化 (FAST) 的新标记方案。这个版本的训练速度比前代提高了五倍,并在不同环境和机器人类型中表现出更好的泛化能力。
这对工业界的影响是巨大的。制造设施可能通过简单的口头指令而不是复杂的编码来重新编程机器人执行新任务。仓库可以部署更灵活的自动化系统来适应不断变化的需求。甚至小企业也可能发现机器人技术更容易获得,因为编程和部署的门槛显著降低。
然而,挑战依然存在。虽然 Pi0 代表着重大进步,但它仍有局限性。该模型在处理非常复杂的任务时偶尔会遇到困难,并且需要大量计算资源。在工业环境中的可靠性和安全性也存在问题。
这次发布恰逢 AI 行业发展的关键时期。当各公司争相开发和部署人工通用智能 (AGI) 时,Pi0 代表了首次成功跨越语言模型和物理世界交互之间鸿沟的尝试之一。
该技术现已通过 Hugging Face 平台提供,开发者只需几行代码就能下载和使用预训练策略:
```python policy = Pi0Policy.from_pretrained("lerobot/pi0") ```
对企业用户来说,这种可访问性可能加速各行业采用先进机器人技术。企业现在可以针对特定用例微调模型,可能减少部署机器人解决方案所需的时间和成本。
企业领导者为何应关注开源机器人技术
开发团队还发布了全面的文档和培训材料,使这项技术能够被更广泛的用户群体使用。机器人技术的这种民主化可能导致各个领域的创新应用,从医疗保健到零售业。
随着技术的成熟,它可能重塑我们对自动化和人机交互的认知。通过自然语言控制机器人的能力可能使机器人辅助在家庭、医院和小企业中更容易实现——这些领域由于编程复杂性,传统机器人技术一直难以获得发展。
随着这次发布,机器人技术的未来看起来越来越对话化、适应性强和易于使用。虽然还有工作要做,但 Pi0 代表着向使多功能、智能机器人成为实用现实而不是科幻幻想迈出的重要一步。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
微软亚洲研究院开发出革命性的认知启发学习框架,让AI能够像人类一样思考和学习。该技术通过模仿人类的注意力分配、记忆整合和类比推理等认知机制,使AI在面对新情况时能快速适应,无需大量数据重新训练。实验显示这种AI在图像识别、语言理解和决策制定方面表现卓越,为教育、医疗、商业等领域的智能化应用开辟了新前景。