3月17日,傅利叶正式开源全尺寸人形机器人数据集Fourier ActionNet,并发布全球首个全流程工具链。首批上线超3万条高质量真机训练数据,包含多种自由度灵巧手的训练数据及专门针对手部任务的模仿学习数据,面向全球开发者及科研机构开源共享,提供从数据采集、训练、部署的一站式解决方案。
数据高质量,提升训练有效性
高质量机器人动作数据是具身智能发展的核心驱动力。然而真实场景下的机器人动作数据长期面临采集成本高、标注精度不足等问题,制约着行业进步。Fourier ActionNet数据集囊括傅利叶GRx系列所有机型的各类任务训练,完整记录机器人在真实环境中的任务执行数据,涵盖了对常用工具、家居用品、食物等多种物体的精确取放、倾倒等操作,以及在不同环境条件下实现泛化执行。
全球首个全流程工具链,降低研发门槛
除了数据集的开源以外,傅利叶同步开放了全球首个包含采集算法、训练算法以及数据部署算法的全流程工具链,最大程度上与全球开发者共享研究成果。开源的训练框架(如DP、ACT、iDP3)和部署工具,进一步降低了人形机器人技术研发门槛。
共建开源生态,推动技术共享
目前,傅利叶已与国内外20多家顶尖科研院校及行业领军企业开展合作,基于GRx人形机器人平台在强化学习、模仿学习、VLM大模型、感知系统等研究领域产出多项突破性成果。此次数据集开源标志着傅利叶从技术攻坚向生态共建的战略升级,未来还将持续开放更多覆盖全身运控、多任务协同的进阶数据模块。
傅利叶始终致力于推动人形机器人开源生态建设,助力全球机器人技术共享与创新。我们诚邀所有对人形机器人研究感兴趣的开发者和科研伙伴加入这一开源浪潮,共同参与数据贡献与算法优化,迎接机器人技术赋能未来的无限可能。
好文章,需要你的鼓励
这篇研究论文介绍了"Speechless",一种创新方法,可以在不使用实际语音数据的情况下训练语音指令模型,特别适用于越南语等低资源语言。研究团队通过将文本指令转换为语义表示,绕过了对高质量文本转语音(TTS)系统的依赖。该方法分三个阶段:首先训练量化器将语音转为语义标记;然后训练Speechless模型将文本转为这些标记;最后用生成的合成数据微调大型语言模型。实验表明,该方法在越南语ASR任务中表现出色,为低资源语言的语音助手开发提供了经济高效的解决方案。
《Transformer Copilot》论文提出了一种革命性的大语言模型微调框架,通过系统记录和利用模型训练过程中的"错误日志"来提升推理性能。研究团队受人类学习者记录和反思错误的启发,设计了一个"副驾驶"模型来辅助原始"驾驶员"模型,通过学习错误模式并在推理时校正输出。这一方法在12个基准测试上使模型性能提升高达34.5%,同时保持计算开销最小,展现了强大的可扩展性和可迁移性,为大语言模型的优化提供了全新思路。
德克萨斯大学Austin分校的研究团队提出了RIPT-VLA,一种创新的视觉-语言-动作模型后训练范式。该方法通过让AI模型与环境互动并仅接收简单的成功/失败反馈来学习,无需复杂的奖励函数或价值模型。实验证明,RIPT-VLA能显著提升现有模型性能,在轻量级QueST模型上平均提升21.2%,将大型OpenVLA-OFT模型推至97.5%的前所未有成功率。最令人惊叹的是,仅用一个示范样本,它就能将几乎不可用的模型在15次迭代内从4%提升至97%的成功率,展现出卓越的数据效率和适应能力。
北京大学与华为诺亚方舟实验室研究团队共同开发了TIME基准,这是首个专为评估大语言模型在真实世界场景中的时间推理能力而设计的多层级基准。该研究提出了三个层级的时间推理框架,包含11个细粒度任务,并构建了涵盖38,522个问答对的数据集,针对知识密集型信息、快速变化的事件动态和社交互动中的复杂时间依赖性三大现实挑战。实验结果表明,即使是先进模型在构建时间线和理解复杂时间关系方面仍面临显著挑战,而测试时扩展技术可明显提升时间逻辑推理能力。