XDOF:机器人训练数据领域的新兴基础设施公司融资7000万美元

机器人训练数据的稀缺正成为物理AI发展的核心瓶颈。初创公司XDOF今日正式公开亮相,已获得Thrive Capital、a16z等机构7000万美元融资。该公司由UC Berkeley博士生Philippe Wu联合创办,致力于为机器人模型构建数据采集、清洗与标注体系。目前已服务20家客户,包括多家顶级AI实验室。公司还联合UC Berkeley发布了迄今最大规模机器人训练数据集ABC,含13万条操作轨迹数据。

两周前,OpenAI宣布将重启其于2021年关闭的机器人项目,这是各大AI实验室竞相让机器在物理世界中运作的最新信号。但构建能力强大的机器人,需要一种AI行业目前尚不具备的东西——与大语言模型所用训练数据相当的机器人专属数据。

这一空缺正在催生一种新型基础设施业务。大语言模型依托海量公开文本数据进行训练,而机器人则需要能够捕捉物理交互的数据,此类数据目前几乎不存在。YouTube视频和众包工作者拍摄的素材质量较低,也难以与物理世界准确对应。

XDOF(发音为"ecks-doff")今日正式公开亮相。该公司认为,AI领域下一个重大瓶颈不在于模型或芯片,而在于教会机器人与物理世界交互所需的数据反馈循环。

这家初创公司致力于构建数据管道、数据采集工具和标注系统,服务于那些难以独立完成上述工作的前沿AI实验室和机器人公司。公司已从Thrive Capital、Spark Capital、a16z、Lux和WndrCo处融资7000万美元。联合创始人兼CEO吴非常(Philippe Wu)表示,XDOF目前拥有约60名员工,已与包括多家前沿AI实验室在内的20家客户展开合作,但不便透露客户名称。

"所有顶级实验室都在追求机器人技术,"吴非常说,"我们已经看到在大语言模型竞赛中落后所带来的代价……你不会想在实体AI这个下一个前沿领域因为入局太晚而陷入同样的困境,所有人都在这条船上。"

吴非常在加州大学伯克利分校攻读博士期间亲历了这一问题。他的研究方向是让机器人从大规模数据集中学习技能,但问题随之而来。

"我们没有大规模数据可以使用,"他告诉TechCrunch,"这是一个先有鸡还是先有蛋的问题——在问如何训练机器人基础模型之前,我们首先需要实际采集数据。"

吴非常和未来XDOF的联合创始人兼CTO沈富(Fred Shentu)曾共同参与一个名为GELLO的项目,这是一种低成本远程操控系统,允许人工操作员控制机械臂来生成训练数据。"这篇论文在机器人领域产生了深远影响,因为很多人面临同样的需求和瓶颈,不少人开始借助这类设备进行数据采集,"吴非常说。

发现这一机遇后,吴非常、沈富与第三位联合创始人兼首席运营官金楠(Nemo Jin)于2024年10月共同创立了XDOF,专为追求机器人模型的公司提供数据生态系统服务。公司深知单纯提供数据可能是一条死路,因此也重点布局数据清洗、工具开发和标注业务,为机器人训练构建自我强化的反馈循环。

作为起点,XDOF正与加州大学伯克利分校AI研究实验室合作,发布其认为迄今为止规模最大的高质量机器人训练数据集,名为ABC。该数据集包含13万条机器人操作轨迹数据、300小时仿真数据以及100小时评估数据。如此规模的预训练数据此前从未向学术界开放过。

"在语言、图像生成及其他领域,我们都看到,一旦模型和数据公开发布,研究社区往往能取得出乎意料的成果,"参与组织此次发布的伯克利博士生大卫·麦卡利斯特(David McAllister)告诉TechCrunch。

团队已利用这些数据训练机器人完成折叠T恤、压平纸箱、将AirPods放入充电盒等基准任务。

无限自由度

公司计划围绕数据金字塔的三个层级开展业务。最有价值的层级是在实际部署机器人上采集的远程操控数据;其次是由远程操控机器人采集更通用数据,如GELLO方案;最后是由人类在日常任务中采集的"第一视角"数据,XDOF计划为此自主研发可穿戴传感器。

"摄像头的选型会影响数据质量,进而影响手部追踪算法的表现,"吴非常说,"如果一开始硬件设计不到位,采集到的数据可能存在难以预料的特定问题。"

公司计划在全球招募并培训大批远程操控员和第一视角数据采集员——这种劳动密集型模式不禁令人产生疑问:为什么大型实验室不自己做这件事?

"你需要数十万平方英尺的仓库、数百台机器人,"吴非常说,"还需要维护这些机器人、校准物理参数、系统培训操作员。"

这种规模化建设需要高度专注、大量资本和运营规模,大多数AI实验室宁愿将其外包——而这恰恰是XDOF押注的市场。

XDOF这一名称源于机器人领域术语"自由度"(degrees of freedom),用于描述机器人可执行的独立运动数量。人类手臂从肩部到腕部共有七个自由度,人形机器人公司Figure.AI最新款机器人则拥有30个。公司名称中的"X"代表其雄心壮志:"任意自由度,无限自由度,"吴非常说。

Q&A

Q1:XDOF是一家什么类型的公司,主要做什么业务?

A:XDOF是一家专注于机器人训练数据基础设施的初创公司,于2024年10月成立。公司主要为AI实验室和机器人公司提供数据管道、数据采集工具和标注系统,解决机器人训练中高质量物理交互数据严重匮乏的问题。目前公司已获得7000万美元融资,拥有约60名员工,并已与20家客户展开合作。

Q2:ABC数据集包含哪些内容,有什么意义?

A:ABC是XDOF与加州大学伯克利分校AI研究实验室联合发布的机器人训练数据集,被认为是迄今为止规模最大的高质量机器人训练数据集。它包含13万条机器人操作轨迹数据、300小时仿真数据以及100小时评估数据。此前,如此规模的预训练数据从未向学术界开放,有望推动机器人领域取得突破性进展。

Q3:XDOF采用什么方式采集机器人训练数据?

A:XDOF围绕三层数据金字塔开展采集工作:最高层是在实际部署的机器人上采集远程操控数据;中间层是使用GELLO等远程操控设备采集更通用的数据;底层则是由人类佩戴自研传感器在日常任务中采集第一视角数据。公司还将在全球招募并培训大批操控员,通过规模化运营提供数据服务。

来源:Techcrunch

0赞

好文章,需要你的鼓励

2026

06/18

10:37

分享

点赞

邮件订阅