为了构建未来的自动化机器,有时你的模型需要一个模型。
开发自驾车、环境操控机器人或自主施工设备的公司,会收集数千甚至数百万小时的视频数据用于评估和训练。
当前,这些视频的整理和分类工作需要人工完成,工作人员必须观看全部视频内容。即使快进观看,这种方式也无法有效扩展。NomadicML是一家由首席执行官穆斯塔法·巴尔和首席技术官瓦伦·克里希南创立的初创公司,致力于为那些95%的车队数据仍存储在档案中的客户解决问题。
在寻找边缘案例时,挑战变得更加困难——最有价值的数据描述的是罕见发生的事件,这些事件可能会让缺乏经验的物理AI模型感到困惑。
Nomadic正在通过一个平台来解决这个问题,该平台通过一系列视觉语言模型将视频素材转换为结构化的、可搜索的数据集。这进而实现了更好的车队监控,以及为强化学习创建独特数据集和更快迭代的能力。
该公司周二宣布完成了840万美元的种子轮融资,投后估值达5000万美元。本轮融资由TQ Ventures领投,Pear VC和杰夫·迪恩参与投资,资金将用于吸引更多客户和继续完善平台。Nomadic还在上个月的英伟达GTC竞赛中获得了一等奖。
两位创始人在哈佛大学计算机科学本科期间相识,巴尔告诉TechCrunch:"在Lyft和Snowflake等公司工作时,我们一再遇到相同的技术挑战。"
"我们为客户提供对自己视频素材的洞察,无论是驱动他们自动驾驶汽车还是机器人的内容,"他说。"这才是推动自主系统构建者前进的动力,而不是随机数据。"
例如,想象一下试图微调自动驾驶汽车的理解能力,让它知道在警察指挥时可以闯红灯,或者识别车辆在特定类型桥梁下行驶的每一次情况。Nomadic的平台能够识别这些事件,既用于合规目的,也可直接输入到训练管道中。
Zoox、三菱电机、Natix Network和Zendar等客户已经在使用该平台开发智能机器。Zendar工程副总裁安东尼奥·普利埃利表示,Nomadic的工具让公司能够比外包替代方案更快地扩大工作规模,其领域专业知识使其在竞争对手中脱颖而出。
这种基于模型的自动标注工具正在成为物理AI的关键工作流程。Scale、Kognic和Encord等老牌数据标注公司正在开发AI工具来完成这项工作,而英伟达已经发布了一系列开源模型Alpamayo,可以适应解决这个问题。
瓦伦认为他们公司的工具不仅仅是一个标注器,它是一个"智能体推理系统:你描述需要什么,它就会找出如何找到它",使用多个模型来理解正在发生的行为并将其置于上下文中。Nomadic的支持者期望这家初创公司专注于这种特定基础设施的策略能够获胜。
"这就像Salesforce不会自建云服务,Netflix不会自建内容分发设施一样,"领导本轮投资的TQ Ventures合伙人舒斯特·坦格告诉TechCrunch。"自动驾驶汽车公司一旦尝试在内部构建Nomadic的功能,就会分散注意力,无法专注于让他们获胜的核心——机器人本身。"
坦格赞扬了Nomadic的人才,指出克里希南是一位国际象棋大师,世界排名第1549位。与此同时,克里希南自豪地说,公司十几名工程师都发表过科学论文。
现在,他们正在努力开发特定工具,比如一个能从摄像头画面理解变道物理学的工具,或者另一个能在视频中为机器人抓手提供更精确位置的工具。从Nomadic及其客户的角度来看,下一个挑战是为激光雷达传感器读数等非视觉数据开发类似工具,或者整合多种模式的传感器数据。
"处理TB级别的视频,将其与数百个千亿参数模型进行匹配,然后提取准确见解,这真的是极其困难的,"巴尔说。
Q&A
Q1:NomadicML是做什么的?
A:NomadicML是一家专门处理自动驾驶汽车和机器人视频数据的初创公司。它通过视觉语言模型平台,将海量视频素材转换为结构化、可搜索的数据集,帮助客户更好地管理和利用车队数据进行AI模型训练。
Q2:为什么自动驾驶公司需要专门的数据管理平台?
A:自动驾驶公司会收集数千万小时的视频数据,目前需要人工观看整理,效率极低。特别是寻找罕见的边缘案例时更加困难,而这些恰恰是最有价值的训练数据。Nomadic的平台可以自动识别和分类这些关键场景。
Q3:Nomadic与其他数据标注公司有什么不同?
A:Nomadic不仅仅是数据标注工具,而是一个"智能体推理系统"。它能理解你的描述需求,自动找出相关内容,使用多个模型理解行为并置于上下文中,专门针对物理AI的特定需求进行优化。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。