无万卡,不VLA:元戎启行与阿里云的“想法”和“解法”
作者:周雅
如果现在你跟智驾从业者深聊,会发现一个微妙变化:几年前,大家还在为传感器的配置、特定场景的覆盖率等讨论不停;而今天,话题焦点又多了一个更具体的型结构--VLA。
1980年代,卡内基梅隆大学的机器人专家汉斯·莫拉维克(Hans Moravec)提出人工智能领域的一个悖论:让计算机在逻辑推理、下棋等高级智力活动中达到甚至超越人类水平,相对容易;但要让它具备孩童那样的感知、运动和常识认知能力,却难于登天。
这个悖论的核心在于:对机器而言,真正的困难在于“理解”物理世界并与物理世界进行直觉式的交互。四十余年后,莫拉维克的观点,也投射在了智能驾驶的漫长征途上。
如果现在你跟智驾从业者深聊,会发现一个微妙的变化:几年前,从业者们还在为传感器的配置、特定场景的覆盖率等讨论不停;而今天,话题焦点又多了一个更具体的模型结构——VLA(视觉-语言-行动模型)。为什么?
我们知道,要实现高阶智能驾驶,最大的挑战之一就在于:真实物理世界的复杂性和不确定性。比如,如何理解一个交警招手动作的复杂意图?如何判断一个滚向路边的足球背后是否会冲出一个孩子?它要求AI不仅要识别物体,更要理解场景、预测意图并进行复杂的因果推理。为何如此困难?
元戎启行创始人兼CEO周光,这位拥有物理学背景的AI博士,在前阵子和我们交流时一语道破其中的关键。他将驾驶行为划分为两个层次:一个是“Move like human”(像人一样行动),另一个是“Decision like human”(像人一样决策)。
周光认为,早期的AI决策模型,更擅长处理“条件反射式”的驾驶行为,比如跟车、车道保持、简单避障等,这些可以被归纳为“Move like human”(像人一样行动),但这只能解决95%常见的驾驶问题。
但决定智能驾驶安全性和体验感上限的,恰恰是那些需要推理和预判的长尾场景,也就是圈内常说的Corner Case。他举了一个直观例子:“前方两三百米外有施工,人类老司机会立刻观察后视镜,提前变道。但(早期的)智驾系统,可能是开到近处,识别出锥筒、水马这些障碍物时才做出反应,往往带来突兀和不舒适的驾乘体验。”
要解决这个长尾问题,系统必须具备周光所强调的“推理驾驶”(Inferential Driving)能力,这要求系统能够基于对物理世界规律的“理解”,进行复杂的因果推理和未来预测。
如果无法实现“Decision like human”,系统就可能停留在“高级的辅助驾驶”阶段,难以迈向L4乃至更高级别,无法让人类驾驶员真正放手。智能驾驶的本质,是一个需要理解并作用于真实物理世界的“物理AI”(Physical AI)命题。
要跨越这“最后一公里”,行业亟需一种能够赋予机器“认知”和“推理”能力的全新范式。这正是VLA这一模型结构,迅速成为当下行业新共识的根本原因。
VLA将视觉(Vision)、语言(Language,代表认知和推理)和动作(Action)融合在一个统一框架内。这种融合带来了能力层级的质变,超越了简单的功能叠加。
“从旧架构变成GPT架构,这是一个根本性的变化。”周光反复强调。在他看来,过去的技术迭代(包括BEV等),都只是CNN框架下的“小版本更新”,而VLA才真正开启了智能驾驶的“大版本升级”,因为它让系统开始逼近“物理AI”的理想形态。
这种对技术本质的洞察,让元戎启行在技术路线上做到知行合一,坚信VLA是实现高阶智能驾驶的最优解。“要是不上VLA,我觉得是不可能到L5的。”周光判断,“VLA让业界真正看到了实现L5级完全自动驾驶的希望,未来的发展路径将紧跟大模型技术的演进。”
这家公司早在2019年刚创立不久,就完成了名为“全融合”的技术架构(即早期的BEV鸟瞰图技术)。到了2020年,便全力投入“无图”研发,让系统直接从摄像头等传感器获取的“原始数据”中学习,实时感知和理解物理世界。
到了2022年,周光和团队的预判得到了初步验证。他告诉我们,当时团队已经能通过算法,实时生成道路的拓扑结构图,虽然还不完美,但已经能清晰识别出路口和转向关系。这表示“无图”技术路线被成功跑通,为后续研发奠定了基础。
VLA带来的,是用户体验上可感知的“老司机感”,这种实实在在的体验变革,远胜于冰冷的参数:比如在复杂的城市路口,系统能预判可能出现的“鬼探头”,提前做出柔和的决策,而非急刹车;在人车混流的狭窄街道,系统能理解交通参与者的“意图”,进行更灵活的博弈,而不是死板地等待;面对临时施工或异形障碍物,系统能基于对物理世界的基本理解进行推理,做出合理应对。
这种从“辅助人”向“理解人”乃至“超越人”的进化,也有业界的权威观点支撑。阿里巴巴集团首席执行官吴泳铭此前在公开演讲中指出,通往超级人工智能(ASI)的关键瓶颈在于“真实世界的数据”和“自主学习”。他强调:“只有让AI与真实世界持续互动,获取更全面、更真实、更实时的数据,才能更好的理解和模拟世界,发现超越人类认知的深层规律。”
一句题外话,我们在写作之余回溯了周光早年的学术研究,发现他早在德州大学达拉斯分校攻读博士期间,就提出“去中心化自稳定算法”和“群体协作智能体”模型,探讨如何通过局部通信与自组织机制,让分布式系统在无中心控制下实现稳定协同。这种“由局部交互涌现全局智能”的逻辑,与VLA的视觉、语言、行动三模态的协同推理架构,在思想上已高度契合。
然而,为汽车装上VLA这个强大的“物理AI大脑”,难度巨大。它颠覆了传统的研发模式,带来三个“指数级”增长的挑战,让智驾公司必须重塑自己。
挑战一:数据处理的“量级之变”。VLA模型吃的不是“二手”的高精地图数据,而是物理世界最原始、最鲜活的多模态数据——海量的图像、视频、传感器信号。处理这些数据,对数据处理的吞吐量和效率提出了前所未有的要求。
挑战二:模型训练的“范式之变”。训练VLA模型,就像培养一个天才。不能从零教起,而是采用“知识蒸馏”技术:先用一个拥有千亿参数的云端“教师模型”(基座大模型)进行预训练,再将它的智慧“蒸馏”到车端仅有几十亿参数的“学生模型”上。这个过程,对算力集群的规模、稳定性和调度能力要求极高。
挑战三:研发效率的“成本之变”。“早些年几百张卡就能开个小作坊。”周光感慨,“但在VLA时代,几千张卡是起步,万卡是入场券。”研发成本结构也从过去“人力占97%,算力占3%”的劳动密集型,转向“人力与算力一半一半”的资本密集型。
阿里云智能AI汽车行业线销售总监黄晨,向我们揭示了一个残酷的现实:“一台GPU智算服务器,它每一分钟的成本都可以核算出来。你如果只用了70%,那么30%空跑的时间就是损失掉的真金白银。”
面对这些挑战,自建算力中心已非最优解。建设和运维一个“超万卡集群”,其工程复杂度、能耗和成本都是天文数字。智驾公司最明智的选择,是接入一个稳定、高效、且懂AI的“算力电网”。
这正是元戎启行与阿里云的合作进入深水区的原因。他们需要的不是简单的算力租赁,而是一个能解决VLA时代全链路挑战的合作伙伴。
具体而言,阿里云提供的“超级AI云”,是一套从IaaS(基础设施)、PaaS(平台工具)到MaaS(模型服务)的全栈式解决方案,精准解决其在VLA路上可能遇到的痛点,从而带来极致的效率优化。
第一重:以极致的工程能力,构筑稳定高效的算力基石(IaaS层)。
要解决“万卡集群甚至超万卡集群”的稳定性问题和通信效率瓶颈,无疑需要久经考验的系统工程能力。元戎启行的算力需求,主要由阿里云PAI-灵骏智算服务承载,PAI-灵骏的核心价值在于,通过自研的高性能网络及智能调度算法,能将大规模集群的AI算力利用率提升超过95%。对于“每一分钟都是钱”的智驾研发而言,这意味着巨大的成本节约和时间缩短。
VLA训练中,海量小文件的并发访问,对存储系统是极大考验。对此,阿里云的分布式文件系统CPFS就派上用场,它提供超高并发的多机读取能力,为万卡集群提供了数据的“饱和投喂”,确保元戎VLA模型训练极致高效。
此外,VLA大模型的训练也是一场围绕数据的精密接力赛:对元戎启行而言,百PB级的原始感知数据在深圳汇集、清洗和标注,最终在阿里云乌兰察布智算集群完成模型迭代。面对该问题,阿里云的云企业网CEN构建了一张覆盖全国的“算力一张网”,可实现数据和算力的灵活调度。同时,阿里云的全栈安全防护体系,可确保元戎启行在云端训练过程中的数据安全。
这些坚实的基础设施,共同构成了元戎启行在VLA时代加速奔跑的底气。
第二重:以独有的工具链,加速数据处理与模型迭代(PaaS层)。
说完了数据训练,那么说到数据处理,其效率也直接决定了模型训练的速度,如何高效完成海量多模态数据的清洗、标注和预处理,是模型训练的重要一步。
在数据处理方面,阿里云自研的分布式计算框架MaxFrame,日均可完成数十万级数据包处理,生成数百万Clips和数亿训练样本,相比开源框架性能提升40%以上。同时,结合智能数据开发治理平台DataWorks,可实现百万级任务统一开发调度与元数据追溯,高效支撑VLA模型海量多模态数据训练。这些工具链的高效协同,为VLA模型训练提供了充足且高质量的“燃料”。
接下来在模型训练阶段,迭代速度决定了竞争优势。阿里云专为智驾领域定制“加速包”PAI-TurboX,在数据层、计算层、系统层深度优化。阿里云计算平台事业部负责人汪军华介绍,TurboX能在多个主流模型上将训练时间缩短50%以上——这意味着元戎的模型迭代周期直接减半,能够更快将新技术能力应用到产品中。
第三重:以开源开放的生态,提供创新的战略纵深(MaaS层)。
如上文所提,VLA模型的构建并非从零开始,它需要强大的基座模型进行知识蒸馏和调优。在这一点上,阿里云的开源开放战略,为元戎启行提供了助力。
通义千问(Qwen)系列模型,作为全球第一的开源模型矩阵(根据Huggingface开源大模型榜单Open LLM Leaderboard),它目前全球下载量超6亿次,衍生模型超17万个,为行业提供了坚实基座。周光对此高度认可:“元戎启行经常用通义大模型去做一些蒸馏,通义开源挺好的。”这种开放性,让元戎启行得以站在基座模型的肩膀上,更高效优化自己的车端模型。
同时,它支持厂商基于开源能力做深度自研,这一点至关重要。这使得元戎启行能够将宝贵的研发资源,投入到智驾垂类知识的积累和创新上,而不是重复造轮子。
从IaaS的工程能力,到PaaS的工具链,再到MaaS的开源开放生态,阿里云提供的“超级AI云”全栈能力,构筑了其在智驾训练领域的重要地位。正如阿里云智能集团公共云事业部AI汽车行业总经理李强在一次公开演讲中提到,超过60%中国智能辅助驾驶的AI算力来自阿里云。这足以证明,阿里云已成为智驾训练中那朵好用的云。
诚然,强大的技术基建,最终要转化为商业成果和产业引领。
在商业策略上,许多智驾公司广撒网、服务多个品牌车型(多SKU),而作为全栈智能驾驶解决方案提供商元戎启行,再次展现了与其技术路线一致的“专注”。
周光进一步指出,有的智驾公司SKU特别多,但月销可能只有几百台;元戎启行专注于“大单品”策略——集中资源与车企深度合作,打造爆款车型。在他看来,只有深度合作,才能打磨出极致的产品体验。“你越是做的散,做的杂,你这个产品越难。”
这种“少而精”的策略背后,是对自身技术研发效率的绝对自信。而这份自信,很大程度上来源于其选择了一个能提供长期价值、深刻理解AI、并具备开放生态的云合作伙伴。
当然,智驾的商业化过程中,成本控制也至关重要。如今智驾已成标配,而非溢价项。黄晨告诉我们:“车上有智驾,不一定让你多卖1万块,但如果没有,一定不被接受。”
换句话说,当智驾成为“标配”而非“溢价项”,Tier 1供应商的利润空间被持续挤压。这样一来,选择云服务商,早已超越了单纯的资源采购,更上升为一项关乎核心竞争力的战略决策。因为云端基础设施的技术深度与工程效率,直接决定了算法迭代的速度和质量,进而影响最终产品的市场竞争力。
对元戎启行而言,与阿里云合作的核心价值,在于通过阿里云全栈式的技术能力(包括高效的基础设施、长期积累的技术价值、以及开源开放的生态),将每一分算力的技术价值发挥到极致。这正是其构筑自身技术壁垒、实现商业正循环的底气所在。
对于所有致力于在物理AI时代取得突破的智能驾驶参与者而言,元戎启行的实践极具参考价值:要跨越智能驾驶的“最后一公里”,需要拥抱VLA;而要高效地训练VLA,需要选择一朵像阿里云这样具备全栈能力、能够提供长期价值陪伴、且开源开放的“超级AI云”。
因为在新世界里,走得快需要好的技术。而走得远,则需要好的伙伴。
0赞好文章,需要你的鼓励
推荐文章
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
微软正式确认配置管理器将转为年度发布模式,并将Intune作为主要创新重点。该变化将于2026年秋季生效,在此之前还有几个版本发布。微软表示此举是为了与Windows客户端安全和稳定性节奏保持一致,优先确保安全可靠的用户体验。配置管理器将专注于安全性、稳定性和长期支持,而所有新功能创新都将在云端的Intune中进行。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。