小鹏汽车自动驾驶负责人近日向媒体透露,公司每月在AI训练上的投入约为3亿元人民币(约合4100万美元),年化支出接近5亿美元。他表示,小鹏的自动驾驶能力已与特斯拉FSD v13持平,且有望在今年夏末前追上v14。
记者在2026年CVPR大会(于丹佛举办)结束次日,与小鹏通用智能中心负责人刘鲜明博士进行了深入对话。此前,刘鲜明在大会主旨演讲环节与特斯拉Ashok Elluswamy、英伟达及Waymo的负责人同台发言。
本次对话涵盖小鹏VLA 2.0架构、传感器策略、大众汽车授权合作,以及刘鲜明为何认为整个自动驾驶行业不应将大语言模型视为自动驾驶的核心解决方案。
"语言是毒药":理解这一判断的真实含义
刘鲜明因一句颇具争议的表述而广为人知:"语言对自动驾驶而言是毒药。"在采访中,他对这一说法作出了详细解释。
小鹏第一代VLA(视觉-语言-动作)模型将语言Token作为中间处理环节——系统先感知道路,将所见内容转化为类语言表示,再将其转换为驾驶指令。而VLA 2.0则彻底移除了这一中间步骤。记者曾于今年4月在北京实测该系统,认为其表现与特斯拉FSD v14不相上下。
不过,刘鲜明澄清,小鹏并未完全放弃语言能力。系统仍接受语言作为输入——驾驶员可通过文字或语音下达指令。被移除的,是在实际驾驶过程中以语言作为中间输出的环节。
"我们仍然将语言作为输入,这是提升模型泛化能力的关键。你对车说话、下达指令,车需要理解如何执行。但在行驶过程中,我们不再输出任何语言Token,因为这是一种冗余,也是模型的性能瓶颈。"刘鲜明说。
背后的逻辑十分清晰:摄像头每秒约摄入20亿个视觉Token,而控制方向盘和踏板实际只需10至20个Token。这是极大的维度压缩,中间再加一层语言转译,只会引入不必要的计算量和延迟。
"为了生成语言表达,你需要大量额外计算去'解释'它,这正是我们去掉语言中间层的原因——但语言输入依然保留。"他补充道。
世界模型:与VLA的同一枚硬币
刘鲜明在CVPR演讲中发布了一项新成果——小鹏的世界模型。他将其定位为与VLA不可分割的整体,而非独立的技术方向,称其为"同一问题的另一面"。
VLA 2.0从人类驾驶行为中学习——研究数百万驾驶员在真实场景中的反应,并学习复现这些决策。世界模型则学习环境的物理规律——预测场景中接下来会发生什么、其他交通参与者如何移动、某一动作会带来什么后果。
"很多人试图将世界模型和VLA拆分为两个独立的技术维度,但它们本质上是同一件事,"刘鲜明说,"我们的目标是构建一个足够强大的基础模型,真正理解这个世界。"
实际应用层面,小鹏正在训练VLA 2.0同时完成两件事:预测摄像头近期将捕捉到的画面,以及决定车辆的下一步动作——将驾驶决策与世界预测融合进同一个模型。该升级版本预计将于今年内推送至量产车型。
小鹏已就上述研究发布了系列论文,包括用于可控视频生成的X-World、面向联合未来预测与规划的X-Foresight,以及在几乎不损失质量的前提下将世界模型计算量降低70%的X-Cache。此外,公司有关驾驶场景生成的论文"DrivePTS"也已被CVPR 2026收录。
传感器策略:视觉主导,雷达作为安全冗余
小鹏的"纯视觉"宣传中有一个细节常被忽视:P7+、G7等近期车型仍搭载三颗毫米波雷达和十二个超声波传感器。记者就此询问刘鲜明,这些传感器如何融入端到端架构。
他的回答直接明了:它们根本不参与主驾驶AI的运算。
"我们确实使用了这些传感器,但它们服务于主动安全系统——这是一套与主驾驶系统完全正交、彼此冗余的独立体系。"雷达和超声波负责AEB(自动紧急制动)和AES(自动紧急转向),构成完全独立的安全层。
主驾驶系统仍然是纯视觉方案。刘鲜明的逻辑落脚在信息密度和延迟上:"摄像头的读出时间只有几毫秒,速度非常快,频率也可以做得很高。从信息密度来看,摄像头是最优秀的传感器之一。激光雷达和毫米波雷达的处理时间通常需要数十乃至数百毫秒。"
这使小鹏处于一个颇为独特的位置。特斯拉已将雷达和超声波传感器完全从车辆上移除,所有功能(包括主动安全)均依赖摄像头;Waymo则走向另一个极端,配备完整的激光雷达套件;小鹏的做法是:驾驶大脑仅用视觉,但保留雷达作为独立的安全冗余。
当记者追问,视觉系统是否终将强大到足以让冗余安全层变得多余时,刘鲜明的回答十分坦率:"我们希望如此,但说实话,这不可能。人会犯错,系统也会犯错。即使能达到99.9999%的准确率,仍然存在出错的概率。多一层冗余,永远有意义。"
他还补充道:"这不是在用ChatGPT聊天,答错了大不了说'这太蠢了,重来'——我们谈的是人命。"
每年近35亿元的AI训练投入
记者向刘鲜明询问小鹏在自动驾驶上的投入规模,他的回答令人震惊——尤其考虑到这家公司去年的交付量仅约20万辆。
"网上有不少玩笑,说我总是向老板要很多预算,"刘鲜明说,"他提到我每月大概花3亿元人民币来训练模型,这基本上是真的。我确实花了很多钱。"
折算下来,这相当于每月约4100万美元,全年仅AI模型训练一项就接近5亿美元。对于一家截至2025年底持有约476.6亿元人民币(约合65亿美元)现金的公司而言,这是一笔相当可观的支出。刘鲜明坦承,这对一家车企来说并不寻常:"作为一家汽车公司,你无法想象如此巨大的研发投入,因为你很难靠它直接回收成本。但我们公司下定决心,要成为一家实体AI公司。"
小鹏在CVPR上披露,过去12个月内,其训练基础设施的单任务训练效率提升了4360%,GPU利用率从40%提升至90%。VLA 2.0拥有数十亿参数,每次模型迭代消耗超过4万亿个Token。
与特斯拉FSD的正面比较
刘鲜明在评价小鹏与特斯拉FSD的差异时措辞谨慎,但表达明确。
"我认为我们在底层哲学和原则上是一致的,那就是规模扩展,"他说,"无论是特斯拉、小鹏,还是其他走同一路线的公司,做的都是同一件事——遵循规模定律,确保系统由数据驱动,并能持续摄入海量数据。"
据刘鲜明介绍,关键差异在于数据多样性。中国道路的复杂程度远超美国——这一点记者在北京进行40分钟VLA 2.0试驾时深有体会,遇到的边缘案例数量,抵得上在北美行驶数周。
"在中国,你有更大的概率遭遇边缘案例并采集到相应数据,这是我们的一个优势,"刘鲜明说。他认为,这可能使小鹏在走向国际市场时,比特斯拉将FSD引入中国更有底气——"因为你拥有更多样化的数据,意味着你有更多机会。"
"裸奔赌注":刘鲜明自信不必兑现
小鹏CEO何小鹏去年与刘鲜明立下公开赌约:若VLA 2.0未能在2026年8月30日前达到特斯拉FSD的性能水平,刘鲜明须裸奔横穿旧金山金门大桥。
刘鲜明表示,他对此胸有成竹。"我非常有信心不需要去跑,"他说,"条件是今年年初达到与特斯拉FSD的同等水平。根据试驾结果,我们已经完成了这个目标。"
他透露,小鹏仅用数月时间,就从追平FSD v12跳升至"接近v14、甚至超越v13"的水平,并将此归功于团队的快速迭代能力。8月的截止日期依然有效,但刘鲜明对此显得相当从容。
从"造车公司"到"实体AI公司"
采访中最具启示性的时刻,是刘鲜明在描述小鹏身份定位时,将公司比作"生产Pixel手机的谷歌"——硬件的存在,首要目的是展示并采集软件所需的数据。
"生产和制造汽车,当然是我们当前工作的主要原因之一,"他说,"我们需要真实世界中的物理设备来确保我们获得反馈、获取数据——就像谷歌生产Pixel设备,是为了展示'Android能做什么'。但另一方面,我们更想确立自己作为一家AI公司的身份。"
这一定位为大众汽车引入VLA 2.0授权合作提供了注脚。大众今年早些时候成为VLA 2.0首个外部客户,计划于2027年完成部署。刘鲜明淡化了将该系统移植到大众车型的技术难度,指出小鹏内部已在20余款不同车型上推送OTA更新。
"对我们来说,多兼容一两款车不是什么新鲜事。你训练好一个模型,如果已经泛化到20款车上,再多21、22、23款又有什么关系呢。"
他表示,更宏大的目标是推动整个行业共同参与:"如果只有小鹏或特斯拉在做,这件事永远不会真正实现。你需要很多合作伙伴,需要很多朋友,需要所有人接受自动化正在到来这一事实。"
结语
这次采访印证了记者4月试驾VLA 2.0后的判断——小鹏正在运行一套真正具备竞争力的自动驾驶程序,已能与特斯拉FSD形成实质性抗衡。而每月3亿元人民币的AI训练投入,放在整个AI行业的支出格局中,其实并不算多。
最令记者印象深刻的,是刘鲜明在架构决策上的清晰表达。"语言是毒药"听起来像是哗众取宠,但其背后的技术逻辑是自洽的——将连续视觉信号转化为离散语言Token再转回来,对于实时物理控制系统而言本就是低效的。这与业界大多数依赖大语言模型的路线有所不同,而VLA 2.0的实际路测表现,正在逐步为这一判断提供验证。
"Pixel手机"的类比同样意味深长。小鹏正在释放一个信号:造车是手段,而非目的。随着大众汽车完成授权引进,以及小鹏据报道正洽谈收购大众在欧洲的工厂,这家公司正同时向汽车制造商和自动驾驶技术供应商两个方向布局——以此对冲哪一个业务最终将创造更大价值的不确定性。
可以说,相较于一家传统意义上的汽车制造商,小鹏的野心,更像是一家"实体AI公司"。
Q&A
Q1:小鹏VLA 2.0去掉语言中间层的原因是什么?
A:小鹏VLA 2.0移除语言Token中间环节,是因为摄像头每秒摄入约20亿个视觉Token,而控制车辆实际只需10至20个Token。中间插入语言转译步骤会引入大量不必要的计算和延迟。刘鲜明强调,系统仍接受语言作为输入(如驾驶员指令),只是在实际驾驶过程中不再输出语言Token,以消除冗余、提升效率。
Q2:小鹏每年在AI训练上花多少钱?
A:据小鹏通用智能中心负责人刘鲜明透露,公司每月在AI模型训练上的投入约为3亿元人民币,折合美元约4100万,全年合计接近5亿美元(约合35亿元人民币)。与此同时,小鹏的训练基础设施在过去12个月内实现了单任务训练效率提升4360%,GPU利用率从40%提升至90%。
Q3:小鹏的传感器策略和特斯拉有什么不同?
A:小鹏与特斯拉同样以摄像头作为主驾驶AI的核心传感器,但两者存在明显差异:特斯拉已彻底移除雷达和超声波传感器,全部依赖摄像头;小鹏则在视觉主导的驾驶大脑之外,额外保留了三颗毫米波雷达和十二个超声波传感器,专门用于AEB(自动紧急制动)和AES(自动紧急转向)等主动安全系统,作为独立的冗余安全层。
好文章,需要你的鼓励
今天讲的出海案例是深圳的精品纸包装龙头裕同科技,把工厂开到墨西哥瓜达拉哈拉,紧贴着北美的服务器与AI硬件客户做本地化交付。
英伟达推出OmniDreams,一个基于Cosmos扩散模型微调的自动驾驶生成式世界模型,可实时生成逼真驾驶视频,支持极端天气等长尾场景的闭环仿真测试。
Google于今年4月推出了Gemini Mac专属应用,但两个月后来看,该应用存在明显不足。作者更倾向于使用Safari的"添加到Dock"功能来运行Gemini网页版,原因包括:支持Command+N快速开启多个聊天窗口、部分对话线程在Mac应用中无法正常使用,以及Mac应用存在图标显示问题。更严重的是,Gemini Mac应用会在用户不知情的情况下安装后台程序,且被删除后还会自动恢复,引发用户强烈不满。
谷歌研究院与康奈尔大学联合提出"Sleep"框架,受人类睡眠启发,通过记忆巩固与做梦两阶段让AI大模型持续学习、抵抗遗忘并自我提升。