在杭州云栖小镇的会场,今年云栖大会,无论是会场外的天气热度,和会场内的人群热度,都达到了一个相当高的程度。
每一个我遇见的新老朋友都会说,今年大家对AI的关注度明显提高了,讨论的问题也都非常的实际。
而我这次对大会的关注点,是汽车。因为这个产业,是观察AI未来发展脉络一个非常好的切入点。
在云栖大会的汽车峰会开场词里,有这样一段话:
1886年,卡尔本茨发明了第一辆汽车。人类突破了肌肉的限制。139年后的今天,我们正在突破认知(智能)的边界。汽车成为了移动的计算平台,驾驶成为了人机协作的艺术,速度由数据的流转效率重新定义物理,实现拥抱数字智能,数字智能融入实体产业,汽车恰好站在这个交汇点上,成为虚实融合的最佳载体。
我的理解是:如果说大模型的上半场是以互联网大数据预训练为代表的数字AI;而下半场,是以机器人、世界模型等为代表的物理AI。
汽车可能正好处于两者之间的分水岭上,承上启下。重要性如何形容都不为过。
不过,分量既然重,难度系数也高。
一方面,是面向汽车智能化,所需要的资金资源,都在指数级增长;另一方面,消费者虽然喜欢中国车企所创造的智能体验,但要真金白银买单,或许还不到火候。
汽车的“卷”字,大概也就从中而来。这是一个投入和收益的剪刀差时刻。
此情此景之下,汽车产业成员在思考什么?阿里云,作为一个云和AI的基础设施提供者,有什么解决之道?就特别值得探究。
一、当汽车学会"看"与"想"
智能驾驶,无疑是汽车智能化下半场最激昂的旋律。
因为无论将其推向L4、L5有多难,其不是选修课,而是决定一家车企生死的必修课,是不争的事实,这也是所有我这次云栖大会期间所访谈的汽车人士的共识。
而谈到智能驾驶,又必然谈到VLA。
云栖大会汽车峰会的圆桌讨论环节,元戎启行创始人兼CEO周光说了一句让人深思的话:"自动驾驶分级的定义太早了,是30年前的定义。当时定义L4就是基于高精度地图、基于SLAM的定义,有个地图能在里面跑就叫L4。"
这个观察切中要害。30年前,当美国汽车工程师学会(SAE)制定智能驾驶分级标准时,人工智能还处于"专家系统"时代。那时的工程师们想象的智能驾驶,是一台遵循预设规则的精密机器——如果看到红灯就停车,如果前方有障碍物就绕行,如果车道线向左弯就转动方向盘。
VLA的出现,改变了游戏规则。
VLA(Vision-Language-Action)是一种新一代AI架构,它不仅能“看懂”图像、“读懂”语言,还能基于理解直接驱动决策与动作,被视为大模型从“会说”走向“会做”的关键拐点。
理想汽车自动驾驶研发高级副总裁郎咸朋在圆桌上分享了一个生动的案例:"有用户发了个'十连绕'场景的视频——经过施工路段,隔一段就有井盖或路障,车辆绕来绕去都成功通过。用户第一天绕了不信,但第二天又试,还是能绕过去。"
他特别强调:"我们并没有定义'连续绕十次井盖'这个场景。这就是能力涌现,我们做的是能力而不是功能。"
所谓能力与功能的区别,我想就像音乐家与音乐盒的区别。音乐盒只能播放固定的曲目,每个音符都是预设的;而音乐家理解音乐的本质,可以即兴创作,可以根据现场氛围调整演奏。当自动驾驶从"功能定义"进化到"能力涌现",汽车就从机器进化成了某种新的存在。
广汽集团自动驾驶首席科学家周寅在圆桌讨论中,也从技术层面解释了VLA为什么如此特别:"VLA利用了VLM(Vision-Language Model)的预训练,利用互联网海量知识让模型具有常识(common sense)。然后通过自动驾驶数据唤醒激活,能够处理长尾案例,实现零样本迁移(zero-shot transfer)。"
他列举了几个具体的能力涌现案例:"道路施工自动避让、复杂交通标识识别、潮汐车道处理,以及对纸箱、小动物等未训练过的物体识别。"
郎咸朋进一步解释了VLA中"L"(Language)的深层含义:"它并不是大家想象的对话或文字。它背后是人类长时序的思考、逻辑推理能力的体现。有人问我,不会说话的人就没有思维能力吗?不是的,他们也会看书、看文字,这些都是人类知识高度浓缩和压缩的过程,表达了长时间思维能力。"
这个解释让我想起了维特根斯坦的名言:"语言的界限就是世界的界限。"当我们给机器赋予语言能力,我们实际上是在扩展它理解世界的边界。
但这种认知能力的获得是有代价的,是巨大的代价。
元戎启行CEO周光直言不讳地谈到了智驾成本结构的变化:"以前可能97%是人力成本,算力只占3%;但到了大模型时代,两个数字最终可能变成一半一半。"
比例的变化,首先是财务报表上的庞大数字。其次,它意味着整个产业的底层逻辑在改变。过去,汽车公司的核心资产是工程师、设计师、产品经理;未来,可能是GPU集群、训练数据、模型参数。
郎咸朋在圆桌上提供了更具体的数据:"在云上要做两件事:一是生成仿真环境(世界模型),需要大量云端推理算力;二是训练本身需要算力。世界模型和VLA模型是一主一辅——VLA是要训练的主模型,世界模型辅助训练VLA。现在理想用世界模型生成的数据已经占到VLA训练的10%以上。"
10%听起来不多,但考虑到汽车每天处理的数据量,这个数字背后是惊人的AI消耗。而且这个比例还在快速增长。
在汽车峰会的主题演讲中,阿里云智能集团公共事务副总裁,研究中心主任安筱鹏指出:"能够参与智能驾驶竞争赛道的基本条件,就是AI规模的投入。美国已经到了5万卡、10万卡级别。"我从另外一个车企得到了一个数字,10亿AI算力投入差不多是入场券。
虽然对阿里云来说,AI算力需求增加是好事,但阿里云的方法论是,AI算力的增加,一定要用在模型训练的每一分钟,每一秒,而不是空耗。
因为在大规模智算集群里,利用率几乎等于投资回报率。过去车企在AI算力运维上的短板,使得集群常因调度不均、任务不匹配或故障延迟而出现大量闲置资源。
在这方面,阿里云做了大量工作。我们以小鹏汽车为例。根据之前的一个消息,这个异常抢眼的新势力车企依托阿里云灵骏智算,打造了国内汽车行业首个万卡规模AI算力集群,AI算力储备达到10EFLOPS,集群利用率最高可达98%。同时,该集群还具备秒级故障发现与处置能力,建立了高可用的容灾体系。在此基础上,小鹏汽车“云端模型工厂”的迭代周期平均缩短至5天,大模型迭代效率显著提升。
把利用率拉升到98%,意味着同样的硬件能产出几乎和无优化情况翻倍的模型训练结果。
阿里云智能集团计算平台事业部负责人汪军华在汽车峰会主题演讲中,介绍了更多创新:
统一元数据管理(DLF)。"数据量级达到数百PB之后,任何备份、流动、处理都带来大量成本上升。通过DLF统一元数据和数据存储,原始数据、训练样本数据、样本挖掘后的特征数据,只需要保存一份,大大降低存储成本。"
MaxFrame分布式计算框架。"MaxFrame可以直接调用第三方模型,对多模态数据进行万级别的高并发处理,相比开源框架性能提升40%以上。客户案例显示,从每天7000个数据包处理提升到20万个,资源消耗下降40%,综合处理效能提升50多倍。"
PAI Turbo X加速包的极致优化。这个专门为智能辅助驾驶定制的加速包,带来了惊人的性能提升:"在BEVFusion训练中,训练时间缩短58%;在MapTR训练中,缩短53%;在UniAD训练中,缩短50%。"
这些技术细节可能显得枯燥,但就像上世纪初的铁路建设。当所有人都在争论该运什么货、去哪里时,总要有人先把铁轨铺好。
在峰会开场致辞中,阿里云智能集团公共云事业部AI汽车行业总经理李强透露了一个关键数据:"从2024年云栖大会到2025年这一年时间里,超过60%中国智能辅助驾驶的AI算力来自阿里云。"
60%,这意味着中国智能辅助驾驶的"登月计划",有一半以上的台阶是阿里云搭建的。
当然,我们需要再次强调,虽然VLA增加了大家的投入,但它看起来是必经之路。郎咸朋说:"如果把VLA加强化学习闭环跑通,会非常快,就像'天上一天,地下一年'。所有闭环强化都在虚拟世界、仿真环境里做。"
二、从"座舱"到"陪伴"
如果说智能驾驶是关于"如何抵达目的地"的技术革命,那么智能座舱就是关于"如何度过旅程"的思考。
长城汽车技术中心副总经理姜海鹏提出了一个特别有意思的"座舱四段论":"相识、相知、相爱、相伴。"
他详细解释了每个阶段的含义:"相识——让AI认识你。现在我可以唤醒小魏同学,但小魏同学不知道我是谁、副驾是谁、后排是谁。相知——学习你的操作习惯、用车习惯。相爱——产生感情,有温度。相伴——长期陪伴。"
当然,话锋一转:"或者相杀。"
"因为人是善变的,"姜海鹏解释,"当你的变化速度大于智能体学习速度,可能就是相杀的结果。"
这个"相杀"的隐喻触及了人机关系的本质。它不是主人与工具的关系,而更像是两个生命体的相处。需要相互理解,共同成长。
如果一方的进化速度远超另一方,分离几乎是必然的。那么,如何让人机互动只相识相知相爱,不相杀?
在和理想汽车空间AI团队负责人江会星博士的交流中,我也记录了一些他的心得。
首先:没有捷径。
江博透露了一个让人意外的时间线:"我们在2023年的3月份,就快速的去立项的做自己的大模型。从预训练、后训练、强化学习这些全部做了。到了2023年的12月份完全上线用户。这段时间我们就把所有的该趟的所有的坑都趟了一遍。"
9个月,从零开始到全面上线。这种速度背后,是理想对AI的战略决心。
在专访中,江博还分享了理想内部的AI文化:"我们内部每周都会有AI周会。大家会对于最前沿的AI的一些包括洞察,包括具体的实践,都会拿在那会上去分享。"
其次,是细节的艺术:一个功能背后的100次打磨。
江博说,大家都说理想的座舱体验好:“这个体验的背后,坦率讲是慢工出细活。每一个体验一点点抠,一点点做出来。”
他举了一个具体的例子:
理想汽车在处理乘客说有点冷时,并不是简单下调温度,而是依赖大模型与多模态感知来理解场景。
语音识别系统会结合车内传感器(温度、座椅占用、红外检测等),判断乘客身份、所在位置和当前环境,再通过自研大模型解析出更细的意图,比如需要调节空调风量、局部温度,还是开启座椅加热。这种方式避免了机械式的“一刀切”,而是做出针对性的组合响应。
江博补充道:"我们每周都有数据闭环的会,每周都会从里面去看用户反馈的问题,我们及时去在下一版本就给它迭代上去了。"
这种产品打磨方式,"不是一个技术细节,有点像互联网产品",需要"大量的工程性的东西"。
这也让我想到,无论是理想汽车,还是阿里云,它们都有一个共同的特点,就是都有互联网、移动互联网的经验。
由于我是一个微博AI博主,经常看到信息流上有一个说法:互联网产品经理们喜欢开理想,大家就是感受到了产品的细腻吧。
当然,智能座舱的完美体验,也需要云与车,或者说云与端的配合。
阿里云智能集团公共云事业部AI汽车行业解决方案总经理霍健详细解释了智能座舱的技术架构:"我们认为智能座舱的技术趋势之一是大模型的端云协同架构。端侧大模型与云端大模型的分工是核心关键。"
还以乘客有点冷来说明这种分工:"处理这个操作,车端MindGPT首先要完成环境感知和理解:谁在说话,车内温度,空气质量,以及当前的车速等情况。然后结合前面的说话内容,以及全信息记忆里对用户的记忆,推理出用户的真实意图。"
"云端会首先进行记忆召回,找到'他'过去对温度的偏好,提供给车端结合车外温度,车内温度,温度偏好做执行。"
这种端云协同的设计,既保证了响应速度(端侧处理),又确保了智能的深度(云端推理)。就像一个优秀的管家,既能快速响应你的需求,又能记住你所有的偏好。
为了支撑这种体验,阿里云推出了专门为汽车场景定制的通义Omni模型。李强在峰会开场致辞中详细介绍:"这是一个'三进两出'的架构设计——三种输入:语音、视觉、文本;两种输出:语音、文本。延时低至0.5秒,到11月份将支持超过20种语言的语音交互。"
不过,还有一个很小的插曲,由于充满信息量,我也记录如下。
在汽车峰会圆桌讨论中,姜海鹏坦率地指出了舱驾融合面临的一个现实挑战:"智能驾驶在企业里的重要度高于座舱。”
他进一步解释:"技术没问题时,组织就成了最大问题。未来一定会把AI算力做到一起,因为座舱和智能驾驶对大模型的需求越来越趋同。座舱的演变跟两三年前的智能驾驶完全一样,从规则驱动到数据驱动,从CNN到端到端再到VLA。"
蔚来汽车副总裁吴杰在圆桌上补充了一个有趣的视角:"以前开车的司机(智能驾驶)和助手(智舱)之间没什么关系,泾渭分明,最多时不时争宠,抢算力。现在有了VLA,底层技术在趋同,从原先的算力分享,变成可能的模型共享。"
三、出海的"异乡人",全球舞台上的中国声音
我们前两章是关于技术和产品的进化,但这个部分就要谈谈市场了,海外市场。
如果说VLA、云端协同是大家对智能驾驶、智能座舱的共识,那么出海,就是大家对中国车企市场拓展方向的共识。
李强在汽车峰会的开场致辞中透露了一个惊人的数据:“95%的中国车企在出海时选择了阿里云。”
在云栖大会期间,我与阿里云智能集团公共云事业部AI汽车行业解决方案架构师黄华杰做了交流,专门谈出海这个议题。
黄华杰是汽车行业老兵,曾在东风汽车工作六七年,2021年加入阿里云后一直专注汽车行业,主要负责出海和智能化板块。
黄华杰分享了一个特别有意思的"反常识"。
"客户一般会认为在海外用阿里云不那么容易合规,用海外云会更加合规。"他说,"但事实不是这样。"
他提供了具体的数据支撑:"我们有130项国际安全合规资质。2018年就通过了GDPR合规认证。"
这种"反常识"背后,是对合规的深度理解和长期投入。"更重要的是服务经验的积累。"像阿里巴巴电商、菜鸟物流、蚂蚁支付,和众多消费电子企业,这些内外部客户比汽车更早出海。我们在这些案例中沉淀的经验,可以反复跟车企的业务部门、IT部门、法务部门、采购部门去讲。"
黄华杰解释了这种选择的深层逻辑:"中企出海,特别是汽车这种复杂的业务系统,需要的不只是云服务,更需要深度的业务理解和贴身的技术支持。"
他分享了服务某车企客户的一个细节:"我们当时大概花了三个月的时间做业务调研,把16个子系统加4个大数据平台,每一个子系统的技术架构都画得很清楚,整个子系统之间的关联都梳理得很清楚。"
这种深度服务,他说是一些友商很难提供的。不是技术不行,而是文化理解和服务意愿的差异。
我问他,贴身服务是不是成本很高,商业模式如何成立?黄华杰却讲:"我们产品在帮客户做定制优化,但会提炼出通用的东西,反哺产品演进。","阿里云的多模态数据库Lindorm,云原生中间件、日志服务SLS等产品,很多都是在跟客户场景共创中不断迭代演进的。"
四、One more thing:AI Rocks
本来讲到这里,关于云栖大会的AI汽车故事,我们已经可以收尾了,但由于今年云栖大会的热度,我们不升华一下似乎不合适。
2001年有一部老电影《北京乐与路》,主题是摇滚人生。
电影里,吴彦祖饰演的香港音乐人Michael因故滞留北京,遇到了耿乐饰演的摇滚乐队主唱平路。一个来自商业音乐体系成熟的香港,习惯了唱片公司的运作规则;一个扎根于北京地下音乐场景,在破旧的排练室里寻找真正的摇滚精神。电影的英文名"Beijing Rocks"一语双关,既是"摇滚的新姿态",也暗示着"城市的新脉动"。
电影里有一句台词特别动人:"我想到光的深处,那里有风么?"
这是对未知的追问,对梦想的向往。即使不知道标准答案,依然要去追寻。
今天的汽车产业,也在追问自己的"光的深处"。
当理想汽车说要做"家",他们追问的是:车能否成为家的延伸?
当广汽谈论VLA的能力涌现,他们追问的是:机器能否真正理解世界?
当一汽描绘3万个业务神经元,他们追问的是:企业能否成为一个有机生命体?
当比亚迪足迹遍布全球110多个国家和地区,他们追问的是:中国智造能否定义全球标准?
这些追问没有标准答案,但追问本身就是意义。就像平路他们的音乐,超越了商业的成功,奔向了创造的快乐。
云栖大会汽车峰会上,阿里云智能集团公共云事业部AI汽车行业总经理李强分享了三个深刻的观察,恰好回应了这种追问。
"第一,AI基础设施不是一夜之间产生的。"李强说,"它是从过去通用算力时代的所有积累、所有技术沉淀,到今天被AI以十倍甚至百倍的能量重新迸发。IT人在过去被企业重视,但今天被高层更加关注,因为在AI时代,所有的投资将会以十倍甚至百倍的速度增长。"
这是技术演进的必然——每一次革命都建立在前一次的基础上,但当质变发生时,能量是指数级释放的。
"第二,越来越多的主机厂选择了自研加合作共同前进的道路。"李强观察到,"他们的思考很朴素:一是做兜底工作,二是探索未来,做差异化价值。"
这种选择背后,是中国车企的成熟——既不盲目依赖,也不闭门造车,而是在开放与自主之间找到平衡。
"第三,全球车企都在和大模型公司深度共创,这是必然路径。"
这三个观察勾勒出一幅图景:汽车产业正在经历一场从基础设施到研发模式,再到生态合作的全面重构。
李强还分享了一个让人深思的细节:"我的很多小伙伴做了非常多努力,他们虽然辛苦,但和我一样很幸福。为什么幸福?因为被需要。"
"被需要"——这三个字道出了阿里云在这场变革中的价值。
他们不造车,但60%中国智能辅助驾驶的AI算力来自阿里云。
他们不开发座舱,但通义大模型让很多座舱有了"灵魂"。
很遗憾,我们的排比句要到此为止了。因为阿里真是原生外贸专家,现在也在让95%的中国车企顺利出海。
IDC数据显示,2025年H1阿里云汽车行业公共云基础设施增长实现132%的增长。但比数字更重要的,是这种增长背后的意义——它意味着中国汽车产业的智能化进程正在加速,意味着越来越多的企业选择了相信和合作。
李强特别提到:"如果我们汽车产业的车卖到全球,我们的模型会陪伴我们的车走向世界各地。"这个"陪伴",不是技术参数的堆砌,而是一种承诺。
汽车,这个第二次工业革命的标志性产物,在第四次工业革命中再次获得新生。从福特流水线上的标准化产品,变成一个会思考、会感知、会陪伴的智能体。
在这个历史进程中,每个参与者都在寻找自己的节奏。车企在寻找智能化的突破口,技术公司在寻找落地的场景,而阿里云找到的,是成为这场变革的基础设施——不张扬,但不可或缺。
正如李强所说,云和计算是两件事:云像电网,计算像电力。阿里云要做的,就是这个时代的电网——让每一份算力都能被需要它的人使用,让每一个创新都有坚实的基础。
阿里云全栈AI云,在这个过程中,支撑着中国车企智能化落地和全球化布局。
这或许就是"光的深处"的答案——不是某个具体的技术突破,也不是某个单一的商业成功,而是整个产业生态的共同进化。
APSARA Rocks。
AI Rocks too。
好文章,需要你的鼓励
美国网络安全和基础设施安全局指示联邦机构修补影响思科ASA 5500-X系列防火墙设备的两个零日漏洞CVE-2025-20362和CVE-2025-20333。这些漏洞可绕过VPN身份验证并获取root访问权限,已被黑客积极利用。攻击与国家支持的ArcaneDoor黑客活动有关,黑客通过漏洞安装bootkit恶意软件并操控只读存储器实现持久化。思科已发布补丁,CISA要求机构清点易受攻击系统并在今日前完成修补。
伯克利与阿布扎比研究团队开发出RAPTOR系统,这是首个能够零调试控制多种无人机的通用AI控制器。该系统仅用2084个参数就能控制从32克到2.4公斤的各种无人机,通过创新的元模仿学习算法实现毫秒级快速适应,在10种真实无人机上验证了卓越性能,为无人机控制技术带来革命性突破。
TimeWave是一款功能全面的计时器应用,超越了苹果自带时钟应用的功能。它支持创建流式计时器,让用户可以设置连续的任务计时,帮助专注工作。应用采用简洁的黑白设计,融入了Liquid Glass元素。内置冥想、番茄工作法、20-20-20护眼等多种计时模式,支持实时活动显示和Siri快捷指令。免费版提供基础功能,高级版需付费订阅。
伦敦玛丽女王大学研究团队开发出创新的数字音频技术,使用牛顿-拉夫逊数学方法成功复制经典Teletronix LA-2A模拟压缩器。该方法仅需五个参数和20分钟训练时间,大幅超越传统深度学习效率,并制作成开源VST插件4A-2A供音乐制作者免费使用,为虚拟模拟建模领域提供了高效可解释的新方案。