NVIDIA创始人兼CEO黄仁勋认为:“人工智能的发展从感知式AI,即理解图像、文字和声音,进入到生成式AI,即创造文本、图像和声音。当前正进入全新的物理AI时代,NVIDIA GPU和平台成为驱动当前时代变革的核心,为包括机器人和自动驾驶汽车在内的多个行业带来突破性发展。”其同时也表示:“自动驾驶汽车的变革已经到来,汽车将成为最大的AI机器人产业之一。NVIDIA正凭借二十年来在汽车计算、安全方面的专业知识以及CUDA AV平台来改变价值数万亿美元的汽车行业。”
图片来源:NVIDIA CES 2025 Keynote
NVIDIA表示,全球几乎所有主流车企与NVIDIA进行合作,包括Waymo、ZOOX、特斯拉、丰田,全球最大的电动车企业比亚迪,还有即将推出创新车型的Mercedes、LUCID、RIVIAN、小米和沃尔沃等车企。
图片来源:NVIDIA CES 2025 Keynote
图片来源:NVIDIA CES 2025 Keynote
作为今年CES重磅发布的搭载全新NVIDIA AGX Thor的NVIDIA DRIVE Hyperion自动驾驶平台,有必要对于其特点及功能特性进行介绍。
图片来源:NVIDIA
NVIDIA DRIVE Thor是DRIVE Hyperion自动驾驶平台搭载的核心系统级芯片,其作为NVIDIA DRIVE Orin的后续产品,性能高达1000TFLOPS,具备加速推理任务的能力,可以帮助自动驾驶汽车识别行人、适应恶劣天气等情况。此外,DRIVE Thor还可以提供丰富的座舱功能,安全可靠的高度自动化驾驶和无人驾驶功能,并将所有功能整合至同一个集中式平台上。
基于NVIDIA Blackwell架构的DRIVE Thor芯片针对要求最苛刻的处理工作负载进行优化,涉及生成式AI、视觉语言模型和大语言模型的工作负载等。简化后的架构利用NVIDIA加速计算功能,并行运行端到端自动驾驶汽车堆栈和经过验证的安全堆栈,从而增强芯片的通用性、减少延迟并提高汽车运行的安全性。
从乘用车落地情况来看,全球最大电动车企比亚迪推出的下一代电动车型将搭载NVIDIA DRIVE Thor。新能源汽车品牌广汽埃安旗下高端豪华品牌昊铂下一代电动汽车将采用DRIVE Thor平台,新车型将于2025年实现量产,可实现L4级自动驾驶。小鹏将利用NVIDIA DRIVE Thor平台作为其下一代电动汽车的“AI大脑”,新一代车载计算平台将赋能XNGP智能辅助驾驶系统,实现自动驾驶和泊车、驾乘人员监控等功能。
除乘用车外,DRIVE Thor还能够满足卡车、自动驾驶出租车、配送车等其他细分领域的不同需求。在CES 2025期间,Aurora、大陆集团(Continental)和NVIDIA宣布长期战略合作计划,旨在大规模部署无人驾驶卡车。NVIDIA DRIVE Thor和DriveOS将被集成到Aurora Driver中,实现L4级自动驾驶,大陆集团计划在2027年将相关产品实现全面落地。
所谓“端到端自动驾驶”,能够从传感器数据直接生成车辆控制信号,避免模块间接口设计的复杂性,最大程度保留原始数据细节,并通过全局优化提升系统的整体性能。简而言之,与模块化自动驾驶(分为感知层、决策规划层和控制层)不同,“端到端”就是一端传感器输入信息,另一端直接输出行驶指令。优势在于更高的实时性和准确性,消除各模块之间的信息传递误差,提高响应速度。端到端模型具备更强的泛化能力,能够通过大规模数据训练,适应复杂多变的道路环境。
图片来源:至顶智库结合公开资料整理绘制
近年来,特斯拉、小鹏、理想等企业在端到端技术领域的实践成果,进一步印证“端到端”技术路径的潜力与可行性。特斯拉不断优化端到端自动驾驶模型,在复杂的城市道路和高速公路场景,特斯拉的自动驾驶系统表现出色,这得益于特斯拉自研的Dojo超级计算机,为端到端模型的训练提供强大的算力支持。小鹏汽车的XNGP全场景智能辅助驾驶是面向量产的全场景高等级自动驾驶系统,基于端到端的深度学习模型,XNGP实现在城市道路、高速公路、停车场等多种场景下的自动驾驶功能。理想汽车提出自动驾驶“端到端+VLM”双系统架构,并结合基于世界模型的训练评价体系,完成车位到车位的全量推送,从端到端+VLM到VLA,实现汽车AI能力从“行为智能”到“空间智能”的再次进阶。
Robotaxi成为未来自动驾驶出行的重要商业模式。Robotaxi即自动驾驶出租车,是利用人工智能、传感器、通信等技术实现自主行驶的出租车。车辆通常配备摄像头、激光雷达等传感器,能够感知周围的环境和交通状况,并通过算法和控制系统进行路径规划、避障、加减速、转向等操作。乘客通过手机APP或者语音识别等方式预约自动驾驶出租车,并输入目的地。自动驾驶出租车会按照最优路线将乘客送达目的地,并完成付款和评价等流程。
图片来源:Waymo,特斯拉,文远知行,萝卜快跑,小马智行官网,至顶智库结合公开资料整理绘制
特斯拉于2024年10月破局Robotaxi市场,特斯拉Cybercab为两座设计,取消传统汽车的方向盘和踏板,采用纯视觉方案,计划于2026年开始生产,并在2027年实现大规模量产。此外,谷歌Waymo在美国旧金山和洛杉矶扩大运营规模,每周在菲尼克斯、旧金山和洛杉矶提供超过10万次行程,付费出行次数总计超过200万次,车辆完全自动驾驶行驶里程超过3200万公里。从中国的实践情况来看,百度“萝卜快跑”已在包括北京、上海、武汉、重庆在内的全国11个城市开放载人测试。文远知行在中国广州、北京等地开展运营外,触角更延伸到阿联酋阿布扎比,当地Uber用户在使用服务时,将有机会选择文远知行Robotaxi自动驾驶车辆出行。
根据Mordor Intelligence预测,全球自动驾驶汽车市场规模从2025年的478亿美元增长到2030年的1333亿美元,CAGR复合增速达到22.75%,未来自动驾驶存在广阔市场空间。
2025年,全球汽车行业将迎来智能化变革的关键时期。伴随端到端自动驾驶和Robotaxi技术研发及商业落地,将持续推动全球自动驾驶技术的不断提升,也将带动更多车型使用高性能自动驾驶芯片及高级别解决方案,引领汽车行业迈向智能出行的新时代。全球汽车产业链上下游厂商在技术研发、商业化应用和生态构建方面的突破,预示着全自动驾驶的时代即将到来。
好文章,需要你的鼓励
这项研究介绍了CRAWLDoc,一种创新的文献排序系统,能从网络中自动识别与学术论文相关的文档。德国乌尔姆大学的研究团队利用小型语言模型,将论文登陆页面作为查询,对所有链接资源进行排序,有效解决了学术元数据提取面临的网页布局多样性问题。基于600篇来自六大出版商的论文测试,系统展现出卓越的排序性能和跨出版商适应能力,为改进学术信息提取奠定了基础。
西安交通大学与昆明理工大学研究团队开发了一种基于集成学习的婴幼儿语音情感识别方法,能有效分辨饥饿、困倦、不舒服和高兴四种情绪状态。研究采用三层分类器架构,整合SVM、随机森林和KNN算法,达到85.82%的准确率,显著优于单一分类器。这项技术有望应用于智能婴儿监护和早期疾病筛查,为理解婴幼儿非语言表达开辟了新途径。
这项来自普渡大学和微软的研究探索如何让AI助手更好地保护用户隐私。研究团队通过让大型语言模型在回答前先思考"语境完整性"(即在特定场景下什么信息适合分享),并结合强化学习技术进行训练,成功降低了隐私信息泄露风险高达40%,同时保持了任务完成能力。研究仅使用约700个合成数据样本进行训练,却在真实场景测试中展现出色效果,为构建更隐私友好的AI助手提供了实用方法。
SkyReels-Audio是Skywork AI团队开发的全能音频驱动人像视频生成框架,能将静态图像或视频与语音输入结合,生成高度逼真、唇形同步的说话人像视频。基于预训练的视频扩散变换器构建,该技术支持无限长度视频生成和编辑,提供多模态控制能力。通过混合课程学习策略和双向潜在融合技术,该模型在身份一致性、面部表情自然度和唇形同步精度上取得了突破性进展,为数字内容创作、教育和娱乐领域带来革命性可能。