汽车行业是全球最高科技行业之一——所以本周发表的一份报告,从表面上看,有点令人意外。
Capgemini这份题为《加速汽车行业人工智能转型》的报告显示,2018年汽车行业中“大规模”部署了人工智能的企业数量仅仅增长了3%。
只有10%的受访者表示,2018年他们的企业组织在“全公司的范围和规模上”部署了人工智能驱动的项目,相比之下,2017年这一比例仅为7%。
该报告总结说,相对缓慢的增长速度证明,“自2017年以来,汽车行业在人工智能转型方面并没有取得重大进展”,而鉴于行业领导者所显示出的投资规模和热情,这一结果实在令人意外。
该报告的作者之一Ingo Finck表示,“在某种程度上,这确实让人觉得惊讶,因为我们看到绝大多数——超过80%——的企业都在他们的核心战略中提到了人工智能。”
“对他们来说,这显然是一个重要的战略因素,所以……我们也对相对缓慢的采用率感到有些意外。”
在深入研究采用率缓慢增长的各种潜在原因之前,有一点值得注意,这个结果是存在地区差异的:在中国,采用人工智能的车企数量几乎翻了一番,从5%增加到9%。
中国人工智能巨头采取相对“开放”的策略在一定程度上解释了这一现象,例如百度开发的Apollo开源平台,有超过130家企业及组织合作伙伴。
Finck解释说,其他地区增长缓慢可能是因为企业组织正在采取更为成熟的人工智能部署方法,而不是“全部都尝试一遍,看看哪些方法奏效”,他们更专注可以经过验证的用例,然后再大规模运用。
而从计划增加人工智能部署的企业的规模大小来看,另一个差异也十分明显。
“我们可以看到,小型企业在采用人工智能方面更犹豫一些,而规模较大的企业[收入超过100亿美元]采用率会更高一些。”
“小型企业的复杂性与大型企业几乎相同——不管是小企业还是大企业,采用人工智能所面临的困难都是相同的。”
实际上,正如预期的那样,投资金额与企业组织部署人工智能的规模之间存在着明显的相关性,这对于小型企业来说显然是一个限制因素。
在大规模成功部署了人工智能的企业中,有80%的企业在人工智能上的花费超过2亿美元。而对于那些认为自己没能成功部署人工智能的企业中,只有20%的企业花了这么多钱。
虽然自动驾驶汽车经常被视为汽车人工智能最主要的一个使用场景,但实际上,提高传统手动驾驶汽车的效率和附加值的主要方法是使用认知学习算法。
该报告强调了一些重要的人工智能部署,主要是在较大的OEM企业组织内,包括:
- 原型设计:通用汽车在其产品设计操作中使用机器学习
- 建模和模拟:德国大陆集团通过建模和模拟技术,每小时收集5000英里虚拟车辆测试数据
- 销售和营销:大众汽车利用机器学习技术,通过经济、政治和气象等数据,预测120个国家250种车型的销售情况
- 质量控制:奥迪使用配备计算机视觉的摄像头,来检测制造过程中金属板上无法被人眼识别出来的微小裂缝。
Capgemini将这些企业定义为“规模冠军”——他们已经成功地大规模部署了人工智能,并且都显示出了各种特征,例如专注于高效益用例、良好的人工智能治理、高水平的投资,以及更为重要的是,显示出了提升员工技能的愿意。
“我们知道,当人类与机器组合在一起的时候,人工智能是最高效的,”Finck这样表示。
“就像你提高AI的能力一样,你也需要提升员工的技能,这不仅仅是指要培训或者雇用更多的数据科学家,而是关于训练企业组织内的其他人——他们是AI的临时用户。”
所有这些挑战,都在一定程度上解释了为什么汽车行业采用人工智能的速度要低于预期。 有一点是Finck坚信的,同时也是该报告证实了的一点:未来人工智能将在汽车行业发挥关键作用。
他说:“我认为企业都明白,人工智能并不是一项‘插件’技术——它是企业必须采用的核心技术——就像是引擎,或者信息技术。他们面临的挑战不仅仅是产品、还有服务、乃至整个企业都拥抱人工智能。”
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。