12月19日,“2021中关村数字经济产业联盟会员代表大会暨华为云北京城市峰会”在京成功举行。华为云邀请产业专家、行业代表们,就智能时代下中国汽车行业的转型升级开展交流讨论。在峰会”领跑汽车智能时代高峰论坛“上,针对汽车自动驾驶全场景量产话题,禾多科技副总裁王征发表了《自动驾驶全场景的量产实践》主题演讲,他表示:“ 禾多科技到现在成立4年多不到5年,通过这几年时间,我们现在基本上有两个关键词,聚焦场景,促进落地。“
(插图:禾多科技副总裁王征现场图)
禾多科技成立于2017年6月,致力于打造基于前沿人工智能技术和汽车工业技术的自动驾驶方案。一直以来,公司依托自身的两大核心方案在日常出行的多个场景进行实践,目前已取得阶段性进展。论坛上,王征对自动驾驶应用于出行几大场景的难易程度进行了总结,”首先以高速公路为代表结构化道路,基本上它的场景会比较简单,虽然车速比较快,但是它道路的博弈者只有同方向的车和路,不存在横穿等等复杂场景。相对复杂就是我们的城市工况,自动驾驶车里有一句话,谁也别吹牛,谁有本事把车开到五道口试试,对自动驾驶挑战还是蛮大,城市自动驾驶落地比较难一点。还有一个场景,如果把车放在酒店门口直接上来,耽误时间的事跟我没关系,都交给车,以智能泊车为代表的智能泊车,我们聚焦三个场景。“这个结论在2021年5月《中国消费者自动驾驶信心指数调查》里也得到了佐证,根据调查可以看高频大家认为自动驾驶特别希望能够解决的问题,正好是聚焦的行车跟泊车两大场景。
而对于到底多少年能够真正看到自动驾驶这一问题,王征表示“硬梆梆的自动驾驶从L0到L5级别并不是最终消费者所需要,在禾多看来,打通全场景,广泛应用这是未来无论驾驶真正量产落地的一个必经之路,优秀体验是实现大规模装载的前提。”
当下,由于驾驶安全性、量产可行性和商业模式能否成立等不确定因素,自动驾驶全场景量产落地充满挑战,但禾多科技对全场景量产落地充满期待。王征表示,“我们现在也已经跟国内许多主机厂签了量产合同,这里边有比较大的国内主机厂关于平台化自动驾驶的方案都会由禾多开发量产。现在保守估计在未来5到10年,搭载禾多自动驾驶解决方案的车型应该会有将近十款,整个会有百万量级的交付,这些车通过未来5到10年在路上积累百万平方的数据,对于自动驾驶的算法还有数据迭代是飞跃性的。”
而实现自动驾驶全场景量产落地,需要通过自动驾驶系统打通数据闭环,积累海量数据,其中包括全国范围内的大规模真实路测与数据积累以及基于真实数据的场景库验证。为解决这些问题,禾多科技携手华为云,打通数据闭环,先通过场景库去提取原始数据,再通过云端训练一直到模型的更改算法迭代,最后通过OTA反哺给自动驾驶系统,从而实现数据驱动的量产落地。
对于双方的合作,王征表示,“华为MDC,它的高算力能够匹配更多传感器,能够让算法在上面跑得更顺畅更快,不管感知还是定位都可以做得非常精准。禾多作为自动驾驶算法公司,我们可以提供像车规级的硬件,传感器算法的融合,像功能安全整个算法验证,所以双方应该说珠联璧合的配合。”
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。