你想了解火星的环境吗?想一句话生成你的专属数字人吗?这些科技力max的画面,尽在百度世界2021大会。
8月18日,百度联合央视新闻举办“百度世界2021”大会。以“AI这时代 星辰大海”为主题,奉献了一场“AI嘉年华”:新物种车外景开跑,小度家族的新成员亮相,AI社区就在我们身边,AI产业和AI生活的画卷也已展开:水务、能源、城市、制造……千行百业都在因AI变得更智能,也让我们的生活更美好。会上,央视主持人撒贝宁、百度CTO王海峰还与火星车数字人祝融号展开了一场对话,揭密了这场“AI嘉年华”的幕后功臣——百度大脑7.0。百度大脑7.0以“融合创新”和“降低门槛”为特点,AI技术越来越复杂,应用AI越来越容易。
百度CTO王海峰介绍百度大脑7.0
在百度世界大会现场,祝融号数字人与主持人流畅对话,不仅准确回答了“火星上能否种土豆”的问题,还以“登火星”为题作了一首诗。随后,王海峰又用一句话生成了一位数字人,并为他换上了航天服,让他跟祝融号数字人做朋友。
“数字人,以及大会上展现的AI应用背后,都是百度大脑7.0的技术在发挥作用。百度大脑是百度人工智能多年技术积累和产业实践的集大成。”王海峰解释道。目前以人工智能为代表的新一代信息技术蓬勃发展,驱动新一轮科技革命和产业变革,在新的发展阶段,人工智能技术越来越复杂,融合创新正在成为新常态;同时,随着人工智能技术在各行业的渗透,面向不同应用场景,降低门槛也变得越来越重要。基于这一趋势洞察,百度大脑升级到7.0,具备“融合创新”和“降低门槛”两大显著特点。
融合创新主要体现在“知识与深度学习融合创新、跨模态多技术融合创新、技术与场景融合创新、软硬一体融合创新”四个方面。
在知识与深度学习融合创新方面,百度发布了“知识增强大模型”,大规模知识图谱和海量的数据进行联合训练,从而让百度大脑具有更丰富的知识,更强大的语言理解、推理、文学创作等能力。
在跨模态多技术融合创新方面,通过融合了语言、语音、视觉等不同模态的技术,百度大脑得以像人类一样,实现对复杂真实场景的跨模态深度语义理解,进而获得对真实世界的统一认知。
从应用角度,不同领域都有各自的特点和难题,AI技术深入到实际应用场景中,与场景融合创新。百度智能云在水务、电力、城市管理、制造等领域的产业应用,正是技术与场景融合创新的成果。百度世界大会现场展示的同声传译系统,也是机器翻译、语音技术与同声传译场景融合,成功实现了高质量、低延迟的同传效果。
硬件设计与软件算法融合,会产生1+1>2的应用效果。在软硬一体融合创新方面,百度自主研制了AI芯片百度昆仑,使得AI模型计算效率更高、应用效果更好;针对远场语音交互研制的百度鸿鹄芯片,让人与汽车、智能家居等设备的语音交互更便捷、更流畅;同时百度也与合作伙伴一起构建硬件生态,比如飞桨平台目前已经适配30多款芯片。
“百度大脑7.0这些融合创新使AI能力越来越强,AI技术越来越复杂。”王海峰表示,百度大脑7.0的第二个特点便是“降低门槛”,让开发者更容易获得AI能力。
降低门槛如何实现?主要通过百度大脑的核心基座——百度飞桨。飞桨是百度自主研发,国内最早开源开放、功能丰富的产业级深度学习平台。基于产业的实际需求,飞桨平台提供了丰富的工具,从基础的核心框架、模型库,到开发套件、工具组件等等,帮助开发者速、高效地使用AI技术。同时,百度联合学术界和产业界,共同培养AI人才。门槛的大幅降低,使得开发者不需要学习人工智能理论,不需要从头编写人工智能的算法代码,即可高效进行技术和应用创新,加快了人工智能应用的多样化和规模化。
截至目前,飞桨已有来自于各行各业的360多万开发者,开发了40万个AI模型,累计服务13万企事业单位。在工业、农业、医疗、城市管理、交通、金融等各行各业都有飞桨在发挥作用。
比如在甘肃的沙漠中,基于飞桨研发的沙漠治理机器人在植树治沙;在广西柳州,几个学生用飞桨解决了困扰当地企业很多年的一个零件质检问题,帮企业每年节约上百万元。百度智能云在各行各业的产业应用,飞桨都在发挥技术基座的价值。
开发者、企业通过AI创造价值,推动技术创新更加活跃,产业应用的规模也越来越大。未来,百度还将继续AI技术的创新突破,不断推进AI在各行各业应用,助力社会经济效率提升,带来更美好的生活。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。