Meta首席人工智能科学家扬·勒昆 (Yann LeCun) 近期参加了由IBM等主办的哈德逊论坛(Hudson Forum 2024) ,并发表了他对人工智能未来展望的主题演讲。
勒昆在演讲中提出了实现人类水平AI的重要性。他预见了一个未来,人们将通过智能眼镜与AI系统进行交互,这些系统将像智能虚拟助手一样为我们工作,增强人类的智力,提高创造力和生产力。为了实现这一愿景,我们需要构建能够理解世界、记忆事物、拥有直觉、常识、推理和规划能力的机器,这些能力是当前AI系统所不具备的。
勒昆强调,有些AI系统在特定领域表现出色,但它们仍然无法达到人类或动物对世界的理解水平。因此,我们需要开发新的AI架构,使机器能够模拟人类如何通过优化过程来理解和互动世界。勒昆提出了一个名为“目标驱动AI”的架构,这种架构通过优化过程来模拟人类理解和与世界互动的方式,从而克服现有AI系统的局限性。这一架构的核心理念是将目标和优化结合起来,让AI系统能够主动寻找最佳的动作序列以实现特定目标,从而模拟人类的认知过程,尤其是在规划和推理方面的能力。
在“目标驱动AI”架构中,AI系统被设计为具备推理和规划的能力,使其能够评估不同的行动方案,并选择那些最有可能实现目标的方案。这种能力对于处理复杂任务和环境至关重要。勒昆还强调了自监督学习在这一架构中的重要性,它使AI系统能够学习输入数据的内在表示,这些表示可以用于后续的决策和行动。
此外,“目标驱动AI”架构特别适合处理需要实时决策的复杂任务。通过优化过程,系统能够快速适应环境变化,并做出相应的调整。这种架构不仅能够提高AI系统处理任务的效率,还能够使其在各种应用场景中发挥更大的作用,推动人工智能的进一步发展。勒昆认为,这种架构将为未来的AI系统设计提供新的方向,使其能够更好地理解和预测世界的状态变化,从而实现更高级的智能功能。他还提到,Facebook AI Research(FAIR)实验室不仅在理论研究上探索这一架构,还成立了Gen AI产品部门,专注于将这些理论转化为实际的AI产品。
勒昆在演讲中提出了对自回归模型,尤其是Transformer模型的批评,指出这些模型在处理复杂任务时存在局限性。他强调,尽管这些模型在预测序列中的下一个项目方面表现出色,例如在文本中预测下一个单词,但它们在进行复杂推理方面的能力有限。此外,这些模型通常只能处理离散对象的数据,如单词、符号或标记,而在处理连续的或非结构化的数据,比如视频或真实世界的物理交互时,会遇到挑战。
为了克服这些挑战,勒昆提出了一种新的训练方法,即通过观看视频或生活在真实世界中来训练AI系统,使它们能够学习常识和物理直觉。这种方法的目标是让AI系统能够更好地理解和预测世界的状态变化,例如预测物体在被推下桌子时的运动,或者车辆在交通中的响应行为。他强调,尽管自回归模型在处理文本等结构化数据方面取得了成功,但在处理视频等非结构化数据时面临更大的挑战,因为这些数据包含了丰富的空间和时间信息,这些信息很难被传统的自回归模型捕捉和理解。勒昆提倡寻找更好的数据表示方法,以帮助AI系统捕捉到更复杂和连续的数据特征,从而在没有额外学习的情况下完成新任务,通过规划和推理来实现目标。
在演讲中,勒昆提到了他与马克·扎克伯格的对话,扎克伯格一直在询问实现人类水平人工智能所需的时间。勒昆的回答反映了他对这一过程的长期性和复杂性的认识。他表示,要使AI系统能够推理、规划和理解世界,需要经历一个长期的研发过程,即使不是十年,也需要几年的时间。他强调,这样的系统需要具备处理复杂任务的能力,如理解物理直觉、常识和进行抽象思考,这些是目前AI系统所缺乏的。勒昆解释说,达到人类水平的智能不会是一夜之间的突破,而是一个逐步进化的过程,AI系统将逐渐获得更高级的能力,而不是突然出现完全的人类水平智能。
好文章,需要你的鼓励
法国人工智能公司Mistral AI宣布完成17亿欧元(约20亿美元)C轮融资,由荷兰半导体设备制造商ASML领投。此轮融资使Mistral估值从去年的60亿美元翻倍至137亿美元。英伟达、DST Global等知名投资机构参投。作为欧洲领先的AI开发商,Mistral凭借先进的多语言大模型与OpenAI等美国公司竞争,其聊天机器人Le Chat具备语音模式等功能。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
VAST Data收购了成立仅数月的初创公司Red Stapler,该公司由NetApp资深团队创立。Red Stapler创始人兼CEO Jonsi Stefansson将担任VAST云解决方案总经理,负责超大规模云战略。Red Stapler拥有6名开发人员,开发了跨SaaS交付、API集成、监控等功能的云控制平面和服务交付平台,将加速VAST AI OS在超大规模和多云环境中的部署,深化与全球领先超大规模云服务商的合作关系。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。