杨立昆：在最乐观的情况下，AGI的实现至少需要五到六年的时间

当前社会对人工智能的担忧，特别是那些关于AI可能导致的末日情景的恐惧，实际上被过度放大了，这些担忧忽视了人工智能技术的实际发展状况和潜在的积极影响。他指出，人工智能在理解和操作物理世界方面的能力仍然非常有限，目前的AI系统主要通过文本数据进行训练，缺乏对物理世界直观理解的能力，无法像人类或动物那样自然地与环境互动。这些模型基于人类对世界的符号化、简化的描述，与真实世界的复杂性相去甚远。

杨立昆（Yann LeCun）加入了由著名的宇宙学家、物理学教授、公共演讲家、发明家和作家布莱恩·基廷（Brian Keating）主持的《Into the Impossible》（探索不可能）播客节目，在节目中，杨立昆表示，人工智能的负面影响被过度放大，目前人工智能的能力仍然非常有限。在最乐观的情况下，AGI的实现至少也需要五到六年的时间。

杨立昆（Yann LeCun）在讨论中表示，当前社会对人工智能的担忧，特别是那些关于AI可能导致的末日情景的恐惧，实际上被过度放大了，这些担忧忽视了人工智能技术的实际发展状况和潜在的积极影响。他指出，人工智能在理解和操作物理世界方面的能力仍然非常有限，目前的AI系统主要通过文本数据进行训练，缺乏对物理世界直观理解的能力，无法像人类或动物那样自然地与环境互动。这些模型基于人类对世界的符号化、简化的描述，与真实世界的复杂性相去甚远。一个10岁的孩子或者一只猫，都能够通过直观物理（intuitive physics）来理解如何与物理世界互动，比如规划跳跃轨迹或理解物体的运动，这些能力是目前的AI系统所不具备的。这也导致了有AI系统能够通过律师资格考试，但我们却仍然没有能够自然流畅执行简单家务任务的家用机器人。

未来的AI架构需要能够像人类和动物那样，通过直观的物理模型来理解和预测周围的世界。为了实现这一目标，杨立昆提到了Jeppa（Joint Embedding Predictive Architecture）架构，这是一种自监督学习方法，其核心思想是通过训练系统来理解和预测输入数据的内在结构和动态，从而减少输出的随机性，并提高对复杂系统的理解和预测能力。

在Jeppa架构中，"Joint Embedding"指的是系统能够将不同形式的同一输入映射到相同的嵌入表示中，这种嵌入是一个能够捕捉输入内容核心特征的向量，而不是精确复制所有细节。这样Jeppa架构能够识别和理解输入数据的本质特征，而忽略那些对于预测和理解不重要的随机变化或噪声。"Predictive"部分则涉及到系统如何使用这些嵌入表示来预测未来的数据点。例如，在视频处理中，系统可以利用前一帧的嵌入表示来预测下一帧的内容，这种预测能力也是科学建模和物理世界预测的一个关键方面。这种架构不仅能够处理语言和文本数据，还能够处理来自传感器的数据，他认为，这种能够理解和预测物理世界的AI架构，将能够推动AI在物理学、教育和医疗保健等领域的应用，解决这些领域中的复杂问题。

杨立昆：在最乐观的情况下，AGI的实现至少需要五到六年的时间

在讲到自我监督学习（self-supervised learning）在人工智能领域的重要性方面，他指出，大部分我们学到的东西并不是通过答案或通过试错来学习的，而是通过自我监督学习，即通过处理和理解感官输入的结构来实现的。这种学习方式对于人类和动物来说都是自然而然发生的，而且占据了我们学习活动的大部分。自我监督学习与监督学习（supervised learning）和强化学习（reinforcement learning）不同。在监督学习中，系统通过明确的输入和输出来训练，例如给系统展示一张大象的图片并告诉它这是大象；而在强化学习中，系统在给出答案后只得到关于答案正确与否的反馈，而不是具体的正确答案。相比之下，自我监督学习不依赖于外部的指导或奖励，而是系统通过内部的机制来学习和推断数据的内在结构。

大语言模型是自我监督学习的成功的一个显著证明。这些模型通过预测序列中的下一个词来学习语言的结构，而不需要外部的标签或指导。通过自我监督学习，AI系统能够发展出对世界的内在模型，能够进行规划和推理，从而在没有明确指令的情况下执行任务。这种能力是实现更高级别的人工智能的关键，也是杨立昆认为未来AI研究和开发中需要重点关注的领域。

杨立昆在讨论中明确表示，他不认为通用人工智能（AGI）会在未来的两年内实现。即使在最乐观的情况下，所有计划中的技术和策略都按预期工作，且没有遇到未预见的重大障碍，AGI的实现至少也需要五到六年的时间。他还提到，AI系统最终有可能达到人类智能的水平，但使用“AGI”这个术语并不准确，它表示的是一种通用能力，能够广泛适用于各种任务和领域。然而，实际情况是，人类的智能非常专业化，我们在特定的领域和任务上表现出色，但在其他领域可能就不尽如人意。人类智能往往是针对特定领域的，例如，一个专业的医生可能在医学领域拥有深厚的知识，但在艺术或音乐等领域可能就不具备同样的专业水平。这种专业化的智能是我们人类智能的一个关键特征。因此，他倾向于使用“人类水平AI”或“高级机器智能（AMI）”这样的术语，因为这些术语更能准确地描述AI系统的目标，这种表述也更符合我们对人类智能的理解，这样我们可以更清晰地设定AI研究的目标，并更准确地评估AI系统的性能和潜力。

在如何防止AI系统故意或意外地伤害人类方面，他提出，当前的AI系统，在产生输出时并不是通过优化目标来实现的，而是通过自回归的方式，一个接一个地生成令牌，没有进行深入思考。这种方式导致模型在某种程度上是不可控制的，要确保AI系统的安全，我们需要构建目标驱动的AI系统，这些系统在产生输出时，是通过优化一系列目标来搜索行动序列的结果。这样的系统不能被“越狱”，因为它们的输出只能满足它们内部心理模型所设定的目标。另外，我们可以为AI系统设定一些主要目标和一些防护目标（guardrails），即使AI系统的能力不断扩展，它们也只能产生满足这些防护目标的输出。他还指出，这与人类社会制定法律的方式类似，法律为人类行为设定了界限，违反法律会受到惩罚，同样，我们可以为AI系统设定类似的界限，确保它们的行为不会偏离这些界限。

在谈到AI的未来潜力方面，杨立昆将人工智能的发展与印刷机的发明相提并论。他提到，印刷机的发明在15世纪是一个转折点，它不仅促进了知识的传播，还推动了启蒙运动、科学、民主的发展，并且帮助人们从宗教教条中解放出来，变得更加理性。印刷机在当时是一个巨大的进步，它让知识不再局限于少数精英，而是普及到更广泛的民众中。人工智能的兴起将会带来类似的变革，通过增强人类的智能，AI有潜力帮助我们完成那些通常需要其他人类智慧才能完成的任务。不过，这种变革可能也会带来一些短期的负面影响，比如印刷机在欧洲导致了宗教冲突和战争，但最终它促进了社会的进步和变革。同样，AI的发展也可能伴随着一些挑战和风险，但长远来看，它将会像印刷机一样，成为推动社会向前发展的重要力量。