伊桑·莫利克：智能洪流的预言（译文）

就算研究人员认为在未来一两年内就能实现通用人工智能的观点是正确的，他们也很可能高估了人类采用和适应一项技术的速度。

（注：伊桑·莫利克（Ethan Mollick），宾夕法尼亚大学沃顿商学院副教授，拉尔夫·罗伯茨杰出教师学者，被《时代杂志》评为人工智能领域最有影响力的人物之一。）

伊桑·莫利克：智能洪流的预言（译文）

最近，人工智能行业发生了一些变化。研究人员开始急切地谈论超智能AI系统的到来，一场智能的洪流即将涌来。这并非发生在遥远的未来，而是迫在眉睫。他们常提及通用人工智能（AGI），尽管定义并不精确，但大致是指在大多数智力任务上能超越人类专家的机器。他们认为，这种按需可得的智能将深刻改变社会，而且很快就会发生。

伊桑·莫利克：智能洪流的预言（译文）

有诸多理由让人对业内人士的言论存疑，因为他们有充分的动机做出大胆预测：他们可能在筹集资金、抬高股票估值，或许还在让自己相信自身具有历史性的重要意义。他们是技术专家，并非预言家，而技术预测的历史中充斥着许多看似自信满满的断言，结果却被证明超前了数十年。即便抛开这些人为偏见不谈，基础技术本身也让我们有理由怀疑。如今的大语言模型尽管能力令人赞叹，但从根本上来说仍然是不稳定的工具——在某些任务上表现出色，却在看似更简单的任务上栽跟头。这种“参差不齐的前沿水平”是当前人工智能系统的核心特征，而且这一特征不会轻易消失。

（注释：业内人士有诸多动机去做出大胆的预测。例如，他们可能为了筹集资金，通过夸大人工智能技术的前景和发展速度，吸引投资者的关注和资金投入。同时，为了抬高所在公司的股票估值，他们也会倾向于发布一些积极的、看似突破性的预测，让市场对公司的未来发展充满信心，从而推动股价上涨。此外，他们认为自己正处于一个重大变革的前沿，参与并推动着人工智能技术的发展，这种自我认知的强化也会影响他们的言论。他们是技术专家，专注于人工智能领域的技术研发和创新。然而，技术专家并不等同于预言家。预言家需要具备对未来的深刻洞察力和准确的预判能力，而技术专家虽然对技术的发展趋势有一定的了解，但他们的预测往往更多地基于当前的技术状况和自身的研究方向，缺乏对社会、经济、文化等多方面因素综合考量的全面视角。因此，他们的预测在准确性上存在较大的不确定性。从历史来看，技术预测的记录并不理想。过去有很多技术专家或相关人士做出的看似自信满满的断言，认为某种技术将在短期内取得重大突破或广泛应用，但最终都被证明超前了数十年。）

此外，就算研究人员认为在未来一两年内就能实现通用人工智能的观点是正确的，他们也很可能高估了人类采用和适应一项技术的速度。组织机构的变革需要很长时间，工作、生活和教育体系的变革则更为缓慢。而且技术需要在现实世界中找到真正重要的具体用途，这本身就是一个缓慢的过程。即便我们现在就拥有了通用人工智能，大多数人可能也不会察觉（事实上，一些观察人士认为这已经发生了，他们坚称像Claude 3.5这样的最新人工智能模型实际上就是通用人工智能）。

然而，将这些预测仅仅视为炒作可能并无益处。不管他们出于何种动机，人工智能实验室的研究人员和工程师似乎真的相信他们见证了前所未有的事物的诞生。他们的笃定本身或许无关紧要——但越来越多公开的基准测试和演示开始暗示，他们为何会认为我们正接近人工智能能力的根本性转变。可以说，这股浪潮似乎比预期的涨得更快。

浪潮涌起之处

引发最多猜测的事件是OpenAI在12月底推出的新模型o3。目前OpenAI以外的人还没有真正使用过这个系统，但它是有着卓越表现o1模型的下代产品。o3模型是新一代“推理器”中的一员——这类人工智能模型在回答问题前会多花些时间“思考”，这极大地提高了它们解决难题的能力。OpenAI为o3提供了一系列惊人的基准测试结果，表明它相较o1有了巨大的进步，而且确实超越了我们此前认为的人工智能技术的最前沿水平。有三个基准测试尤其值得关注。

伊桑·莫利克：智能洪流的预言（译文）

第一个是研究生水平的无谷歌问答测试（GPQA），该测试旨在通过一系列连谷歌都无法提供帮助的选择题来测试高水平知识。能上网的博士们在自己专业领域外的题目上答对了34%，在专业领域内答对了81%。而o3在测试中答对了87%，首次击败了人类专家。第二个是前沿数学测试，这是一组由数学家设计的极其难解的私人数学问题。此前，没有任何人工智能的得分能超过2%，而o3答对了25%。最后一个基准测试是ARC-AGI，这是一项相当著名的流体智力测试，其设计初衷是对人类来说相对容易，但对人工智能来说很难。o3再次击败了之前所有的人工智能，并且在测试中超过了人类的基线水平，得分87.5%。所有这些测试都存在诸多需要注意的地方，但它们表明，我们之前认为人工智能性能无法逾越的障碍实际上可能很快就会被突破。

智能体

随着人工智能变得更加智能，它们会成为更有效的智能体，这又是一个定义不明确的术语（看出规律了吧？），通常是指被赋予能够自主行动以实现一系列目标能力的人工智能。我在之前的文章中展示过一些早期的智能体系统，但我认为在过去几周里，我们也看到了至少在狭窄但具有重要经济意义的领域中，实用智能体现在已经可行。

一个很好的例子是谷歌的Gemini with Deep Research（订阅Gemini的用户都可以使用），它实际上是一个专门的研究型智能体。我给它一个主题，比如“从创始人的角度研究高增长企业初创公司的融资方式比较”。几分钟后，这个智能体系统就制定了一个计划，浏览了173个（!）网站，并为我编写了一份包含答案的报告。

伊桑·莫利克：智能洪流的预言（译文）

结果是一份17页、有118条参考文献的报告！但它写得好吗？我在沃顿商学院教授创业入门课程已有十多年，发表过相关主题的文章，自己也创办过公司，甚至还写过一本关于创业的书，我认为这份报告相当不错。我没有发现任何明显的错误，如果你愿意，也可以自己读一读。最大的问题不是准确性，而是这个智能体只能访问公开的、无付费墙的网站，无法访问学术或优质出版物。而且它的分析有点浅显，在面对相互矛盾的证据时也没有提出有力的论点。所以它不如最优秀的人类，但比我见过的许多报告要好。

伊桑·莫利克：智能洪流的预言（译文）

尽管如此，这仍是一个具有真正价值且极具颠覆性的智能体案例。研究和撰写报告是许多工作的主要任务。Deep Research在三分钟内完成的工作，人类可能需要花费数小时，尽管人类可能会进行更细致入微的分析。鉴于此，任何撰写研究报告的人或许都应该试试Deep Research，它为研究报告的撰写提供了一个很好的起点，尽管一份出色的最终报告仍然需要人类的润色。我有机会与Deep Research项目的负责人交谈，从中了解到这只是一个小团队开展的试点项目。因此，我推测，其他有强烈动机创建狭窄但高效智能体的团队和公司也能够做到这一点。如今，专用智能体已成为实实在在的产品，而非未来的一种可能性。现在已经有许多编程智能体，你还可以使用进行科学和金融研究的实验性开源智能体。

专用智能体是为特定任务而设计的，这意味着它们在一定程度上存在局限性。这就引出了一个问题：我们是否很快就能看到通用智能体，即你可以向人工智能提出任何问题，它就能利用计算机和互联网来完成任务。西蒙·威利森认为不会，尽管萨姆·奥特曼持相反观点。随着时间的推移，我们会了解更多情况。但如果通用智能体系统能够可靠且安全地运行，那将会真正改变一切，因为这将使聪明的人工智能系统在现实世界中采取行动。

众多小进展正在发生

智能体和超智能模型是变革性人工智能所需的核心要素，但还有许多其他方面似乎也在迅速取得进展。这包括人工智能记忆容量（上下文窗口）的提升，以及使其具备视觉和语言交互能力的多模态功能的发展。回顾一下过往的情况，有助于我们了解其发展进程。例如，在ChatGPT问世之前，我就一直在用“水獭在飞机上使用无线网络”这个提示词测试图像和视频模型。2023年10月，这个提示词生成的图像简直不堪入目。

伊桑·莫利克：智能洪流的预言（译文）

然而，不到18个月后，多个图像生成工具就能完美呈现这个提示词所描述的内容。结果就是我不得不想出更具挑战性的提示（这就是基准饱和的一个例子，即旧的基准被人工智能超越）。我花了几分钟时间，看看使用谷歌的Veo 2视频模型制作一部关于水獭之旅的电影能达到什么效果。下面你看到的这段视频，实际制作时间不到15分钟，尽管生成视频需要等待一段时间。看看视频中阴影和光线的质量，我尤其欣赏水獭最后打开电脑的画面。

为了进一步挑战，我决定把水獭的故事改编成一部20世纪80年代风格的科幻动漫，让水獭在太空中冒险，并且配上一首符合那个时代风格的主题曲（感谢Suno）。同样，这几乎没花费多少（人力）功夫。

智能洪流又如何？

鉴于以上种种，我们应该如何认真看待人工智能实验室宣称的智能洪流即将到来这一说法呢？即便我们仅考虑已经看到的情况——o3的基准测试突破了以往的障碍，专用智能体能够进行复杂的研究，多模态系统能够创造出越来越复杂的内容——这些能力就足以改变许多基于知识的任务。然而，实验室坚称这仅仅是个开始，能力更强的系统和通用智能体即将出现。

最让我担忧的不是实验室对这一时间线的预测是否正确，而是我们甚至没有为当前水平的人工智能所能带来的影响做好充分准备，更不用说如果他们的预测正确会怎样了。虽然人工智能研究人员专注于“对齐”问题，确保人工智能系统的行为符合道德和责任标准，但很少有人尝试去设想和阐述一个充斥着人工智能的世界会是什么样子。这不仅仅关乎技术本身，还关乎我们如何塑造和应用它。这些问题不是人工智能开发者能够或应该独自回答的。这些问题需要组织领导者的关注，他们需要引领组织度过这一转型期；需要员工的关注，他们的工作生活可能会发生改变；也需要利益相关者的关注，他们的未来可能取决于这些决策。即将到来的智能洪流本身并无好坏之分——但我们如何为其做准备，如何适应它，最重要的是，我们如何选择使用它，将决定它会成为推动进步的力量还是造成混乱的因素。开展这些对话的时机不是在洪流开始泛滥之后，而是现在。