在今天的专栏中,我将继续我关于从传统 AI 迈向备受追求的 AGI(人工通用智能)可能路径的系列特写。 AGI 指的是在各个方面都能与人类智力完全持平的 AI。之前,我已经概述了七条看似最有可能推动 AI 实现 AGI 的主要路径。
在这里,我将对这些路径中的一种——也就是被认为最有可能的路线,线性路径——进行分析性和投机性的深入剖析,探讨它从现在到 AGI 实现过程中的逐年发展情况。后续的文章将讨论其余各条路径。线性路径是指 AI 以逐步、一步一个脚印的方式不断进步,直至实现 AGI。
下面我们来讨论一下。
此次对一种创新性 AI 突破的分析,是我在 Forbes 专栏中持续关注最新 AI 动态的一部分,内容包括识别和解释各种具有重大影响的 AI 复杂性。
迈向 AGI 与 ASI
首先,为了开启这一重大议题,需要一些基本概念。
目前正有大量研究致力于进一步推动 AI 发展,其总体目标是实现人工通用智能(AGI),甚至有可能实现人工超智能(ASI)。
AGI 是指与人类智力相当、看似能匹配我们智慧的 AI;而 ASI 则是指超越人类智力、在很多甚至所有可行的方面优于人类的 AI。其理念是 ASI 能够在各个方面远远超越人类。
目前,我们尚未实现 AGI。
实际上,目前还不清楚我们是否能够实现 AGI,也不确定实现 AGI 是几十年后的事,还是需要数百年。围绕 AGI 实现的时间点众说纷纭,且缺乏令人信服的证据或铁一般的逻辑。相比之下, ASI 更是遥不可及,与我们当前的传统 AI 相比更是天壤之别。
AI 专家对 AGI 时间的共识
如今,预测 AGI 实现时间的努力主要沿两条路径展开。
首先,一些极为高调的 AI 界权威纷纷做出个性鲜明的大胆预测,他们的言论往往成为媒体的热点。这些预言似乎正在向 2030 年靠拢,作为 AGI 的目标年份。而另一条相对低调的路径,则是通过定期问卷调查和民意测评汇聚 AI 专家的意见。这种“群体智慧”的方式是一种科学共识。正如我在链接中的讨论,最新的调查显示 AI 专家普遍认为我们将在 2040 年实现 AGI。
那么,你会被那些 AI 界权威的大言不惭所说服,还是更倾向于 AI 专家及其科学共识的观点呢?
从历史上看,利用科学共识来理解科学现象的态度一直比较流行,并被视为标准做法。如果你只依赖单个科学家,他们可能会有自己独特的见解。而共识的美妙之处在于,一个领域内大多数人的意见都会集体支持某一立场。
俗话说,两个人的智慧总比一个人强。在科学共识的情况下,可能是几十个、几百个甚至上千个“大脑”共同发力。因此,在讨论 AGI 各种实现路径时,我将以 2040 年作为共识目标年份来展开讨论。
除了 AI 专家的科学共识外,另一种更新且更广泛的预测 AGI 实现时间的方法是所谓的 AGI 证据趋同或 AGI 共识,这一方法我也有讨论(链接)。
七大主要路径
如前所述,在之前的一篇文章中,我已经确定了 AI 向 AGI 进化的七大主要路径。其中最常被假定的路径是逐步推进的进程。 AI 行业通常将这种路径称为线性路径,它本质上是慢而稳的。其它主要路径则各自包含不同的曲折变化。
下面是我列出的从当代 AI 迈向梦寐以求的 AGI 的七大主要路径:
(1) 线性路径 (慢而稳定):此 AGI 路径体现了渐进主义观点,认为 AI 的发展通过不断扩大规模、工程实践和不断迭代一步步积累,最终实现 AGI。
(2) S 曲线路径 (平台期与复苏):此 AGI 路径反映了 AI 发展中历史趋势(例如早期的 AI 寒冬),在停滞后通过突破实现再次提升。
(3) 曲棍球棒路径 (起初缓慢,随后迅速增长):此 AGI 路径强调一个关键拐点的巨大影响,该拐点重新构想并引导 AI 的发展,可能源自 AI 理论上的涌现能力。
(4) 弯曲路径 (波动不定):此 AGI 路径考虑了 AI 发展过程中的高度不确定性,包括炒作过度和幻灭周期,也可能因外部(技术、政治、社会等)因素出现冲击。
(5) “登月”路径 (突然跳跃):包含 AI 发展中激进且出人意料的不连续性,例如著名的预想中的“智能爆炸”或类似的大收敛现象,几乎同时瞬间实现 AGI(关于智能爆炸的深入讨论,详见链接)。
(6) 永无止境路径 (持续徘徊):这一观点表现出极端怀疑,即 AGI 也许永远无法为人类所达成,但我们依然不断尝试,怀抱着 AGI 即将在下一个拐角处出现的希望与信念。
(7) 死胡同路径 (似乎永远无法实现 AGI):这表明人类在追求 AGI 的过程中可能会走入死胡同,这种局面可能是暂时的,也可能是永久的,无论我们如何努力, AGI 都将永远遥不可及。
你可以将这七种可能的路径应用到你所设想的任何 AGI 时间表中。
逐年展望未来预测
下面,我们采用一种分而治之的方法,探讨从现有 AI 到 AGI 之间,按年度需要发生哪些事情。
情况是这样的。
我们当前处于 2025 年,并预期到 2040 年实现 AGI,总共剩下 15 年的时间。就线性路径而言,关键假设是: AI 每年都在按步骤稳步进展,并没有突然的突破或奇迹般的进展。这是一项踏实的工作,需要我们在未来15年中兢兢业业、脚踏实地地完成任务。
其思路就是绘制出未来十五年的发展图谱,预测每一年 AI 将发生什么变化。
这既可以采取面向未来的思路,从现在开始逐年展望,直至 2040 年实现 AGI;也可以采取倒推方法,即以 2040 年作为 AGI 的终点,再反推每年所需达成的里程碑,直至回溯到 2025 年(与当前 AI 水平相匹配)。这种正向与逆向相结合的方法是未来预测的典型特征。
这种对未来十五年 AI 发展所做的预测就铁板钉钉吗?
答案是否定的。
如果有人能精确地预测未来15年 AI 究竟会如何发展,那么他在预测股市上的准确度就堪比 Warren Buffett。这样的人很可能会获颁诺贝尔奖,也会成为世上最富有的人之一。
总的来说,我在这里展示的这个“稻草人”模型,主要是为了激发我们对未来 AI 发展进行预测思考。它只是猜测,是一种投机性的设想,但至少它有一定的合理依据,并非完全凭空想象或毫无根据。
我以 2040 年实现 AGI 作为示例来展示未来15年的路径,但也可能改为 2050 年实现 AGI,则这一进程将延续25年;时间线和规划也将需要覆盖25年,而如果 2030 年实现 AGI,则整个路径需要大幅压缩。
2025 年至 2040 年的 AGI 线性路径
我选择为每一年确定 AI 技术的进步,同时简要讨论其对社会可能产生的影响。原因在于, AI 伦理和 AI 法律将变得越来越关键,一方面会促进 AI 的发展,另一方面或许会在某种程度上抑制 AI 的部分进展。
下面是一份从 2025 年到 2040 年,沿着线性路径实现 AGI 的年度未来预测“稻草人”路线图:
2025 年:AI 多模态模型终于趋于成熟,并与 LLMs (大语言模型)实现了全面整合。AI 在实时推理、传感器运动整合和具身语言理解方面取得了显著改进。AI 在法律、医疗等专业领域的应用大幅提升,但监管框架仍零散且普遍未被采纳。
2026 年:具备代理能力的 AI 开始蓬勃发展,并变得实用且普及。具备记忆和规划能力的 AI 系统在模拟环境中完成开放任务已达到了一定水平。公众对 AI 治理的兴趣逐渐增加。
2027 年:大规模世界模型的应用大幅推动了 AI 能力的提升。借助 AI 元学习的进步,AI 可以从更少的示例中实现自我提升。其中一些进展使得 AI 能在一定程度上应用于白领工作,带来轻微的经济替代效应。
2028 年:AI 代理获得了广泛认可,能够在数字和物理领域(包括机器人技术)中半自主地执行多步任务。AI 成为学校教学的重要组成部分,与人类教师共同辅导学生。
2029 年:通过具身学习, AI 已经能广泛理解物理因果关系和现实世界的约束。关于 AI 取代就业的担忧日益加剧,引发了更高层次的关注。
2030 年:具备自我改进能力的 AI 系统在受控环境下开始修改自身代码,提高效率而无需人工干预。这为后续发展奠定了重要基础。有人声称 AGI 离我们只有一两年之遥,但这未免为时过早,未来还需经历十年的磨砺。
2031 年:混合 AI 系统——即整合了符号推理、神经网络及概率模型的认知架构——成为新的主流。围绕混合 AI 是否为正确道路的内部争论早已平息。基于 AI 的辅导系统在个性化教学和学科掌握方面全面超越了人类教师,使得人类教师的职业面临巨大风险。
2032 年:AI 代理在抽象、心智理论(ToM)以及跨领域学习等大多数认知指标上实现了与人类水平相当的表现,远超以往在这些指标上仅表现良好的早期 AI 版本。各行各业开始以 AI 优先的思维模式彻底重构和重新审视其业务。
2033 年:随着人机价值对齐的扩展, AI 可扩展性对齐协议得到了显著改进,这使得公众对 AI 安全性的信心增强,从而加速 AI 的普及。但社会对 AI 的依赖也日益加深。
2034 年:AI 交互方式已经与人类交流难以区分,即便在那些善于“诱骗” AI 暴露其本质的人面前亦是如此。非人类智能在扩展我们对哲学、宗教以及人类心理学的理解方面的作用,已被提上日程。
2035 年:AI 系统开始展现出真正的自我反思能力,而不仅仅是程式化的模仿或鹦鹉学舌。各领域中,AI 能够从失败中进行计算学习,并优化长期效用函数。关于某种形式的 UBI (全民基本收入)的辩论加剧,各种试验方案被提出以帮助应对因 AI 带来的就业替代问题。
2036 年:AI 的发展已实现跨多个领域的灵活泛化。社会上关于 AGI 是否已经初现端倪的争论愈演愈烈,有人认为 AGI 正在崛起,也有人坚持认为增长遇到了瓶颈,认为这已是 AI 的最佳状态。各国开始对自己的 AI 核心技术趋之若鹜,并设置壁垒以防其他国家窃取或复制早期的 AGI 系统。
2037 年: AI 的进步展现出类似人类的情境适应性和创新能力。新发明和科学发现正由 AI 主导。有人开始质疑,这种准 AGI 是否具备足够的道德推理能力以及与人类目标的对齐水平。
2038 年:AI 系统开始体现持久身份,似乎能够对跨时段的经历进行反思。专家认为我们正处于 AI 实现类似人类认知连贯性的边缘。全球对于 AI 法律人格及其权利的讨论也日益激烈。
2039 年:在 AI 表现出在不同语境中具有创造力、情感细腻度以及抽象推理能力之后,一些对 AI 接近 AGI 的最后质疑被逐步打破。这成为压垮骆驼的最后一根稻草。关于存在性风险以及乌托邦愿景的讨论完全主导了公众的忧虑。
2040 年:普遍达成共识,认为 AGI 已然实现,尽管 AGI 的初期阶段仍存在一些争议。社会进入过渡期:后稀缺经济模式、人类使命的重新定义,以及与 AGI 共同进化的考量。
展望未来时间线
请仔细思考这份“稻草人”时间线,设想在未来十五年的每个阶段,你将处于何种位置,又将从事何种活动。
有一种观点认为,我们只能随波逐流,个人的力量微乎其微。但我并不认同这种观点。我们每个人都可以在 AI 发展的进程中发挥作用,影响 AGI 实现后的轨迹和影响。
正如亚伯拉罕·林肯所言:“预测未来最可靠的方法,就是创造未来。”
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。