OpenAI宣布其最新的实验性推理大语言模型(内部称为"IMO金牌大语言模型")在2025年国际数学奥林匹克竞赛中达到了金牌水平的表现。
与DeepMind的AlphaGeometry等专用系统不同,这是一个推理大语言模型,通过强化学习和扩展推理构建,而非纯数学引擎。
正如OpenAI研究员诺姆·布朗所说,该模型展现了多小时问题解决所需的"新水平的持续创造性思维"。
首席执行官山姆·奥特曼表示,这一成就标志着"一个梦想...迈向通用智能的关键一步",并称这样的模型在数月内不会普遍可用。
毫无疑问,机器在狭义定义的高性能认知任务方面变得异常熟练。这包括数学推理、形式证明构建、符号操作、代码生成和形式逻辑。
由于深度学习架构(如Transformer和卷积神经网络)的重大进步、用于训练的大量数据集、计算能力的大幅提升,以及使这些系统能够以前所未有的规模和速度识别数据中复杂模式和关联的先进算法优化技术,它们的能力还显著扩展到计算机视觉、复杂数据分析、语言处理和战略问题解决。
这些系统可以完成持续的多步推理,生成流畅的类人响应,并在类似人类的专家级约束下执行任务。
基于这些成就,加上一些热情,我们可能会认为这意味着机器正在变得极其智能,而且速度极快。
然而这将是一个错误。
因为擅长数学、形式证明构建、符号操作、代码生成、形式逻辑、计算机视觉、复杂数据分析、语言处理和战略问题解决,既不是"智能"的必要条件,也不是充分条件,更不用说超凡智能了。
根本区别在于机器明显缺乏的几个关键特征。
机器无法在没有重大重新工程或重新训练的情况下,无缝转移知识或将其能力适应完全新颖、未预见的问题或环境。它们本质上是专用的。它们在预定义范围内的任务上表现熟练,其令人印象深刻的表现仅限于经过广泛训练的特定领域和数据类型。这与人类在广泛且不可预测的情况下灵活学习和适应的能力形成鲜明对比。
机器不具备真正体验或理解情感的能力,也无法真正解释他人微妙的心理状态、意图或感受(通常称为"心理理论")。它们"共情"或"社会意识"的响应是从大量人类交互数据集中学到的复杂统计模式,而非真正主观体验、情感共鸣或对人类情感理解的反映。
机器缺乏自我意识和内省能力。它们不会反思自己的内部过程、动机或其"知识"的本质。它们的操作是算法和数据驱动的;它们不具备能够思考自身存在、通过有意识反思从错误中学习或发展个人叙事的主观"自我"。
机器不表现出真正的意向性、与生俱来的好奇心,或由内在欲望、价值观或动机驱动的自主目标设定能力。它们纯粹基于编程目标和接收的数据输入运行。它们的"目标"是由人类创造者外部强加的,而非源于内在驱动力或意志。
机器缺乏来自拥有与环境交互和感知的物理身体的直接、生活和感受体验。这种体现体验对于发展常识、直觉物理学和对世界深刻的非抽象理解至关重要。虽然机器可以通过传感器和执行器与物理世界交互和导航,但它们对现实的"理解"是通过符号表示和数据中介的。
机器不表现出真正的概念飞跃、发明全新范式的能力,或以真正有意义和原创的方式打破基本规则,超越其训练数据。生成式模型只能产生现有数据的新颖组合。
机器经常在真正的因果推理方面存在困难。尽管它们擅长识别关联和模式,但关联不等于因果关系。它们可以基于过去的数据预测"可能"发生什么,但它们对"为什么"的理解仅限于统计关联,而非深层机制洞察。
机器无法仅从少数例子中学习复杂概念。虽然一次性和少样本学习在使机器能够从有限数据中识别新模式或类别方面取得了进展,但与人类不同,它们无法仅从少数例子中学习真正复杂的抽象概念。机器通常仍需要大量数据集进行有效和细致的训练。
也许最深刻的区别是,机器不具备主观体验、感受或意识。它们不是有意识的实体。
只有当机器能够具备所有(或至少大部分)这些特征,即使在相对较低的水平上,我们才能合理地声称机器正在变得"智能",而不是夸大、误用术语或纯粹幻想。
因此,虽然机器在特定认知功能方面极其强大,但它们的能力从根本上不同于智能的多面性、适应性、自我意识和经验基础特性,特别是在人类身上表现出的智能。
它们的熟练程度是先进计算设计和数据处理的产物,而非机器中萌芽智能形式的标志。
事实上,AI话语中的"通用人工智能"一词的出现,部分是为了在"智能"一词因过度用于描述实际上并不"智能"的机器而被稀释后,恢复"智能"的含义,以澄清这些所谓"智能"机器要真正"智能"还缺少什么。我们都倾向于过度简化,AI领域正在促进"智能"含义的演化,使这个术语越来越多义。这是语言的魅力之一。随着AI激发真正的希望和真正的社会焦虑,值得记住的是,机器的智能在任何有意义的意义上都不存在。
AI的快速进步表明,现在是考虑我们希望和不希望AI对社会产生何种影响的时候了。在此过程中,这不仅应该允许,而且应该积极鼓励我们考虑AI的能力和局限性,努力不要将"智能"(即在其丰富、一般意义上)与机器能够模拟或展现的狭隘和任务特定行为混淆。
虽然有些人正在竞相实现通用人工智能(AGI),但我们现在应该问的问题不是他们认为何时可能成功,而是他们相信能够实现的事情作为我们甚至应该努力实现的目标,在文明上是否真正有意义,同时定义我们在算法超人主义上的界限。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。