大语言模型和生成式 AI 技术自诞生以来遭遇的种种问题表明,这可能不是通向智能社会转型的正确路径。从最新推理模型的表现不佳,到 AI 幻觉现象的普遍存在,再到针对前沿模型的版权诉讼,这些都成为了定义这项技术的关键事件。
重新定义智能
2018年,Geoffrey Hinton 在开发深度学习以模仿人类决策时曾表示,监管机构要求 AI 系统解释其决策过程将是"彻底的灾难",因为人类自己也无法完全解释自己的决策过程。他解释说:"人们无法解释自己如何工作,对于他们所做的大部分事情都是如此。当你雇用某人时,决策基于各种无法量化的因素,以及各种直觉感受。人们根本不知道自己是如何做到这一点的。"
纽约大学名誉教授、认知科学家 Gary Marcus 长期以来一直是大语言模型的知名批评者。他在最近的《纽约时报》专栏文章中指出:"GPT-5 虽然是一个进步,但远未达到许多人期望的 AI 革命。这对于在这项技术上下重注的公司和投资者来说是个坏消息。"
Marcus 驳斥了 AI 的目标是复制人类智能的观点,他说:"人类仍然做着机器不能很好完成的许多事情,比如学习新技能和用抽象概念进行推理。我们的思维具有流动性和灵活性,这是 AI 仍然缺乏的。"
30年 AGI 研究资深专家、EraNova Global 创始人 Mounir Shita 开发了基于物理学的通用智能理论。他将智能定义为在物理约束下"引导因果链朝向目标状态"的能力。
系统思维专家 Marc Fawzi 构建了首个面向电信服务提供商的商业化低代码平台。他认为复制人类智能不仅仅是计算问题,并解释了定义 AI 运作的分层系统:第一层是统计层,认知依赖于历史事件;第二层是结构层,识别概念系统内的相似性和约束;第三层是推理层;第四层是目标层,定义偏好、风险和权衡。
数据中心扩张竞赛
Marcus 指出,OpenAI 在介绍 o1 时首次展示的通过扩展推理计算来改善模型性能的图表引起了兴奋,人们相信更多的计算(财务成本和能源使用)会产生更智能的模型。然而,"计算需要呈指数级增长才能保持持续进步",这意味着问题变得难以控制。
麦肯锡最近报告称,到2030年,"全球数据中心预计需要6.7万亿美元来跟上对计算能力的需求。"仅资本支出就预计达到5.2万亿美元。
大语言模型不是答案
据 Shita 说,语言属于 AGI 的核心知识库,但大语言模型不属于。他解释说:"大语言模型被训练来最大化离线文本的下一个Token可能性。它们建模的是关于世界的词汇,而不是这些词汇必须改变的世界。"
Fawzi 同意 Shita 的观点,认为大语言模型本身不是答案。他补充说:"仅有的语言流利性不等于知识。词汇模式不会自动成为世界模式。"
Marcus 总结道:"整个范式基本上是一种增强版的反刍。并非所有需要的内容都在训练集中。当训练集中没有相关内容,或者与训练数据在重要方面存在差异时,这种范式效果不佳。"
替代模型
Marcus 指出了从大语言模型向"传统符号操作设备如代码解释器Python、JavaScript"的转变。他最近写道,Grok和o3意外地证明了神经符号AI的价值。
Shita 坚持认为时间和因果关系对智能也至关重要。目标与我们想要实现的世界未来状态相关联,因此从根本上与时间相关。他解释说:"要改变世界上的任何事物,你必须理解因果关系——因果效应的规律。"
通往AGI的道路有待确定
Gary Marcus 认为,至少目前我们应该放弃AGI,转而专注于解决专门问题的专用机器。他提到了预测蛋白质结构的AlphaFold作为例子。
Mounir Shita 声称计算机是100%确定性的,"给定输入、代码和状态,下一个状态是固定的。自由意志无法从确定性机器中产生。"
目前,随着许多AI研究社区一致认为当前主流的大语言模型技术不是最终答案,时间将证明为确保其未来而进行的大规模投资是否也会失败。
Q&A
Q1:为什么说大语言模型遭遇了瓶颈?
A:大语言模型自诞生以来遭遇了许多问题,包括最新推理模型表现不佳、AI幻觉现象普遍存在、版权诉讼增多等。专家认为仅通过增加数据和计算力已经出现收益递减,GPT-5等模型的表现远未达到预期,证明这可能不是通向真正智能的正确路径。
Q2:什么是真正的智能?如何定义?
A:专家们对智能有不同定义。Mounir Shita将智能定义为在物理约束下"引导因果链朝向目标状态"的能力。Marc Fawzi认为智能需要统计、结构、推理和目标四个层面的协调。Gary Marcus强调人类思维的流动性和灵活性是AI仍然缺乏的,真正的智能不仅仅是复制人类行为。
Q3:有哪些替代大语言模型的技术路径?
A:专家们提出了多种替代方案。Marcus倡导神经符号AI,结合符号操作和代码解释器;Shita强调时间和因果关系的重要性,认为需要动态更新的模型;Fawzi提出需要跨领域和时间的统一世界模型。许多专家建议回到专用机器解决专门问题的方法,如AlphaFold在蛋白质结构预测方面的成功。
好文章,需要你的鼓励
Y Combinator合伙人Ankit Gupta与Anthropic预训练负责人Nick Joseph最近进行了一次深度对话。
土耳其伊斯坦布尔Newmind AI团队开发出首个专门针对土耳其语的AI幻觉检测系统Turk-LettuceDetect,能够逐字识别AI生成内容中的虚假信息。该系统使用三种不同的AI模型,在包含17790个样本的数据集上训练,最佳模型达到72.66%的检测准确率。这项研究填补了土耳其语AI安全检测的空白,为8000万土耳其语使用者提供了更可靠的AI交互体验。
9月13日的PEC 2025 AI创新者大会暨第二届提示工程峰会上,“年度提问二:新工作时代:AI工作流由谁主导?”从企业实践到技术实现、从业务落地到战略决策,展开了一场高密度的思想碰撞与经验分享,将AI工作流背后的难题和解决路径彻底揭开。
法国研究团队开发了"推理核心"训练环境,专门培养AI的基础推理能力。该系统包含18个核心任务,涵盖逻辑推理、规划、因果分析等领域,能无限生成新题目并精确控制难度。与传统依赖固定题库的方法不同,推理核心专注于培养通用认知能力,并使用专业工具验证答案。GPT-5测试显示任务具有挑战性,为AI推理能力发展开辟新路径。