大语言模型和生成式 AI 技术自诞生以来遭遇的种种问题表明,这可能不是通向智能社会转型的正确路径。从最新推理模型的表现不佳,到 AI 幻觉现象的普遍存在,再到针对前沿模型的版权诉讼,这些都成为了定义这项技术的关键事件。
重新定义智能
2018年,Geoffrey Hinton 在开发深度学习以模仿人类决策时曾表示,监管机构要求 AI 系统解释其决策过程将是"彻底的灾难",因为人类自己也无法完全解释自己的决策过程。他解释说:"人们无法解释自己如何工作,对于他们所做的大部分事情都是如此。当你雇用某人时,决策基于各种无法量化的因素,以及各种直觉感受。人们根本不知道自己是如何做到这一点的。"
纽约大学名誉教授、认知科学家 Gary Marcus 长期以来一直是大语言模型的知名批评者。他在最近的《纽约时报》专栏文章中指出:"GPT-5 虽然是一个进步,但远未达到许多人期望的 AI 革命。这对于在这项技术上下重注的公司和投资者来说是个坏消息。"
Marcus 驳斥了 AI 的目标是复制人类智能的观点,他说:"人类仍然做着机器不能很好完成的许多事情,比如学习新技能和用抽象概念进行推理。我们的思维具有流动性和灵活性,这是 AI 仍然缺乏的。"
30年 AGI 研究资深专家、EraNova Global 创始人 Mounir Shita 开发了基于物理学的通用智能理论。他将智能定义为在物理约束下"引导因果链朝向目标状态"的能力。
系统思维专家 Marc Fawzi 构建了首个面向电信服务提供商的商业化低代码平台。他认为复制人类智能不仅仅是计算问题,并解释了定义 AI 运作的分层系统:第一层是统计层,认知依赖于历史事件;第二层是结构层,识别概念系统内的相似性和约束;第三层是推理层;第四层是目标层,定义偏好、风险和权衡。
数据中心扩张竞赛
Marcus 指出,OpenAI 在介绍 o1 时首次展示的通过扩展推理计算来改善模型性能的图表引起了兴奋,人们相信更多的计算(财务成本和能源使用)会产生更智能的模型。然而,"计算需要呈指数级增长才能保持持续进步",这意味着问题变得难以控制。
麦肯锡最近报告称,到2030年,"全球数据中心预计需要6.7万亿美元来跟上对计算能力的需求。"仅资本支出就预计达到5.2万亿美元。
大语言模型不是答案
据 Shita 说,语言属于 AGI 的核心知识库,但大语言模型不属于。他解释说:"大语言模型被训练来最大化离线文本的下一个Token可能性。它们建模的是关于世界的词汇,而不是这些词汇必须改变的世界。"
Fawzi 同意 Shita 的观点,认为大语言模型本身不是答案。他补充说:"仅有的语言流利性不等于知识。词汇模式不会自动成为世界模式。"
Marcus 总结道:"整个范式基本上是一种增强版的反刍。并非所有需要的内容都在训练集中。当训练集中没有相关内容,或者与训练数据在重要方面存在差异时,这种范式效果不佳。"
替代模型
Marcus 指出了从大语言模型向"传统符号操作设备如代码解释器Python、JavaScript"的转变。他最近写道,Grok和o3意外地证明了神经符号AI的价值。
Shita 坚持认为时间和因果关系对智能也至关重要。目标与我们想要实现的世界未来状态相关联,因此从根本上与时间相关。他解释说:"要改变世界上的任何事物,你必须理解因果关系——因果效应的规律。"
通往AGI的道路有待确定
Gary Marcus 认为,至少目前我们应该放弃AGI,转而专注于解决专门问题的专用机器。他提到了预测蛋白质结构的AlphaFold作为例子。
Mounir Shita 声称计算机是100%确定性的,"给定输入、代码和状态,下一个状态是固定的。自由意志无法从确定性机器中产生。"
目前,随着许多AI研究社区一致认为当前主流的大语言模型技术不是最终答案,时间将证明为确保其未来而进行的大规模投资是否也会失败。
Q&A
Q1:为什么说大语言模型遭遇了瓶颈?
A:大语言模型自诞生以来遭遇了许多问题,包括最新推理模型表现不佳、AI幻觉现象普遍存在、版权诉讼增多等。专家认为仅通过增加数据和计算力已经出现收益递减,GPT-5等模型的表现远未达到预期,证明这可能不是通向真正智能的正确路径。
Q2:什么是真正的智能?如何定义?
A:专家们对智能有不同定义。Mounir Shita将智能定义为在物理约束下"引导因果链朝向目标状态"的能力。Marc Fawzi认为智能需要统计、结构、推理和目标四个层面的协调。Gary Marcus强调人类思维的流动性和灵活性是AI仍然缺乏的,真正的智能不仅仅是复制人类行为。
Q3:有哪些替代大语言模型的技术路径?
A:专家们提出了多种替代方案。Marcus倡导神经符号AI,结合符号操作和代码解释器;Shita强调时间和因果关系的重要性,认为需要动态更新的模型;Fawzi提出需要跨领域和时间的统一世界模型。许多专家建议回到专用机器解决专门问题的方法,如AlphaFold在蛋白质结构预测方面的成功。
好文章,需要你的鼓励
随着5G流量快速增长和新用例不断涌现,网络运营商需要在最小化环境影响的同时管理密集网络使用。Orange法国与爱立信合作开展创新试验,测试FDD大规模MIMO天线集成无线电,优化高流量区域频谱使用。双方还探索Cloud RAN和Open RAN架构,通过虚拟化RAN功能实现灵活的软件中心网络。合作重点关注利用AI驱动的自动化和意图驱动技术提升能源效率,在不影响性能的前提下动态调整网络资源以降低能耗。
谷歌DeepMind等顶级机构联合研究揭示,当前12种主流AI安全防护系统在面对专业自适应攻击时几乎全部失效,成功率超过90%。研究团队通过强化学习、搜索算法和人类红队攻击等多种方法,系统性地突破了包括提示工程、对抗训练、输入过滤和秘密检测在内的各类防护技术,暴露了AI安全评估的根本缺陷。
微软正在将Windows 11改造为"智能代理操作系统",在任务栏中集成AI代理功能。新功能允许AI代理在后台执行任务,用户可通过任务栏图标查看进度状态。微软还在文件资源管理器中集成Copilot,提供文档摘要、文件问答等功能。此外,Click to Do功能得到改进,可将网页表格转换为Excel文档。这些AI功能采用本地AI和云端AI混合模式,为用户提供更智能的操作体验。
西蒙弗雷泽大学和Adobe研究院联合开发的MultiCOIN技术,能够将两张静态图片转换为高质量的过渡视频。该技术支持轨迹、深度、文本和区域四种控制方式,可单独或组合使用。采用双分支架构和分阶段训练策略,在运动控制精度上比现有技术提升53%以上,为视频制作提供了前所未有的灵活性和精确度。