OpenAI 于周四宣布推出代号为 "Orion" 的 GPT-4.5 模型。GPT-4.5 是 OpenAI 迄今为止最大的模型,其训练所使用的计算能力和数据量超过了该公司之前所有的发布版本。
尽管规模庞大,OpenAI 在白皮书中指出,他们并不认为 GPT-4.5 是一个前沿模型。
从周四开始,ChatGPT Pro (OpenAI 每月 200 美元的订阅计划) 用户将可以在研究预览版中访问 GPT-4.5。使用 OpenAI API 付费版的开发者也可以从今天开始使用 GPT-4.5。据 OpenAI 发言人向 TechCrunch 透露,其他 ChatGPT Plus 和 ChatGPT Team 用户将在下周获得该模型的使用权限。
业界一直在屏息以待 Orion 的发布,一些人认为它是传统 AI 训练方法可行性的风向标。GPT-4.5 采用了与 GPT-4、GPT-3、GPT-2 和 GPT-1 相同的核心技术 — 在称为无监督学习的"预训练"阶段中大幅增加计算能力和数据量。
在 GPT-4.5 之前的每一代 GPT 中,规模的扩大都带来了数学、写作和编程等领域性能的巨大提升。OpenAI 表示,GPT-4.5 的规模增长确实让它获得了"更深的世界知识"和"更高的情商"。然而,有迹象表明,通过扩大数据和计算规模获得的收益开始趋于平缓。在多个 AI 基准测试中,GPT-4.5 的表现不及中国 AI 公司 DeepSeek、Anthropic 和 OpenAI 自己的新型 AI "推理"模型。
OpenAI 承认 GPT-4.5 的运营成本非常高,以至于公司正在评估是否要继续在其 API 中长期提供 GPT-4.5。开发者使用 GPT-4.5 的 API 需要支付每百万输入 token (约 75 万词) 75 美元,每百万输出 token 150 美元。相比之下,GPT-4o 每百万输入 token 仅需 2.50 美元,每百万输出 token 10 美元。
"我们将 GPT-4.5 作为研究预览版发布,以更好地了解其优势和局限性,"OpenAI 在与 TechCrunch 分享的博文中表示。"我们仍在探索它的潜力,也期待看到人们以我们意想不到的方式使用它。"
混合表现
OpenAI 强调,GPT-4.5 并非旨在替代 GPT-4o (该公司为大多数 API 和 ChatGPT 提供支持的主力模型)。虽然 GPT-4.5 支持文件和图片上传以及 ChatGPT 的画布工具等功能,但目前缺乏对 ChatGPT 真实双向语音模式等功能的支持。
从积极方面来看,GPT-4.5 的性能优于 GPT-4o 和许多其他模型。
在测试 AI 模型直接事实性问题的 OpenAI SimpleQA 基准测试中,GPT-4.5 在准确性方面优于 GPT-4o 和 OpenAI 的推理模型 o1 和 o3-mini。根据 OpenAI 的说法,GPT-4.5 的幻觉现象比大多数模型都少,理论上这意味着它编造内容的可能性更低。
OpenAI 没有在 SimpleQA 中列出其顶级 AI 推理模型之一 deep research。OpenAI 发言人向 TechCrunch 表示,他们尚未公开发布 deep research 在该基准测试上的表现,并称这不是一个相关的比较。值得注意的是,AI 创业公司 Perplexity 的 Deep Research 模型在其他基准测试中与 OpenAI 的 deep research 表现相似,但在这个事实准确性测试中优于 GPT-4.5。
在 SWE-Bench Verified 基准测试的部分编程问题中,GPT-4.5 与 GPT-4o 和 o3-mini 的表现相当,但不及 OpenAI 的 deep research 和 Anthropic 的 Claude 3.7 Sonnet。在另一个测试 AI 模型开发完整软件功能能力的测试 OpenAI SWE-Lancer 基准测试中,GPT-4.5 优于 GPT-4o 和 o3-mini,但不及 deep research。
在 AIME 和 GPQA 等困难的学术基准测试中,GPT-4.5 未能达到领先的 AI 推理模型 (如 o3-mini、DeepSeek 的 R1 和 Claude 3.7 Sonnet) 的水平。但 GPT-4.5 在这些测试中与领先的非推理模型相当或更优,表明该模型在数学和科学相关问题上表现出色。
OpenAI 还声称,GPT-4.5 在基准测试难以衡量的领域 (如理解人类意图的能力) 上在质量上优于其他模型。OpenAI 表示,GPT-4.5 的回应更温和自然,在写作和设计等创意任务上表现出色。
在一个非正式测试中,OpenAI 要求 GPT-4.5 和其他两个模型 (GPT-4o 和 o3-mini) 用 SVG (一种基于数学公式和代码显示图形的格式) 创建独角兽。只有 GPT-4.5 创建出了类似独角兽的图像。
在另一个测试中,OpenAI 要求 GPT-4.5 和其他两个模型回应"我考试失败后正在经历一段艰难时期"这个提示。GPT-4o 和 o3-mini 提供了有用的信息,但 GPT-4.5 的回应在社交得体性方面最佳。
"我们期待通过这次发布更全面地了解 GPT-4.5 的能力,"OpenAI 在博文中写道,"因为我们认识到学术基准测试并不总能反映现实世界的实用性。"
扩展法则受到挑战
OpenAI 声称 GPT-4.5 是"无监督学习所能达到的前沿"。这可能是事实,但该模型的局限性似乎也证实了专家们关于预训练"扩展法则"将不再持续的推测。
OpenAI 联合创始人和前首席科学家 Ilya Sutskever 在 12 月表示,"我们已经达到了数据峰值","我们所知道的预训练无疑将结束"。他的评论呼应了 AI 投资者、创始人和研究人员在 11 月份向 TechCrunch 分享的担忧。
为应对预训练障碍,包括 OpenAI 在内的整个行业已经开始采用推理模型,这些模型完成任务的时间比非推理模型更长,但表现更加稳定。通过增加 AI 推理模型用于"思考"问题的时间和计算能力,AI 实验室相信他们可以显著提高模型的能力。
OpenAI 计划最终将其 GPT 系列模型与其 "o" 推理系列结合,从今年晚些时候的 GPT-5 开始。GPT-4.5 据报道训练成本极高,多次推迟,未能达到内部预期,可能无法独自获得 AI 基准测试的桂冠。但 OpenAI 可能将其视为通向更强大成果的垫脚石。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。