OpenAI 于周四宣布推出代号为 "Orion" 的 GPT-4.5 模型。GPT-4.5 是 OpenAI 迄今为止最大的模型,其训练所使用的计算能力和数据量超过了该公司之前所有的发布版本。
尽管规模庞大,OpenAI 在白皮书中指出,他们并不认为 GPT-4.5 是一个前沿模型。
从周四开始,ChatGPT Pro (OpenAI 每月 200 美元的订阅计划) 用户将可以在研究预览版中访问 GPT-4.5。使用 OpenAI API 付费版的开发者也可以从今天开始使用 GPT-4.5。据 OpenAI 发言人向 TechCrunch 透露,其他 ChatGPT Plus 和 ChatGPT Team 用户将在下周获得该模型的使用权限。
业界一直在屏息以待 Orion 的发布,一些人认为它是传统 AI 训练方法可行性的风向标。GPT-4.5 采用了与 GPT-4、GPT-3、GPT-2 和 GPT-1 相同的核心技术 — 在称为无监督学习的"预训练"阶段中大幅增加计算能力和数据量。
在 GPT-4.5 之前的每一代 GPT 中,规模的扩大都带来了数学、写作和编程等领域性能的巨大提升。OpenAI 表示,GPT-4.5 的规模增长确实让它获得了"更深的世界知识"和"更高的情商"。然而,有迹象表明,通过扩大数据和计算规模获得的收益开始趋于平缓。在多个 AI 基准测试中,GPT-4.5 的表现不及中国 AI 公司 DeepSeek、Anthropic 和 OpenAI 自己的新型 AI "推理"模型。
OpenAI 承认 GPT-4.5 的运营成本非常高,以至于公司正在评估是否要继续在其 API 中长期提供 GPT-4.5。开发者使用 GPT-4.5 的 API 需要支付每百万输入 token (约 75 万词) 75 美元,每百万输出 token 150 美元。相比之下,GPT-4o 每百万输入 token 仅需 2.50 美元,每百万输出 token 10 美元。
"我们将 GPT-4.5 作为研究预览版发布,以更好地了解其优势和局限性,"OpenAI 在与 TechCrunch 分享的博文中表示。"我们仍在探索它的潜力,也期待看到人们以我们意想不到的方式使用它。"
混合表现
OpenAI 强调,GPT-4.5 并非旨在替代 GPT-4o (该公司为大多数 API 和 ChatGPT 提供支持的主力模型)。虽然 GPT-4.5 支持文件和图片上传以及 ChatGPT 的画布工具等功能,但目前缺乏对 ChatGPT 真实双向语音模式等功能的支持。
从积极方面来看,GPT-4.5 的性能优于 GPT-4o 和许多其他模型。
在测试 AI 模型直接事实性问题的 OpenAI SimpleQA 基准测试中,GPT-4.5 在准确性方面优于 GPT-4o 和 OpenAI 的推理模型 o1 和 o3-mini。根据 OpenAI 的说法,GPT-4.5 的幻觉现象比大多数模型都少,理论上这意味着它编造内容的可能性更低。
OpenAI 没有在 SimpleQA 中列出其顶级 AI 推理模型之一 deep research。OpenAI 发言人向 TechCrunch 表示,他们尚未公开发布 deep research 在该基准测试上的表现,并称这不是一个相关的比较。值得注意的是,AI 创业公司 Perplexity 的 Deep Research 模型在其他基准测试中与 OpenAI 的 deep research 表现相似,但在这个事实准确性测试中优于 GPT-4.5。
在 SWE-Bench Verified 基准测试的部分编程问题中,GPT-4.5 与 GPT-4o 和 o3-mini 的表现相当,但不及 OpenAI 的 deep research 和 Anthropic 的 Claude 3.7 Sonnet。在另一个测试 AI 模型开发完整软件功能能力的测试 OpenAI SWE-Lancer 基准测试中,GPT-4.5 优于 GPT-4o 和 o3-mini,但不及 deep research。
在 AIME 和 GPQA 等困难的学术基准测试中,GPT-4.5 未能达到领先的 AI 推理模型 (如 o3-mini、DeepSeek 的 R1 和 Claude 3.7 Sonnet) 的水平。但 GPT-4.5 在这些测试中与领先的非推理模型相当或更优,表明该模型在数学和科学相关问题上表现出色。
OpenAI 还声称,GPT-4.5 在基准测试难以衡量的领域 (如理解人类意图的能力) 上在质量上优于其他模型。OpenAI 表示,GPT-4.5 的回应更温和自然,在写作和设计等创意任务上表现出色。
在一个非正式测试中,OpenAI 要求 GPT-4.5 和其他两个模型 (GPT-4o 和 o3-mini) 用 SVG (一种基于数学公式和代码显示图形的格式) 创建独角兽。只有 GPT-4.5 创建出了类似独角兽的图像。
在另一个测试中,OpenAI 要求 GPT-4.5 和其他两个模型回应"我考试失败后正在经历一段艰难时期"这个提示。GPT-4o 和 o3-mini 提供了有用的信息,但 GPT-4.5 的回应在社交得体性方面最佳。
"我们期待通过这次发布更全面地了解 GPT-4.5 的能力,"OpenAI 在博文中写道,"因为我们认识到学术基准测试并不总能反映现实世界的实用性。"
扩展法则受到挑战
OpenAI 声称 GPT-4.5 是"无监督学习所能达到的前沿"。这可能是事实,但该模型的局限性似乎也证实了专家们关于预训练"扩展法则"将不再持续的推测。
OpenAI 联合创始人和前首席科学家 Ilya Sutskever 在 12 月表示,"我们已经达到了数据峰值","我们所知道的预训练无疑将结束"。他的评论呼应了 AI 投资者、创始人和研究人员在 11 月份向 TechCrunch 分享的担忧。
为应对预训练障碍,包括 OpenAI 在内的整个行业已经开始采用推理模型,这些模型完成任务的时间比非推理模型更长,但表现更加稳定。通过增加 AI 推理模型用于"思考"问题的时间和计算能力,AI 实验室相信他们可以显著提高模型的能力。
OpenAI 计划最终将其 GPT 系列模型与其 "o" 推理系列结合,从今年晚些时候的 GPT-5 开始。GPT-4.5 据报道训练成本极高,多次推迟,未能达到内部预期,可能无法独自获得 AI 基准测试的桂冠。但 OpenAI 可能将其视为通向更强大成果的垫脚石。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。