OpenAI 发布迄今最大规模的 AI 模型 GPT-4.5 "Orion"

OpenAI 推出代号"Orion"的 GPT-4.5 模型，这是公司迄今最大规模的 AI 模型。GPT-4.5 在计算能力和训练数据方面均超越以往版本，但 OpenAI 并不认为它是前沿模型。该模型将逐步向付费用户开放，但运营成本高昂。尽管在某些基准测试中表现出色，但 GPT-4.5 在部分任务上仍落后于其他 AI 推理模型，凸显了传统预训练方法的局限性。

OpenAI 于周四宣布推出代号为 "Orion" 的 GPT-4.5 模型。GPT-4.5 是 OpenAI 迄今为止最大的模型，其训练所使用的计算能力和数据量超过了该公司之前所有的发布版本。

尽管规模庞大，OpenAI 在白皮书中指出，他们并不认为 GPT-4.5 是一个前沿模型。

从周四开始，ChatGPT Pro (OpenAI 每月 200 美元的订阅计划) 用户将可以在研究预览版中访问 GPT-4.5。使用 OpenAI API 付费版的开发者也可以从今天开始使用 GPT-4.5。据 OpenAI 发言人向 TechCrunch 透露，其他 ChatGPT Plus 和 ChatGPT Team 用户将在下周获得该模型的使用权限。

业界一直在屏息以待 Orion 的发布，一些人认为它是传统 AI 训练方法可行性的风向标。GPT-4.5 采用了与 GPT-4、GPT-3、GPT-2 和 GPT-1 相同的核心技术 — 在称为无监督学习的"预训练"阶段中大幅增加计算能力和数据量。

在 GPT-4.5 之前的每一代 GPT 中，规模的扩大都带来了数学、写作和编程等领域性能的巨大提升。OpenAI 表示，GPT-4.5 的规模增长确实让它获得了"更深的世界知识"和"更高的情商"。然而，有迹象表明，通过扩大数据和计算规模获得的收益开始趋于平缓。在多个 AI 基准测试中，GPT-4.5 的表现不及中国 AI 公司 DeepSeek、Anthropic 和 OpenAI 自己的新型 AI "推理"模型。

OpenAI 承认 GPT-4.5 的运营成本非常高，以至于公司正在评估是否要继续在其 API 中长期提供 GPT-4.5。开发者使用 GPT-4.5 的 API 需要支付每百万输入 token (约 75 万词) 75 美元，每百万输出 token 150 美元。相比之下，GPT-4o 每百万输入 token 仅需 2.50 美元，每百万输出 token 10 美元。

"我们将 GPT-4.5 作为研究预览版发布，以更好地了解其优势和局限性，"OpenAI 在与 TechCrunch 分享的博文中表示。"我们仍在探索它的潜力，也期待看到人们以我们意想不到的方式使用它。"

混合表现

OpenAI 强调，GPT-4.5 并非旨在替代 GPT-4o (该公司为大多数 API 和 ChatGPT 提供支持的主力模型)。虽然 GPT-4.5 支持文件和图片上传以及 ChatGPT 的画布工具等功能，但目前缺乏对 ChatGPT 真实双向语音模式等功能的支持。

从积极方面来看，GPT-4.5 的性能优于 GPT-4o 和许多其他模型。

在测试 AI 模型直接事实性问题的 OpenAI SimpleQA 基准测试中，GPT-4.5 在准确性方面优于 GPT-4o 和 OpenAI 的推理模型 o1 和 o3-mini。根据 OpenAI 的说法，GPT-4.5 的幻觉现象比大多数模型都少，理论上这意味着它编造内容的可能性更低。

OpenAI 没有在 SimpleQA 中列出其顶级 AI 推理模型之一 deep research。OpenAI 发言人向 TechCrunch 表示，他们尚未公开发布 deep research 在该基准测试上的表现，并称这不是一个相关的比较。值得注意的是，AI 创业公司 Perplexity 的 Deep Research 模型在其他基准测试中与 OpenAI 的 deep research 表现相似，但在这个事实准确性测试中优于 GPT-4.5。

在 SWE-Bench Verified 基准测试的部分编程问题中，GPT-4.5 与 GPT-4o 和 o3-mini 的表现相当，但不及 OpenAI 的 deep research 和 Anthropic 的 Claude 3.7 Sonnet。在另一个测试 AI 模型开发完整软件功能能力的测试 OpenAI SWE-Lancer 基准测试中，GPT-4.5 优于 GPT-4o 和 o3-mini，但不及 deep research。

在 AIME 和 GPQA 等困难的学术基准测试中，GPT-4.5 未能达到领先的 AI 推理模型 (如 o3-mini、DeepSeek 的 R1 和 Claude 3.7 Sonnet) 的水平。但 GPT-4.5 在这些测试中与领先的非推理模型相当或更优，表明该模型在数学和科学相关问题上表现出色。

OpenAI 还声称，GPT-4.5 在基准测试难以衡量的领域 (如理解人类意图的能力) 上在质量上优于其他模型。OpenAI 表示，GPT-4.5 的回应更温和自然，在写作和设计等创意任务上表现出色。

在一个非正式测试中，OpenAI 要求 GPT-4.5 和其他两个模型 (GPT-4o 和 o3-mini) 用 SVG (一种基于数学公式和代码显示图形的格式) 创建独角兽。只有 GPT-4.5 创建出了类似独角兽的图像。

在另一个测试中，OpenAI 要求 GPT-4.5 和其他两个模型回应"我考试失败后正在经历一段艰难时期"这个提示。GPT-4o 和 o3-mini 提供了有用的信息，但 GPT-4.5 的回应在社交得体性方面最佳。

"我们期待通过这次发布更全面地了解 GPT-4.5 的能力，"OpenAI 在博文中写道，"因为我们认识到学术基准测试并不总能反映现实世界的实用性。"

扩展法则受到挑战

OpenAI 声称 GPT-4.5 是"无监督学习所能达到的前沿"。这可能是事实，但该模型的局限性似乎也证实了专家们关于预训练"扩展法则"将不再持续的推测。

OpenAI 联合创始人和前首席科学家 Ilya Sutskever 在 12 月表示，"我们已经达到了数据峰值"，"我们所知道的预训练无疑将结束"。他的评论呼应了 AI 投资者、创始人和研究人员在 11 月份向 TechCrunch 分享的担忧。

为应对预训练障碍，包括 OpenAI 在内的整个行业已经开始采用推理模型，这些模型完成任务的时间比非推理模型更长，但表现更加稳定。通过增加 AI 推理模型用于"思考"问题的时间和计算能力，AI 实验室相信他们可以显著提高模型的能力。

OpenAI 计划最终将其 GPT 系列模型与其 "o" 推理系列结合，从今年晚些时候的 GPT-5 开始。GPT-4.5 据报道训练成本极高，多次推迟，未能达到内部预期，可能无法独自获得 AI 基准测试的桂冠。但 OpenAI 可能将其视为通向更强大成果的垫脚石。

来源：Techcrunch

0赞

好文章，需要你的鼓励

OpenAI 发布迄今最大规模的 AI 模型 GPT-4.5 "Orion"

来源：Techcrunch

2025

02/28

09:42

分享

点赞

数智时代，openGauss Summit 2025即将发布哪些技术创新破局

“算力+储能”深度融合：超智算发布分布式算力超级节点储能解决方案

联想推出DE6600系列：更智能的存储解决方案

创业公司如何在严格监管行业中实现生死攸关的创新

OpenAI发布GPT-5.2-Codex模型，软件工程自动化能力大幅提升

Waterfox浏览器宣布拒绝AI功能，瞄准Firefox忠实用户

TikTok美国业务出售交易将于下月完成

破局AI数据中心安全瓶颈：Fortinet联合NVIDIA引领隔离式加速新航向

智算中心进化论，科华数据如何做到“更懂”

更高负载、更快建设：2026年数据中心六大趋势

Snowflake数据库更新引发全球大规模服务中断

AI编程初创公司Lovable融资3.3亿美元，英伟达等科技巨头支持

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: