OpenAI 于周四宣布推出代号为 "Orion" 的 GPT-4.5 模型。GPT-4.5 是 OpenAI 迄今为止最大的模型,其训练所使用的计算能力和数据量超过了该公司之前所有的发布版本。
尽管规模庞大,OpenAI 在白皮书中指出,他们并不认为 GPT-4.5 是一个前沿模型。
从周四开始,ChatGPT Pro (OpenAI 每月 200 美元的订阅计划) 用户将可以在研究预览版中访问 GPT-4.5。使用 OpenAI API 付费版的开发者也可以从今天开始使用 GPT-4.5。据 OpenAI 发言人向 TechCrunch 透露,其他 ChatGPT Plus 和 ChatGPT Team 用户将在下周获得该模型的使用权限。
业界一直在屏息以待 Orion 的发布,一些人认为它是传统 AI 训练方法可行性的风向标。GPT-4.5 采用了与 GPT-4、GPT-3、GPT-2 和 GPT-1 相同的核心技术 — 在称为无监督学习的"预训练"阶段中大幅增加计算能力和数据量。
在 GPT-4.5 之前的每一代 GPT 中,规模的扩大都带来了数学、写作和编程等领域性能的巨大提升。OpenAI 表示,GPT-4.5 的规模增长确实让它获得了"更深的世界知识"和"更高的情商"。然而,有迹象表明,通过扩大数据和计算规模获得的收益开始趋于平缓。在多个 AI 基准测试中,GPT-4.5 的表现不及中国 AI 公司 DeepSeek、Anthropic 和 OpenAI 自己的新型 AI "推理"模型。
OpenAI 承认 GPT-4.5 的运营成本非常高,以至于公司正在评估是否要继续在其 API 中长期提供 GPT-4.5。开发者使用 GPT-4.5 的 API 需要支付每百万输入 token (约 75 万词) 75 美元,每百万输出 token 150 美元。相比之下,GPT-4o 每百万输入 token 仅需 2.50 美元,每百万输出 token 10 美元。
"我们将 GPT-4.5 作为研究预览版发布,以更好地了解其优势和局限性,"OpenAI 在与 TechCrunch 分享的博文中表示。"我们仍在探索它的潜力,也期待看到人们以我们意想不到的方式使用它。"
混合表现
OpenAI 强调,GPT-4.5 并非旨在替代 GPT-4o (该公司为大多数 API 和 ChatGPT 提供支持的主力模型)。虽然 GPT-4.5 支持文件和图片上传以及 ChatGPT 的画布工具等功能,但目前缺乏对 ChatGPT 真实双向语音模式等功能的支持。
从积极方面来看,GPT-4.5 的性能优于 GPT-4o 和许多其他模型。
在测试 AI 模型直接事实性问题的 OpenAI SimpleQA 基准测试中,GPT-4.5 在准确性方面优于 GPT-4o 和 OpenAI 的推理模型 o1 和 o3-mini。根据 OpenAI 的说法,GPT-4.5 的幻觉现象比大多数模型都少,理论上这意味着它编造内容的可能性更低。
OpenAI 没有在 SimpleQA 中列出其顶级 AI 推理模型之一 deep research。OpenAI 发言人向 TechCrunch 表示,他们尚未公开发布 deep research 在该基准测试上的表现,并称这不是一个相关的比较。值得注意的是,AI 创业公司 Perplexity 的 Deep Research 模型在其他基准测试中与 OpenAI 的 deep research 表现相似,但在这个事实准确性测试中优于 GPT-4.5。
在 SWE-Bench Verified 基准测试的部分编程问题中,GPT-4.5 与 GPT-4o 和 o3-mini 的表现相当,但不及 OpenAI 的 deep research 和 Anthropic 的 Claude 3.7 Sonnet。在另一个测试 AI 模型开发完整软件功能能力的测试 OpenAI SWE-Lancer 基准测试中,GPT-4.5 优于 GPT-4o 和 o3-mini,但不及 deep research。
在 AIME 和 GPQA 等困难的学术基准测试中,GPT-4.5 未能达到领先的 AI 推理模型 (如 o3-mini、DeepSeek 的 R1 和 Claude 3.7 Sonnet) 的水平。但 GPT-4.5 在这些测试中与领先的非推理模型相当或更优,表明该模型在数学和科学相关问题上表现出色。
OpenAI 还声称,GPT-4.5 在基准测试难以衡量的领域 (如理解人类意图的能力) 上在质量上优于其他模型。OpenAI 表示,GPT-4.5 的回应更温和自然,在写作和设计等创意任务上表现出色。
在一个非正式测试中,OpenAI 要求 GPT-4.5 和其他两个模型 (GPT-4o 和 o3-mini) 用 SVG (一种基于数学公式和代码显示图形的格式) 创建独角兽。只有 GPT-4.5 创建出了类似独角兽的图像。
在另一个测试中,OpenAI 要求 GPT-4.5 和其他两个模型回应"我考试失败后正在经历一段艰难时期"这个提示。GPT-4o 和 o3-mini 提供了有用的信息,但 GPT-4.5 的回应在社交得体性方面最佳。
"我们期待通过这次发布更全面地了解 GPT-4.5 的能力,"OpenAI 在博文中写道,"因为我们认识到学术基准测试并不总能反映现实世界的实用性。"
扩展法则受到挑战
OpenAI 声称 GPT-4.5 是"无监督学习所能达到的前沿"。这可能是事实,但该模型的局限性似乎也证实了专家们关于预训练"扩展法则"将不再持续的推测。
OpenAI 联合创始人和前首席科学家 Ilya Sutskever 在 12 月表示,"我们已经达到了数据峰值","我们所知道的预训练无疑将结束"。他的评论呼应了 AI 投资者、创始人和研究人员在 11 月份向 TechCrunch 分享的担忧。
为应对预训练障碍,包括 OpenAI 在内的整个行业已经开始采用推理模型,这些模型完成任务的时间比非推理模型更长,但表现更加稳定。通过增加 AI 推理模型用于"思考"问题的时间和计算能力,AI 实验室相信他们可以显著提高模型的能力。
OpenAI 计划最终将其 GPT 系列模型与其 "o" 推理系列结合,从今年晚些时候的 GPT-5 开始。GPT-4.5 据报道训练成本极高,多次推迟,未能达到内部预期,可能无法独自获得 AI 基准测试的桂冠。但 OpenAI 可能将其视为通向更强大成果的垫脚石。
好文章,需要你的鼓励
Just Move In 是一家英国初创公司,专注于家庭服务设置,最近获得了由 Eos Ventures 领投的 800 万美元 A 轮融资。该公司旨在简化家庭搬迁过程中的各种服务连接,预计到 2025 年将处理超过 40 万次搬迁。通过整合多项服务,Just Move In 为用户提供了一个便捷的管理平台,节省了大量时间,并且该服务是免费的。
Taktile 是一家创新型初创公司,致力于简化金融决策逻辑的修改过程。该平台允许金融科技公司的风险和工程团队创建和管理自动化决策工作流,用户可以进行数据集成实验、监控预测模型性能,并执行 A/B 测试。Taktile 的客户群不断扩大,最近完成了 5400 万美元的 B 轮融资,将用于产品开发和企业销售团队建设。
安全研究人员警告称,即使数据在互联网上暴露的时间很短,仍可能在像 Microsoft Copilot 这样的在线生成 AI 聊天机器人中长期存在。