GPT-4.5 企业版：其准确性和知识储备是否值得高昂成本？

OpenAI推出的GPT-4.5企业版引发了争议，其高昂价格让许多人质疑其性价比。然而，作为OpenAI最大且最强大的非推理模型，GPT-4.5在知识储备、文档处理、任务规划等方面表现出色。尽管成本高昂，但随着推理成本的下降和未来潜在的强化学习训练，GPT-4.5仍有望成为企业应用的有力工具。

OpenAI 发布的 GPT-4.5 让许多人感到失望，主要原因在于其过高的价格（比 Claude 3.7 Sonnet 贵 10-20 倍，比 GPT-4o 贵 15-30 倍）。

然而，考虑到这是 OpenAI 最大且最强大的非推理模型，我们有必要研究其优势和擅长领域。

更好的知识储备和对齐能力

虽然关于模型架构和训练语料库的细节信息较少，但据估计其训练算力是此前的 10 倍。模型规模之大，以至于 OpenAI 不得不将训练任务分散到多个数据中心才能在合理时间内完成。

更大的模型在获取世界知识和理解人类语言细微差别方面具有更强的能力（前提是有高质量的训练数据）。这一点在 OpenAI 团队提供的一些指标中得到了证实。例如，GPT-4.5 在评估 AI 模型幻觉的 PersonQA 基准测试中创下了新高。

实践实验也表明，GPT-4.5 在保持事实准确性和遵循用户指令方面优于其他通用模型。

用户指出，GPT-4.5 的回应比之前的模型更自然，更具上下文意识。它在遵循语气和风格指导方面的能力也有所提升。

GPT-4.5 发布后，曾获得模型早期使用权的 AI 科学家、OpenAI 联合创始人 Andrej Karpathy 表示："我预计在不需要太多推理能力的任务中会看到改进，这些任务更多与情商 (EQ) 相关（而非智商 IQ），比如世界知识、创造力、类比能力、普遍理解力、幽默感等。"

然而，评估写作质量是非常主观的。在 Karpathy 进行的一项关于不同提示的调查中，大多数人更倾向于 GPT-4o 的回应。他在 X 上写道："要么是高品味测试者注意到了新的独特结构，但低品味的人主导了投票结果；要么我们产生了错觉；要么这些例子不够好；要么实际差距很小而样本量太少；或者以上都是。"

更优秀的文档处理能力

Box 公司已将 GPT-4.5 整合到其 Box AI Studio 产品中。在实验中，他们写道："GPT-4.5 特别适合企业用例，因为企业场景下准确性和完整性至关重要...我们的测试表明，GPT-4.5 是目前最优秀的模型之一，无论是从评估分数还是处理我们遇到的最难 AI 问题的能力来看都是如此。"

在内部评估中，Box 发现 GPT-4.5 在企业文档问答任务上更为准确——在他们的测试集上比原始 GPT-4 高出约 4 个百分点。

Box 的测试还表明，GPT-4.5 在处理商业文档中的数学问题方面表现出色，这是早期 GPT 模型常常难以应对的。例如，它在回答需要数据推理和计算的财务文档问题时表现更好。

GPT-4.5 在从非结构化数据中提取信息方面也有所改进。在一项涉及从数百份法律文档中提取字段的测试中，GPT-4.5 比 GPT-4o 的准确率高出 19%。

规划、编码、评估结果

凭借其改进的世界知识，GPT-4.5 也可以成为为复杂任务创建高层次计划的合适模型。分解后的步骤可以交给较小但更高效的模型来详细制定和执行。

根据 Constellation Research 的说法："在初步测试中，GPT-4.5 似乎在代理规划和执行方面表现出强大的能力，包括多步骤编码工作流程和复杂任务自动化。"

GPT-4.5 在需要内部和上下文知识的编码任务中也很有用。GitHub 现在在其 Copilot 编码助手中提供对该模型的有限访问，并指出 GPT-4.5"在处理创造性提示方面表现出色，并能对晦涩的知识查询提供可靠的回答。"

鉴于其更深入的世界知识，GPT-4.5 也适合"LLM 作为评判者"的任务，即由强大的模型评估较小模型的输出。例如，像 GPT-4o 或 o3 这样的模型可以生成一个或多个响应，对解决方案进行推理，然后将最终答案传递给 GPT-4.5 进行修改和完善。

是否值得这个价格？

考虑到 GPT-4.5 巨大的成本，很难为许多用例提供合理性。但这种情况可能不会一直持续。近年来我们看到的一个持续趋势是推理成本的大幅下降，如果这个趋势也适用于 GPT-4.5，那么值得对其进行实验并找到在企业应用中利用其能力的方法。

同样值得注意的是，这个新模型可能成为未来推理模型的基础。据 Karpathy 所说："请记住，GPT-4.5 仅通过预训练、监督微调和 RLHF (来自人类反馈的强化学习) 进行训练，所以这还不是一个推理模型。因此，这个模型的发布并没有在推理至关重要的领域（数学、编程等）推进模型能力...可以预见，OpenAI 现在将寻求在 GPT-4.5 模型之上进行强化学习训练，使其具备思考能力，并在这些领域推进模型能力。"

来源：VentureBeat

0赞

好文章，需要你的鼓励

GPT-4.5 企业版：其准确性和知识储备是否值得高昂成本？

来源：VentureBeat

2025

03/03

17:49

分享

点赞

西子洁能加快美国燃机余热锅炉订单，24年NE技术合作接住数据中心供电需求

印度罚款惠普14亿卢比：墨盒、碳粉与PC"串谋"价格操纵

可口可乐旗下Fairlife乳品公司遭勒索软件攻击，被迫停产

从上海到世界：WAICA正以“AI原生”范式重写顶会规则

从主机节点到异构机架：重新思考AI CPU

苹果在印度恢复银行卡支付功能，距暂停已逾四年

Bookshop.org确认今年将推出Kobo电子书阅读器支持

WeWard新增"步行模式"：走够步数才能解锁应用

X将通过私信通知用户其互动帖子被社区笔记纠错

"慢社交"应用Roost：让消息像真鸟一样飞行

Truecaller与印度电信监管机构就反垃圾电话规则展开公开交锋

Block与46州达成4500万美元和解，涉Cash App欺诈纠纷

AI 时代的数据中心：未来十年规划展望

AI 编程助手拒绝写代码，建议用户自学编程

超越 ChatGPT：通往通用人工智能的 5 大挑战

Oracle 在 AI 主流化方面具有重大优势

Snap 推出基于自研生成模型的 AI 视频滤镜

Google 的 Gemma 3：一款支持 128K 上下文窗口的开源单 GPU AI 模型

精灵宝可梦 GO 迎来新东家，而 Niantic 正借助 AI 和 AR 重塑地图业务

Google 的 Gemini 2.0 Flash 原生多模态 AI 图像生成功能给人留下深刻印象

Google 推出两款全新 AI 机器人控制模型

Nvidia 赢得了 AI 训练竞赛，但推理市场仍未尘埃落定

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: