OpenAI 发布的 GPT-4.5 让许多人感到失望,主要原因在于其过高的价格(比 Claude 3.7 Sonnet 贵 10-20 倍,比 GPT-4o 贵 15-30 倍)。
然而,考虑到这是 OpenAI 最大且最强大的非推理模型,我们有必要研究其优势和擅长领域。
更好的知识储备和对齐能力
虽然关于模型架构和训练语料库的细节信息较少,但据估计其训练算力是此前的 10 倍。模型规模之大,以至于 OpenAI 不得不将训练任务分散到多个数据中心才能在合理时间内完成。
更大的模型在获取世界知识和理解人类语言细微差别方面具有更强的能力(前提是有高质量的训练数据)。这一点在 OpenAI 团队提供的一些指标中得到了证实。例如,GPT-4.5 在评估 AI 模型幻觉的 PersonQA 基准测试中创下了新高。
实践实验也表明,GPT-4.5 在保持事实准确性和遵循用户指令方面优于其他通用模型。
用户指出,GPT-4.5 的回应比之前的模型更自然,更具上下文意识。它在遵循语气和风格指导方面的能力也有所提升。
GPT-4.5 发布后,曾获得模型早期使用权的 AI 科学家、OpenAI 联合创始人 Andrej Karpathy 表示:"我预计在不需要太多推理能力的任务中会看到改进,这些任务更多与情商 (EQ) 相关(而非智商 IQ),比如世界知识、创造力、类比能力、普遍理解力、幽默感等。"
然而,评估写作质量是非常主观的。在 Karpathy 进行的一项关于不同提示的调查中,大多数人更倾向于 GPT-4o 的回应。他在 X 上写道:"要么是高品味测试者注意到了新的独特结构,但低品味的人主导了投票结果;要么我们产生了错觉;要么这些例子不够好;要么实际差距很小而样本量太少;或者以上都是。"
更优秀的文档处理能力
Box 公司已将 GPT-4.5 整合到其 Box AI Studio 产品中。在实验中,他们写道:"GPT-4.5 特别适合企业用例,因为企业场景下准确性和完整性至关重要...我们的测试表明,GPT-4.5 是目前最优秀的模型之一,无论是从评估分数还是处理我们遇到的最难 AI 问题的能力来看都是如此。"
在内部评估中,Box 发现 GPT-4.5 在企业文档问答任务上更为准确——在他们的测试集上比原始 GPT-4 高出约 4 个百分点。
Box 的测试还表明,GPT-4.5 在处理商业文档中的数学问题方面表现出色,这是早期 GPT 模型常常难以应对的。例如,它在回答需要数据推理和计算的财务文档问题时表现更好。
GPT-4.5 在从非结构化数据中提取信息方面也有所改进。在一项涉及从数百份法律文档中提取字段的测试中,GPT-4.5 比 GPT-4o 的准确率高出 19%。
规划、编码、评估结果
凭借其改进的世界知识,GPT-4.5 也可以成为为复杂任务创建高层次计划的合适模型。分解后的步骤可以交给较小但更高效的模型来详细制定和执行。
根据 Constellation Research 的说法:"在初步测试中,GPT-4.5 似乎在代理规划和执行方面表现出强大的能力,包括多步骤编码工作流程和复杂任务自动化。"
GPT-4.5 在需要内部和上下文知识的编码任务中也很有用。GitHub 现在在其 Copilot 编码助手中提供对该模型的有限访问,并指出 GPT-4.5"在处理创造性提示方面表现出色,并能对晦涩的知识查询提供可靠的回答。"
鉴于其更深入的世界知识,GPT-4.5 也适合"LLM 作为评判者"的任务,即由强大的模型评估较小模型的输出。例如,像 GPT-4o 或 o3 这样的模型可以生成一个或多个响应,对解决方案进行推理,然后将最终答案传递给 GPT-4.5 进行修改和完善。
是否值得这个价格?
考虑到 GPT-4.5 巨大的成本,很难为许多用例提供合理性。但这种情况可能不会一直持续。近年来我们看到的一个持续趋势是推理成本的大幅下降,如果这个趋势也适用于 GPT-4.5,那么值得对其进行实验并找到在企业应用中利用其能力的方法。
同样值得注意的是,这个新模型可能成为未来推理模型的基础。据 Karpathy 所说:"请记住,GPT-4.5 仅通过预训练、监督微调和 RLHF (来自人类反馈的强化学习) 进行训练,所以这还不是一个推理模型。因此,这个模型的发布并没有在推理至关重要的领域(数学、编程等)推进模型能力...可以预见,OpenAI 现在将寻求在 GPT-4.5 模型之上进行强化学习训练,使其具备思考能力,并在这些领域推进模型能力。"
好文章,需要你的鼓励
尽管全球企业AI投资在2024年达到2523亿美元,但MIT研究显示95%的企业仍未从生成式AI投资中获得回报。专家预测2026年将成为转折点,企业将从试点阶段转向实际部署。关键在于CEO精准识别高影响领域,推进AI代理技术应用,并加强员工AI能力培训。Forrester预测30%大型企业将实施强制AI培训,而Gartner预计到2028年15%日常工作决策将由AI自主完成。
这项由北京大学等机构联合完成的研究,开发了名为GraphLocator的智能软件问题诊断系统,通过构建代码依赖图和因果问题图,能够像医生诊断疾病一样精确定位软件问题的根源。在三个大型数据集的测试中,该系统比现有方法平均提高了19.49%的召回率和11.89%的精确率,特别在处理复杂的跨模块问题时表现优异,为软件维护效率的提升开辟了新路径。
2026年软件行业将迎来定价模式的根本性变革,从传统按席位收费转向基于结果的付费模式。AI正在重塑整个软件经济学,企业IT预算的12-15%已投入AI领域。这一转变要求建立明确的成功衡量指标,如Zendesk以"自动化解决方案"为标准。未来将出现更精简的工程团队,80%的工程师需要为AI驱动的角色提升技能,同时需要重新设计软件开发和部署流程以适应AI优先的工作流程。
这项由德国达姆施塔特工业大学领导的国际研究团队首次发现,当前最先进的专家混合模型AI系统存在严重安全漏洞。通过开发GateBreaker攻击框架,研究人员证明仅需关闭约3%的特定神经元,就能让AI的攻击成功率从7.4%暴增至64.9%。该研究揭示了专家混合模型安全机制过度集中的根本缺陷,为AI安全领域敲响了警钟。