OpenAI 发布的 GPT-4.5 让许多人感到失望,主要原因在于其过高的价格(比 Claude 3.7 Sonnet 贵 10-20 倍,比 GPT-4o 贵 15-30 倍)。
然而,考虑到这是 OpenAI 最大且最强大的非推理模型,我们有必要研究其优势和擅长领域。
更好的知识储备和对齐能力
虽然关于模型架构和训练语料库的细节信息较少,但据估计其训练算力是此前的 10 倍。模型规模之大,以至于 OpenAI 不得不将训练任务分散到多个数据中心才能在合理时间内完成。
更大的模型在获取世界知识和理解人类语言细微差别方面具有更强的能力(前提是有高质量的训练数据)。这一点在 OpenAI 团队提供的一些指标中得到了证实。例如,GPT-4.5 在评估 AI 模型幻觉的 PersonQA 基准测试中创下了新高。
实践实验也表明,GPT-4.5 在保持事实准确性和遵循用户指令方面优于其他通用模型。
用户指出,GPT-4.5 的回应比之前的模型更自然,更具上下文意识。它在遵循语气和风格指导方面的能力也有所提升。
GPT-4.5 发布后,曾获得模型早期使用权的 AI 科学家、OpenAI 联合创始人 Andrej Karpathy 表示:"我预计在不需要太多推理能力的任务中会看到改进,这些任务更多与情商 (EQ) 相关(而非智商 IQ),比如世界知识、创造力、类比能力、普遍理解力、幽默感等。"
然而,评估写作质量是非常主观的。在 Karpathy 进行的一项关于不同提示的调查中,大多数人更倾向于 GPT-4o 的回应。他在 X 上写道:"要么是高品味测试者注意到了新的独特结构,但低品味的人主导了投票结果;要么我们产生了错觉;要么这些例子不够好;要么实际差距很小而样本量太少;或者以上都是。"
更优秀的文档处理能力
Box 公司已将 GPT-4.5 整合到其 Box AI Studio 产品中。在实验中,他们写道:"GPT-4.5 特别适合企业用例,因为企业场景下准确性和完整性至关重要...我们的测试表明,GPT-4.5 是目前最优秀的模型之一,无论是从评估分数还是处理我们遇到的最难 AI 问题的能力来看都是如此。"
在内部评估中,Box 发现 GPT-4.5 在企业文档问答任务上更为准确——在他们的测试集上比原始 GPT-4 高出约 4 个百分点。
Box 的测试还表明,GPT-4.5 在处理商业文档中的数学问题方面表现出色,这是早期 GPT 模型常常难以应对的。例如,它在回答需要数据推理和计算的财务文档问题时表现更好。
GPT-4.5 在从非结构化数据中提取信息方面也有所改进。在一项涉及从数百份法律文档中提取字段的测试中,GPT-4.5 比 GPT-4o 的准确率高出 19%。
规划、编码、评估结果
凭借其改进的世界知识,GPT-4.5 也可以成为为复杂任务创建高层次计划的合适模型。分解后的步骤可以交给较小但更高效的模型来详细制定和执行。
根据 Constellation Research 的说法:"在初步测试中,GPT-4.5 似乎在代理规划和执行方面表现出强大的能力,包括多步骤编码工作流程和复杂任务自动化。"
GPT-4.5 在需要内部和上下文知识的编码任务中也很有用。GitHub 现在在其 Copilot 编码助手中提供对该模型的有限访问,并指出 GPT-4.5"在处理创造性提示方面表现出色,并能对晦涩的知识查询提供可靠的回答。"
鉴于其更深入的世界知识,GPT-4.5 也适合"LLM 作为评判者"的任务,即由强大的模型评估较小模型的输出。例如,像 GPT-4o 或 o3 这样的模型可以生成一个或多个响应,对解决方案进行推理,然后将最终答案传递给 GPT-4.5 进行修改和完善。
是否值得这个价格?
考虑到 GPT-4.5 巨大的成本,很难为许多用例提供合理性。但这种情况可能不会一直持续。近年来我们看到的一个持续趋势是推理成本的大幅下降,如果这个趋势也适用于 GPT-4.5,那么值得对其进行实验并找到在企业应用中利用其能力的方法。
同样值得注意的是,这个新模型可能成为未来推理模型的基础。据 Karpathy 所说:"请记住,GPT-4.5 仅通过预训练、监督微调和 RLHF (来自人类反馈的强化学习) 进行训练,所以这还不是一个推理模型。因此,这个模型的发布并没有在推理至关重要的领域(数学、编程等)推进模型能力...可以预见,OpenAI 现在将寻求在 GPT-4.5 模型之上进行强化学习训练,使其具备思考能力,并在这些领域推进模型能力。"
好文章,需要你的鼓励
Stripe 年度报告显示,AI 初创企业增长速度远超传统 SaaS 公司。顶级 AI 企业仅用 24 个月就实现 500 万美元年化收入,而 SaaS 公司则需 37 个月。Stripe 认为,将这些初创企业称为"LLM 包装器"忽视了它们在特定行业中的重要价值。报告还指出,垂直 SaaS 仍有巨大潜力,尤其对小企业而言。
根据 BT 的研究,前线和后端的 NHS 员工都明白他们在保护英国健康服务免受网络威胁方面的角色,但只有少数人认为当前的保护措施足够。该研究揭示了公众对网络安全、遗留系统风险和培训缺口的关注。
Microsoft 终于为其免费的生成式 AI 聊天机器人 Copilot 推出了 macOS 应用。这款应用类似于 ChatGPT,可以帮助用户完成多项任务,如起草邮件、总结文档和撰写求职信等。新应用为 Mac 用户提供了专属体验,但需要 macOS 14.0 或更高版本,以及搭载 Apple M1 或更新芯片的 Mac 设备。