OpenAI CEO Sam Altman 在周三公布了公司备受期待的 GPT-5 模型的发展路线图。GPT-5 是 2023 年轰动全球科技和政策圈的 GPT-4 AI 语言模型的后续版本。Altman 在 X 平台上回应提问时表示,GPT-5 将在"数月内"发布,暗示可能在 2025 年后期推出。
Altman 在 X 平台上详细解释,公司计划在"数周内"发布 GPT-4.5 (内部代号"Orion"),这将是 OpenAI 最后一个非模拟推理模型。模拟推理 (SR) 模型 (如 o3) 使用特殊技术来迭代处理用户提出的问题,但比传统的大语言模型 (如 GPT-4o) 速度更慢,且并非适用于所有任务。
之后,GPT-5 将成为一个整合了 OpenAI 当前所有 AI 模型特性的系统,包括传统 AI 模型、SR 模型,以及专门用于网页搜索和研究的专业模型。"我们将在 ChatGPT 和 API 中发布 GPT-5,作为整合了包括 o3 在内的多项技术的系统,"他写道,"我们将不再单独发布 o3 模型。"
Altman 表示,ChatGPT 免费用户将获得"标准智能设置下的无限 GPT-5 对话访问权限",ChatGPT Plus 用户可以"以更高智能级别运行 GPT-5",而 Pro 用户则可以"以最高智能级别运行 GPT-5"。
他还提到,这些集成的 AI 模型将能够使用 OpenAI 的多项 ChatGPT 扩展功能,包括高级语音模式、Canvas、搜索和深度研究。
简化复杂的产品线 此前,Altman 曾评论过未来"GPT-5"标签的随意性,暗示公司去年发布的几个 AI 模型本可以被命名为 GPT-5。
例如,在 2024 年 3 月接受 Lex Friedman 采访时,Altman 表示公司正在准备发布一个重要的 AI 模型 (很可能就是后来的 GPT-4o 或"o1"),但最终名称尚未确定。当时他对 Friedman 说:"在我们讨论一个被称为或不称为 GPT-5 的模型之前,或者讨论一个比预期的 GPT-5 稍差或稍好的模型之前,我认为我们还有许多其他重要的东西要先发布。"
人们可能会认为 OpenAI 是因为达到了某个性能门槛才最终决定将新 AI 模型命名为"GPT-5",但这显然是出于必要性。如上所述,GPT-5 主要是一个品牌战略举措,将把许多功能整合到一个统一的界面中。
Altman 在 X 上发文说:"我们希望更好地分享我们的预期路线图,并大幅简化我们的产品供应。我们意识到我们的模型和产品供应变得多么复杂。"
目前,如果用户使用 Pro 账户登录 ChatGPT,他们可以选择至少 10 个 AI 模型,包括 GPT-4o、带搜索功能的 GPT-4o、带深度研究的 GPT-4o、带定时任务的 GPT-4o、o1、o3-mini、o3-mini-high、o1 专业模式、GPT-4o mini 和 GPT-4。还有高级语音模式。AI 模型分为两类:传统的大语言模型 (如 GPT-4o) 和模拟推理模型 (如 o1 和 o3-mini)。
Altman 写道:"我们的首要目标是通过创建能够使用所有工具、知道何时需要长时间思考以及普遍适用于广泛任务的系统,来统一 o 系列模型和 GPT 系列模型。"
期待任何没有密切关注 OpenAI 模型开发的人能够理解这些选项可能并不现实,Altman 也认识到了这一点。他在帖子中写道:"我们和你一样讨厌模型选择器,我们希望回归到统一的智能魔法。"
与此同时,DeepSeek、Anthropic、Meta 和 Google 等竞争对手紧随 OpenAI 之后,各自以前所未有的速度迭代其 AI 模型。我们将继续关注 GPT-4.5 和 GPT-5 的具体发布日期相关新闻。
好文章,需要你的鼓励
这项研究由德累斯顿工业大学等机构的研究团队完成,旨在解决主动学习未被广泛应用的问题。研究者构建了包含460万种超参数组合的实验网格,系统分析了各参数对主动学习性能的影响。研究发现,不同策略实现间存在显著差异,基于边缘的不确定性策略整体表现最佳,随机选择约4000个超参数组合即可获得可靠结果。这些发现为设计可重现、可信赖的主动学习实验提供了明确指导,有助于降低入门门槛,促进技术在实际应用中的普及。
这项由英国爱丁堡大学和上海人工智能实验室研究者共同完成的工作提出了LongBioBench,一种用于评估长文本语言模型的新型基准测试框架。通过使用人工生成的虚构人物传记作为测试环境,该框架在保持可控性的同时,提供了更真实的评估场景。研究对18个长文本模型的测试表明,即使最先进的模型在检索、推理和可信任性方面仍存在显著挑战,特别是上下文长度增加时。研究还揭示了现有合成基准测试的设计缺陷和长上下文预训练的局限性,为未来模型开发提供了重要指导。
SuperWriter是一项来自新加坡科技设计大学和清华大学的突破性研究,通过模仿人类"先思考后写作"的过程,彻底改良了AI长文生成能力。该研究团队开发的框架包含三个关键阶段:规划、写作和修改,使AI能像专业作家一样进行结构化思考。实验结果表明,经过训练的SuperWriter-LM模型不仅超越同等规模的所有AI模型,甚至在某些领域表现优于规模更大的顶级模型,为AI辅助写作开创了新的可能性。
香港大学与阿里巴巴达摩院合作开发的LayerFlow是一种突破性的层级视频生成技术,能同时生成透明前景、完整背景和混合场景视频。该技术通过创新的框架设计将不同视频层级作为子片段连接,并引入层级嵌入使模型区分各层级。面对高质量训练数据稀缺的挑战,研究团队设计了三阶段训练策略,结合Motion LoRA和Content LoRA,实现了图像和视频数据的联合训练。LayerFlow不仅支持多层视频生成,还能实现视频分解和条件层生成,为视频创作领域带来革命性变革。