OpenAI 今天通过其应用程序编程接口向开发者推出了三款全新语言模型。
该系列的旗舰算法 GPT-4.1 被描述为在编程方面比其前代产品“显著更优”。另外两款模型 GPT-4.1 mini 和 GPT-4.1 nano 则在一定程度上牺牲了部分输出质量,以换取更低的定价。这三款模型均可处理最多 1 million Token 的提示,使它们能够对大型上传内容(例如 GitHub 仓库)进行分析。
在开发者请求语言模型协助完成编码任务时,他们通常不会只发送一个提示,而是会发送多个提示。此外,提示内容往往引用先前的输入信息。OpenAI 表示,GPT-4 较其前作在“从对话中的过往消息中提取信息”这一能力上提升了 10.5% ,这使其在高级编程任务中更为实用。
与编程相关的提示通常包括一个代码文件及对其某些部分进行修改的指令。对于这类提示,OpenAI 早期的模型往往不仅输出要求变更的部分,还会返回原始代码文件中未做修改的部分。由于公司是按模型输出量向客户收费的,这就增加了成本。
据 OpenAI 介绍,其工程师已将 GPT-4.1 配置为仅输出发生改变的代码行,而非整个文件。为了进一步降低成本,用户还可对常用提示的答案进行缓存。作为此次产品更新的一部分,OpenAI 将缓存折扣从 50% 提升至 75%。
此外,OpenAI 表示 GPT-4.1 在其他方面也为开发者带来了一系列改进。该模型在生成用户界面方面表现更加出色,并且不易产生冗余代码,从而减少了软件团队在筛选模型输出时所需投入的时间。
今天推出的第二款新模型 GPT-4.1 mini 是一款在硬件效率上更优、但功能略逊一筹的算法。尽管如此,其性能与 GPT-4.1 的前身仍具竞争力。正如 OpenAI 工作人员在博客文章中描述的那样:“它在智力评估中达到了或超过 GPT-4o 的表现,同时将延迟减少了近一半,并且将成本降低了 83%。”
该公司语言模型阵容中的第三款产品是 GPT-4.1 nano。它专为相对简单的任务设计,例如根据主题对文档进行分类或支持编程工具中的代码自动完成功能。除了成本更低之外,它还承诺相比 OpenAI 推出的其他两款新模型具有显著更低的延迟。
OpenAI 工作人员写道:“我们改进了推理架构以缩短生成首个 Token 的时间,并且借助提示缓存,您可以在降低延迟的同时节省成本。在初步测试中,GPT-4.1 在包含 128000 Token 上下文条件下,其 p95 生成首个 Token 延迟约为 15 秒,而在包含 1000000 Token 上下文时延迟则可达半分钟左右。”
OpenAI 不计划将 GPT-4.1 应用于 ChatGPT,相反,公司选择优化早期用来支撑聊天机器人服务的 GPT-4o 模型在编码和指令跟随能力方面的表现。
好文章,需要你的鼓励
量子计算初创公司PsiQuantum宣布完成10亿美元E轮融资,由贝莱德领投,淡马锡和Baillie Gifford参投。本轮融资使公司估值达到70亿美元,较2021年D轮融资估值翻倍。资金将用于加速建造拥有超过百万量子比特的大规模可靠量子计算机,目标在2028年前完成。公司还宣布与英伟达合作开发量子算法和软件。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
Adobe公司正式推出首个AI智能体产品系列,旨在变革企业客户体验创建和营销活动优化方式。这些基于Adobe Experience Platform的智能体能够自动化网站优化、内容制作、受众细分等客户体验相关任务。产品包括受众智能体、客户旅程智能体、实验智能体、数据洞察智能体等多个专业工具,并配备AEP智能体编排器进行统一管理。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。