OpenAI 今天通过其应用程序编程接口向开发者推出了三款全新语言模型。
该系列的旗舰算法 GPT-4.1 被描述为在编程方面比其前代产品“显著更优”。另外两款模型 GPT-4.1 mini 和 GPT-4.1 nano 则在一定程度上牺牲了部分输出质量,以换取更低的定价。这三款模型均可处理最多 1 million Token 的提示,使它们能够对大型上传内容(例如 GitHub 仓库)进行分析。
在开发者请求语言模型协助完成编码任务时,他们通常不会只发送一个提示,而是会发送多个提示。此外,提示内容往往引用先前的输入信息。OpenAI 表示,GPT-4 较其前作在“从对话中的过往消息中提取信息”这一能力上提升了 10.5% ,这使其在高级编程任务中更为实用。
与编程相关的提示通常包括一个代码文件及对其某些部分进行修改的指令。对于这类提示,OpenAI 早期的模型往往不仅输出要求变更的部分,还会返回原始代码文件中未做修改的部分。由于公司是按模型输出量向客户收费的,这就增加了成本。
据 OpenAI 介绍,其工程师已将 GPT-4.1 配置为仅输出发生改变的代码行,而非整个文件。为了进一步降低成本,用户还可对常用提示的答案进行缓存。作为此次产品更新的一部分,OpenAI 将缓存折扣从 50% 提升至 75%。
此外,OpenAI 表示 GPT-4.1 在其他方面也为开发者带来了一系列改进。该模型在生成用户界面方面表现更加出色,并且不易产生冗余代码,从而减少了软件团队在筛选模型输出时所需投入的时间。
今天推出的第二款新模型 GPT-4.1 mini 是一款在硬件效率上更优、但功能略逊一筹的算法。尽管如此,其性能与 GPT-4.1 的前身仍具竞争力。正如 OpenAI 工作人员在博客文章中描述的那样:“它在智力评估中达到了或超过 GPT-4o 的表现,同时将延迟减少了近一半,并且将成本降低了 83%。”
该公司语言模型阵容中的第三款产品是 GPT-4.1 nano。它专为相对简单的任务设计,例如根据主题对文档进行分类或支持编程工具中的代码自动完成功能。除了成本更低之外,它还承诺相比 OpenAI 推出的其他两款新模型具有显著更低的延迟。
OpenAI 工作人员写道:“我们改进了推理架构以缩短生成首个 Token 的时间,并且借助提示缓存,您可以在降低延迟的同时节省成本。在初步测试中,GPT-4.1 在包含 128000 Token 上下文条件下,其 p95 生成首个 Token 延迟约为 15 秒,而在包含 1000000 Token 上下文时延迟则可达半分钟左右。”
OpenAI 不计划将 GPT-4.1 应用于 ChatGPT,相反,公司选择优化早期用来支撑聊天机器人服务的 GPT-4o 模型在编码和指令跟随能力方面的表现。
好文章,需要你的鼓励
NAVER和KAIST研究团队发现,先进AI模型在数学题自我修正方面存在严重缺陷。他们创建的MMRefine基准测试揭示,即使是GPT-4O等顶级模型也只能成功修正约23%的错误答案,而且经常将正确答案改错。研究发现不同模型在处理六种错误类型时表现差异巨大,特别是小型模型在空间推理修正上竟然超越了大型模型,颠覆了"越大越好"的认知。
牛津大学研究发现,尽管大语言模型在医学考试中表现出色,但在实际应用中效果大打折扣。研究显示,LLM直接测试时能94.9%准确识别病症,但人类使用LLM诊断时准确率仅34.5%,甚至低于不使用AI的对照组。问题源于用户提供信息不完整、LLM理解偏差等人机交互问题。专家指出,仅凭非交互式基准测试评估LLM存在误导性,需要真实的人机交互测试才能准确评估AI系统的实际性能。
上海交通大学研究团队开发出革命性AI图像检测系统,不仅能以98.1%准确率识别AI生成的假图片,更能像人类专家一样用自然语言详细解释判断依据并标出具体问题区域。该系统通过创新的多模态大语言模型训练方法,实现了从"黑盒判断"到"透明分析"的突破,为新闻、法律等领域提供可信赖的智能辅助工具。