OpenAI今日正式推出GPT-5.6系列大语言模型,该系列在特定编程任务上声称可超越Anthropic的Claude Mythos 5。
GPT-5.6系列共包含三款模型:高端旗舰版Sol、中端版Terra以及入门版Luna。三款模型均新增了两种此前GPT-5.5未提供的运行模式:其一为"max"模式,通过延长模型处理任务的时间来提升推理质量;其二为"ultra"模式,能够同时调度多个子智能体并行处理任务,进一步释放计算潜力。
Sol被OpenAI定位为迄今为止能力最强的大语言模型。在涵盖89项复杂编程任务的主流AI基准测试TerminalBench-2.1中,Sol取得了88.8%的得分;在开启"ultra"模式后,得分进一步提升至91.9%,超越Anthropic旗舰模型Claude Mythos 5的88%。
在网络安全研究基准测试ExploitBench上,Sol的表现接近Anthropic此前发布的Mythos Preview。值得一提的是,Mythos Preview自今年4月亮相以来,已识别出逾10,000个高危及严重级别的软件漏洞。
效率方面,OpenAI使用Sol测试了今年4月发布的科学数据分析任务集GeneBench v1,结果显示Sol在消耗更少Token的情况下,达到了前代旗舰模型的同等性能水平。
安全防护方面,Sol内置了专门的安全机制,以防止模型被用于开发黑客攻击活动等恶意行为。一旦防护机制未能阻止有害内容生成,系统将在响应到达用户前,由一个专用的大型推理模型对输出内容进行二次过滤。OpenAI还通过耗费约70万A100等效GPU小时的大规模红队测试,深入排查了可被批量利用的越狱漏洞,并据此强化了GPT-5.6系列的整体安全性。
定价方面,Sol的价格为每百万输入Token 5美元、每百万输出Token 30美元;Terra价格约为Sol的一半;Luna则在此基础上再降低约80%,为注重成本效益的用户提供更经济的选择。
在美国政府要求下,GPT-5.6系列目前仅向"少数可信合作伙伴"开放,OpenAI计划在数周内将其推向大众市场。此外,Sol还将支持Cerebras Systems旗下WSE-3晶圆级AI芯片。
Q&A
Q1:GPT-5.6系列包含哪些模型,各自有什么区别?
A:GPT-5.6系列共包含三款模型:高端旗舰版Sol、中端版Terra和入门版Luna。Sol是OpenAI目前能力最强的大语言模型,定价最高;Terra价格约为Sol的一半;Luna价格再低约80%。三款模型在性能与成本之间各有侧重,用户可根据实际需求选择。
Q2:GPT-5.6的"ultra"模式是什么,有什么作用?
A:"ultra"模式是GPT-5.6新增的一种运行设置,能够同时调度多个子智能体并行处理任务。以Sol为例,在标准模式下其TerminalBench-2.1得分为88.8%,开启"ultra"模式后提升至91.9%,超越Claude Mythos 5的88%。该模式适合对输出质量要求更高的复杂任务场景。
Q3:OpenAI是如何保障GPT-5.6系列安全性的?
A:GPT-5.6系列在安全方面采取了多重措施:Sol内置了防恶意利用的安全机制,若有害内容突破防线,系统会在响应到达用户前由专用推理模型进行二次过滤。此外,OpenAI还动用约70万A100等效GPU小时进行大规模红队测试,专门排查可批量生成恶意提示词的越狱漏洞,并将测试结果用于强化模型安全性。
好文章,需要你的鼓励
牛津大学提出PHYSIFORMER,一种扩散变换器模型,通过三维网格顶点轨迹直接在世界坐标空间预测刚性与弹性物体的物理运动,一次性生成全序列轨迹,超越自回归基线。
随着医疗数据数字化与互操作性的进步,跨机构纵向患者数据的研究应用成为可能。本研究通过对20位领域专家的访谈,识别出8种数据收集方法,涵盖智能手机应用、结构化数据导出、区域/全国研究查询及聚合数据源等。研究发现,各方法均有其优缺点,无单一最优方案。参与者中介交换方式可绕过复杂治理安排,但存在数据缺口;全国性网络尚不支持研究查询。公共政策的持续推进将对该领域发展起关键作用。
研究发现主流奖励模型对同等质量答案给出差异悬殊的分数,并提出"奖励聚类"算法通过蒙特卡洛随机失活将连续分数离散化,在不重训模型的前提下有效减少AI训练中的奖励作弊现象。