对ChatGPT 5.3 Instant感到厌倦了吗?这个模型才在周二发布。OpenAI已经为你准备了一个新的模型系列。该公司在周四发布了两个新模型,分别名为GPT 5.4 Thinking和GPT 5.4 Pro。GPT 5.4 Thinking专为企业工作而构建,如编程和监督AI智能体。
ChatGPT 5.4是一个"思考型"模型,这意味着它需要稍长的时间来生成答案,但这些回应应该更准确,能够处理更复杂的任务。它专门用于AI智能体,这些是可以独立运行的机器人。OpenAI表示,5.4可以更高效地支持智能体活动,意味着它使用更少的计算能力,因此成本更低。
OpenAI称GPT 5.4为其"迄今为止最真实的模型",无意中突显了AI模型出现幻觉或编造内容这一真实问题。OpenAI表示,5.4应该较少出现这个问题,其基准报告显示,与GPT 5.2相比,5.4的回应包含错误的可能性降低了18%,个别声明为虚假的可能性降低了33%。尽管如此,始终要对AI工具告诉你的内容进行事实核查。
GPT 5.4 Thinking和Pro现在可供付费ChatGPT用户使用,并在API(开发者工具)中提供。GPT 5.4 Thinking也在OpenAI的编程应用Codex中可用。
GPT 5.4为OpenAI带来了提升。拥有一个以智能体为中心的模型,专为愿意支付月度订阅费用的高级用户设计,如5.4,这确实感觉像是OpenAI在向Anthropic的Claude发起挑战。
Anthropic和OpenAI一直处于日益激烈的竞争中,最近因Anthropic的超级碗商业广告攻击ChatGPT的广告推出而进一步升级。但事情从那里开始升级,最近的报告显示Anthropic的受欢迎程度正在增长。Claude移动应用在苹果和谷歌的应用商店中占据了头把交椅,AI用户在在线论坛中分享如何将数据从ChatGPT转移到Claude的建议。一些用户做出转换的一个原因是两个AI巨头与美国政府之间日益增长的争议。
在启动伊朗战争和处理随后日益严重的国际危机的同时,国防部(前身为国防部)一直在与AI公司谈判合同。最初的交易是针对Anthropic的Claude,但上周当Anthropic拒绝允许美国政府使用其AI监视公民和支持自主武器系统时,交易破裂了。
OpenAI介入了这个空白,首席执行官Sam Altman本周澄清,它将实施保障措施,并且不会向NSA等情报机构提供。该公司此前宣布已在2025年与国防部达成了2亿美元的交易。关于任何公司制造的AI如何被政府机构和国防承包商使用,仍有很多未解答的问题。
Q&A
Q1:GPT 5.4 Thinking有什么特点?
A:GPT 5.4 Thinking是一个"思考型"模型,专为企业工作而构建,如编程和监督AI智能体。它需要稍长时间生成答案,但回应更准确,能处理更复杂任务,且使用更少计算能力,成本更低。
Q2:GPT 5.4在准确性方面有什么改进?
A:OpenAI称GPT 5.4为"迄今为止最真实的模型"。基准报告显示,与GPT 5.2相比,GPT 5.4的回应包含错误的可能性降低了18%,个别声明为虚假的可能性降低了33%。
Q3:OpenAI和Anthropic之间的竞争现状如何?
A:两家公司竞争日益激烈,Anthropic的Claude应用在苹果和谷歌应用商店占据头把交椅,用户正在从ChatGPT转向Claude。同时,两家公司在与美国政府的合作上也存在分歧,OpenAI最终获得了2亿美元的国防部合同。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。