OpenAI正在推出新版本的ChatGPT图像生成功能,承诺提供更好的指令遵循能力、更精确的编辑功能,以及高达4倍的图像生成速度提升。
这个名为GPT Image 1.5的新模型从周二开始向所有ChatGPT用户和API用户提供服务。这是与谷歌Gemini竞争的最新升级,此前OpenAI首席执行官萨姆·奥特曼在上个月泄露的内部备忘录中宣布进入"红色警戒"状态。该备忘录详细说明了OpenAI重新夺回AI领导地位的计划,此前谷歌发布了其最新旗舰模型Gemini 3和最新版本的病毒式图像生成器Nano Banana Pro后开始抢占市场份额,这两个模型在LMArena排行榜的多个基准测试中都名列前茅。
即使在OpenAI上周推出GPT-5.2作为回应后,谷歌仍保持领先地位,OpenAI将其定位为面向开发者和日常专业使用的最先进模型。据报道,OpenAI原本计划在1月初发布新的图像生成器,但加速了计划并在本周宣布。其上一个图像模型GPT Image 1是在4月发布的。
GPT Image 1.5的推出正值图像和视频生成器超越原型阶段,获得更多生产就绪能力的时期。与Nano Banana Pro类似,ChatGPT图像提供后期制作功能,提供更精细的编辑控制来保持视觉一致性,如面部相似度、光照、构图和色调在编辑过程中的一致性。
大多数生成式AI图像工具在迭代方面表现不佳,所以这将是一个巨大的进步。当被要求进行特定更改时,如"调整面部表情"或"让光线更冷",模型往往会重新解释整个图像,导致缺乏一致性。
这次更新不仅仅是新功能。ChatGPT图像现在还可以通过ChatGPT侧边栏中的专用入口访问,该入口"更像一个创意工作室",OpenAI应用程序首席执行官菲吉·西莫在周二的博客文章中写道。
"新的图像查看和编辑界面让创建符合你愿景的图像变得更容易,或者从热门提示和预设滤镜中获得灵感,"西莫写道。
除了新的图像生成器,OpenAI还引入了新的方式来改善ChatGPT体验,增加更多视觉元素。计划是让搜索查询显示更多带有明确来源的视觉内容,这对于转换测量单位或查看体育比分等任务可能很有帮助,西莫表示。
"当你在创作时,你应该能够看到并塑造你正在制作的东西。当视觉效果比单纯的文字更能讲述故事时,ChatGPT应该包含它们,"西莫写道。"当你需要快速答案或下一步操作在另一个工具中时,它应该就在那里。通过这样做,我们可以继续缩短你心中所想与你实现它的能力之间的距离。"
Q&A
Q1:GPT Image 1.5相比之前的版本有什么改进?
A:GPT Image 1.5提供了更好的指令遵循能力、更精确的编辑功能,以及高达4倍的图像生成速度提升。它还提供后期制作功能,能够在编辑过程中保持面部相似度、光照、构图和色调的视觉一致性,解决了大多数生成式AI图像工具在迭代编辑时缺乏一致性的问题。
Q2:为什么OpenAI要加速推出GPT Image 1.5?
A:OpenAI加速推出是为了应对与谷歌Gemini的激烈竞争。谷歌发布了Gemini 3和Nano Banana Pro后开始抢占市场份额,这两个模型在多个基准测试中都名列前茅,促使OpenAI首席执行官宣布进入"红色警戒"状态,原本计划1月初发布的产品被提前到本周发布。
Q3:GPT Image 1.5如何改善用户的创作体验?
A:GPT Image 1.5通过ChatGPT侧边栏中的专用入口提供"更像创意工作室"的体验,新的图像查看和编辑界面让用户更容易创建符合愿景的图像,还能从热门提示和预设滤镜中获得灵感。同时增加了更多视觉元素,让搜索查询显示带有明确来源的视觉内容。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。