自OpenAI发布ChatGPT Images 1.5以来,短短四个月间,AI行业已发生了翻天覆地的变化。智能体工具的激烈竞赛、与五角大楼签订的史无前例的合作协议,以及泛滥成灾的AI垃圾内容,构成了这一时期的行业底色。
如今,OpenAI再次强势进入生成式AI媒体领域。该公司于周二宣布推出ChatGPT Images 2,这是其新一代图像生成模型。
就在一个月前,OpenAI刚刚宣布关闭曾经风靡一时的Sora AI视频应用,理由是要专注于构建面向企业的"核心产品"。在这一背景下,推出新图像模型似乎令人费解。但从新模型的设计思路来看,OpenAI并未偏离既定目标。
ChatGPT Images 2专为生成富含文字的图像而设计,涵盖信息图表、科学海报、学习指南和营销素材等多种应用场景。那些奇异的Sora视频和吉卜力风格的表情包时代,已然落幕。
OpenAI目前的方向,是打造能够完成其所称的"具有经济价值的创意任务"的AI工具。
ChatGPT图像产品负责人Adele Li在新闻发布会上表示:"视觉智能的适用范围和使用场景正在极大地拓展,我们相信这对于ChatGPT打造个人专属助手的愿景至关重要——因为创意助手是每个人个性的重要组成部分。"
(披露信息:CNET母公司Ziff Davis已于2025年4月对OpenAI提起诉讼,指控其在训练和运营AI系统过程中侵犯了Ziff Davis的版权。)
OpenAI一直致力于打造一款超级应用——基于Codex平台构建的AI全能一站式平台。ChatGPT Images 2正是为这一愿景补全了创意拼图。
新模型在排版、图标设计和构图方面均有显著提升,能够生成更具专业质感的AI图像,并支持多语言文字生成。长期以来,AI图像模型在生成清晰、准确的文字方面饱受诟病。ChatGPT Images 2是OpenAI迄今在这一领域表现最佳的模型。谷歌此前通过Nano Banana Pro改进了文本渲染能力,但即便是其"顶尖"模型,在准确性方面仍存在一定不足。
ChatGPT Images 2目前已向所有用户开放。可生成的图像数量取决于所选套餐,付费金额越高,可生成的AI图像数量越多。
通过API调用模型的开发者可生成2K和4K分辨率的图像,但这两种高分辨率模式目前仍处于测试阶段,可能存在不稳定情况。付费用户还可结合思维推理模型使用该功能——这些模型能够在网络上检索信息,将其整合为可读的视觉设计,并对结果进行自动校验。
"图像模型"这一描述对ChatGPT Images 2而言似乎并不完全贴切,尽管从技术定义上确实如此。它既无法像Midjourney那样呈现天马行空的超现实主义画风,也不具备Adobe Firefly那般丰富的编辑工具。
但它精准地服务于介于Midjourney艺术创作爱好者与Adobe专业设计师之间的用户群体——那些需要快速生成有吸引力内容的普通用户。
与Anthropic近期发布的Claude Design类似,OpenAI的ChatGPT Images 2同样面向职场专业人士。教师可用它制作学习指南和图文并茂的教案,营销经理可用它生成社交媒体帖子和视觉素材。
用户可以从单个提示词生成最多八张图像,例如一份三页的报告,且所有图像在视觉风格上保持统一。
该模型存在一个不足之处:若需调整AI生成的图像,仍需重新生成。对于文字内容较多的设计,这种情况出现的概率更高,因此用户的生成额度消耗也会更快。OpenAI表示,其重点在于维持基于提示词迭代编辑的操作流程,以保持使用的便捷性。
在安全机制方面,OpenAI与上一版图像模型相比并无重大变化,仍通过C2PA标准在图像中嵌入元数据,以便识别AI生成图像的来源。滥用性和违法图像依然在OpenAI的使用政策中被明令禁止——鉴于近期AI深度伪造和未经授权的私密图像泛滥成灾,这一安全底线对AI公司而言尤为重要。
Q&A
Q1:ChatGPT Images 2主要适合哪些用户使用?
A:ChatGPT Images 2主要面向需要快速生成专业视觉内容的职场用户,例如教师可用它制作学习指南和图文教案,营销经理可用它生成社交媒体帖子和视觉素材。它定位于Midjourney艺术创作爱好者和Adobe专业设计师之间的群体,适合那些需要制作有吸引力内容但不具备专业设计能力的普通用户。
Q2:ChatGPT Images 2在文字生成方面有哪些改进?
A:ChatGPT Images 2是OpenAI迄今在文字生成方面表现最佳的图像模型,支持多语言文字生成,并显著改善了排版、图标设计和整体构图质量。AI图像模型长期以来在生成清晰、准确的文字方面存在明显短板,ChatGPT Images 2在这一问题上取得了重要突破,能够生成更清晰、更准确的文本内容。
Q3:ChatGPT Images 2如何保障生成内容的安全性?
A:ChatGPT Images 2沿用了OpenAI此前的安全机制,通过C2PA标准在所有AI生成图像中嵌入元数据,使图像来源可被识别和追溯。此外,滥用性和违法图像在OpenAI使用政策中仍属明令禁止内容,这对于防范AI深度伪造和未经授权的私密图像传播具有重要意义。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。