本周早些时候,OpenAI正式发布了ChatGPT Images 2.0,这是其全新的图像生成引擎。此次发布的核心亮点,是功能上的重大跨越——从此前生成简单的"装饰性"图片(OpenAI的原话),升级为能够创作包含详细文字的完整页面图形内容。
笔者提前获得了预发布版本的测试权限。整体表现相当不错,但在处理ZDNET标志时屡屡出错。如今产品已正式上线,我决定对其进行一次全面深入的测试,涵盖多种不同类型的挑战。
Images 2.0对所有ChatGPT套餐层级开放,但更强大的语言功能仅面向付费用户,且需开启思维链(Thinking)模式才可使用。本次所有测试均在开启Thinking模式的ChatGPT Plus账户下进行。
首先从ZDNET品牌视觉相关的测试开始。为了让模型更准确地识别标志,我没有直接上传ZDNET页面截图让它自行寻找,而是单独提取了ZDNET标志图片,并在每次提示中一并上传。这个方法效果非常显著。
(补充说明:ZDNET不允许OpenAI抓取其页面内容。ZDNET母公司Ziff Davis已于2025年4月对OpenAI提起诉讼,指控其在训练和运营AI系统过程中侵犯了Ziff Davis的版权。因此,我使用Chrome扩展程序对相关文章进行了全屏截图,ChatGPT正是通过这种方式读取了文章内容。)
我的第一个测试,是将此前撰写的一篇关于Images 2.0的文章作为输入,并向ChatGPT输入如下提示语:"请根据这篇文章内容,结合ZDNET品牌风格和附件中的ZDNET标志,制作一张详细生动的信息图。"
结果令人满意——不仅标志呈现准确,配色也完美契合ZDNET的视觉风格。更令人惊喜的是图中文字的处理方式:所有文字内容均准确无误,甚至连以倾斜角度排布的细小字体也毫无差错。
接下来,我重新挑战了此前曾交给Google Nano Banana的手绘笔记(Sketchnotes)任务。当时的任务是制作一份美国《权利法案》的手绘笔记版本。Nano Banana在图像方面表现出色,但文字内容需要反复提示才能正确生成,整个过程相当繁琐。
这一次,我在难度上略作提升——不仅要生成手绘笔记,还要融入ZDNET的品牌风格。之所以在本文中持续强调品牌风格,是因为这正是ChatGPT Images 2.0能够为用户带来实际价值的重要场景之一。
第一次提示语为:"请为我制作一份美国《权利法案》的手绘笔记,采用ZDNET标志的风格,并以ZDNET的整体风格呈现。"生成结果为左图。第二次提示语为:"请加入ZDNET标志,并增加更多霓虹风格的色彩,可以考虑使用黑色背景。"生成结果为右图。
首先值得注意的是,文字内容完全正确,没有重复,也没有遗漏。仅凭这一点,就已远超Nano Banana的表现。两个版本的视觉风格也与ZDNET的品牌调性相符。唯一略显不足的是,第二张图中ZDNET标志的摆放位置略显局促。不过标志本身是正确的,再经过几轮提示调整,定位应该可以进一步优化。
然而,测试过程中也暴露出一个明显的失误。我要求Images 2.0将我撰写的一篇AI网站构建工具对比文章转换为信息图。它生成了一张尚算可用的信息图,内容略显繁杂,甚至还主动联网补充了文章中没有提及的信息,例如各工具的基础定价。
但图中出现了四处明显错误。公平地说,这些错误与内部人工设计师在初稿阶段常见的问题并无太大区别。回顾多年担任创始人和产品经理的经历,设计师在初版图稿中犯下更严重错误的情况也并不罕见。
当我针对错误重新进行提示(星级评分部分在第二版中未作修正)后,Images 2.0确实正确地对信息图进行了修改,呈现出更为准确的内容。
总体而言,此次Images 2.0的发布是相较于此前版本的一次重大升级。去年体验的ChatGPT图像版本已令人印象深刻,尤其在图像重新情境化方面表现突出。
而这个能够理解实际内容并据此创作图像的新版本,相比之前的构建版本是一次质的飞跃。更重要的是,它能够创造出切实的商业价值,这使它不仅仅适用于娱乐性图片创作,更具备真正的工作应用潜力。
后续笔者还将测试本版本与Google Gemini Nano Banana的横向比较,并进一步探索其在工作场景中的应用潜力,尤其是用户界面设计方面的表现,敬请关注。
Q&A
Q1:ChatGPT Images 2.0与之前的版本相比有哪些主要改进?
A:ChatGPT Images 2.0相较于之前版本实现了重大升级。最核心的变化是从生成简单的装饰性图片,跨越到能够创作包含详细文字的完整页面图形内容。新版本能够理解并解析实际文章内容,并将其转化为信息图等实用图形,文字准确性大幅提升,即便是倾斜排布的细小字体也能正确呈现,同时还能主动联网补充相关信息,具备更强的实际工作应用价值。
Q2:ChatGPT Images 2.0在品牌视觉设计方面的表现如何?
A:表现相当出色。测试中,ChatGPT Images 2.0能够准确识别并复现上传的品牌标志,配色也能精准匹配品牌风格。在将文章转化为ZDNET品牌风格信息图的测试中,标志呈现正确,色彩搭配到位,图中所有文字内容均无误。不过在部分情况下,标志的排版位置略显局促,可通过多轮提示进行调整优化。
Q3:ChatGPT Images 2.0会不会产生错误内容?
A:会的,测试中确实发现了错误。在将对比文章转化为信息图的测试里,出现了四处明显错误,与人工设计师初稿阶段的常见问题类似。但好消息是,当针对错误进行重新提示后,Images 2.0能够正确修改对应内容。因此建议将其视为可迭代优化的辅助工具,而非一次性输出的完美方案,适合多轮提示配合使用。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。