本周早些时候,OpenAI正式发布了ChatGPT Images 2.0,这是其全新的图像生成引擎。此次发布的核心亮点,是功能上的重大跨越——从此前生成简单的"装饰性"图片(OpenAI的原话),升级为能够创作包含详细文字的完整页面图形内容。
笔者提前获得了预发布版本的测试权限。整体表现相当不错,但在处理ZDNET标志时屡屡出错。如今产品已正式上线,我决定对其进行一次全面深入的测试,涵盖多种不同类型的挑战。
Images 2.0对所有ChatGPT套餐层级开放,但更强大的语言功能仅面向付费用户,且需开启思维链(Thinking)模式才可使用。本次所有测试均在开启Thinking模式的ChatGPT Plus账户下进行。
首先从ZDNET品牌视觉相关的测试开始。为了让模型更准确地识别标志,我没有直接上传ZDNET页面截图让它自行寻找,而是单独提取了ZDNET标志图片,并在每次提示中一并上传。这个方法效果非常显著。
(补充说明:ZDNET不允许OpenAI抓取其页面内容。ZDNET母公司Ziff Davis已于2025年4月对OpenAI提起诉讼,指控其在训练和运营AI系统过程中侵犯了Ziff Davis的版权。因此,我使用Chrome扩展程序对相关文章进行了全屏截图,ChatGPT正是通过这种方式读取了文章内容。)
我的第一个测试,是将此前撰写的一篇关于Images 2.0的文章作为输入,并向ChatGPT输入如下提示语:"请根据这篇文章内容,结合ZDNET品牌风格和附件中的ZDNET标志,制作一张详细生动的信息图。"
结果令人满意——不仅标志呈现准确,配色也完美契合ZDNET的视觉风格。更令人惊喜的是图中文字的处理方式:所有文字内容均准确无误,甚至连以倾斜角度排布的细小字体也毫无差错。
接下来,我重新挑战了此前曾交给Google Nano Banana的手绘笔记(Sketchnotes)任务。当时的任务是制作一份美国《权利法案》的手绘笔记版本。Nano Banana在图像方面表现出色,但文字内容需要反复提示才能正确生成,整个过程相当繁琐。
这一次,我在难度上略作提升——不仅要生成手绘笔记,还要融入ZDNET的品牌风格。之所以在本文中持续强调品牌风格,是因为这正是ChatGPT Images 2.0能够为用户带来实际价值的重要场景之一。
第一次提示语为:"请为我制作一份美国《权利法案》的手绘笔记,采用ZDNET标志的风格,并以ZDNET的整体风格呈现。"生成结果为左图。第二次提示语为:"请加入ZDNET标志,并增加更多霓虹风格的色彩,可以考虑使用黑色背景。"生成结果为右图。
首先值得注意的是,文字内容完全正确,没有重复,也没有遗漏。仅凭这一点,就已远超Nano Banana的表现。两个版本的视觉风格也与ZDNET的品牌调性相符。唯一略显不足的是,第二张图中ZDNET标志的摆放位置略显局促。不过标志本身是正确的,再经过几轮提示调整,定位应该可以进一步优化。
然而,测试过程中也暴露出一个明显的失误。我要求Images 2.0将我撰写的一篇AI网站构建工具对比文章转换为信息图。它生成了一张尚算可用的信息图,内容略显繁杂,甚至还主动联网补充了文章中没有提及的信息,例如各工具的基础定价。
但图中出现了四处明显错误。公平地说,这些错误与内部人工设计师在初稿阶段常见的问题并无太大区别。回顾多年担任创始人和产品经理的经历,设计师在初版图稿中犯下更严重错误的情况也并不罕见。
当我针对错误重新进行提示(星级评分部分在第二版中未作修正)后,Images 2.0确实正确地对信息图进行了修改,呈现出更为准确的内容。
总体而言,此次Images 2.0的发布是相较于此前版本的一次重大升级。去年体验的ChatGPT图像版本已令人印象深刻,尤其在图像重新情境化方面表现突出。
而这个能够理解实际内容并据此创作图像的新版本,相比之前的构建版本是一次质的飞跃。更重要的是,它能够创造出切实的商业价值,这使它不仅仅适用于娱乐性图片创作,更具备真正的工作应用潜力。
后续笔者还将测试本版本与Google Gemini Nano Banana的横向比较,并进一步探索其在工作场景中的应用潜力,尤其是用户界面设计方面的表现,敬请关注。
Q&A
Q1:ChatGPT Images 2.0与之前的版本相比有哪些主要改进?
A:ChatGPT Images 2.0相较于之前版本实现了重大升级。最核心的变化是从生成简单的装饰性图片,跨越到能够创作包含详细文字的完整页面图形内容。新版本能够理解并解析实际文章内容,并将其转化为信息图等实用图形,文字准确性大幅提升,即便是倾斜排布的细小字体也能正确呈现,同时还能主动联网补充相关信息,具备更强的实际工作应用价值。
Q2:ChatGPT Images 2.0在品牌视觉设计方面的表现如何?
A:表现相当出色。测试中,ChatGPT Images 2.0能够准确识别并复现上传的品牌标志,配色也能精准匹配品牌风格。在将文章转化为ZDNET品牌风格信息图的测试中,标志呈现正确,色彩搭配到位,图中所有文字内容均无误。不过在部分情况下,标志的排版位置略显局促,可通过多轮提示进行调整优化。
Q3:ChatGPT Images 2.0会不会产生错误内容?
A:会的,测试中确实发现了错误。在将对比文章转化为信息图的测试里,出现了四处明显错误,与人工设计师初稿阶段的常见问题类似。但好消息是,当针对错误进行重新提示后,Images 2.0能够正确修改对应内容。因此建议将其视为可迭代优化的辅助工具,而非一次性输出的完美方案,适合多轮提示配合使用。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。