我亲测ChatGPT Images 2.0:功能飞跃,真正能用于实际工作

OpenAI正式发布ChatGPT图像2.0,相较前代实现重大突破——从生成简单"装饰图"跃升至支持包含详细文字的全页图形创作。作者通过品牌信息图、手绘笔记等多项实测发现,新版本在文字准确性和品牌风格还原方面表现突出,可为企业提供切实的商业价值。但测试也暴露出首次生成时存在数据错误等问题,整体仍需多轮提示修正才能达到理想效果。

本周早些时候,OpenAI正式发布了ChatGPT Images 2.0,这是其全新的图像生成引擎。此次发布的核心亮点,是功能上的重大跨越——从此前生成简单的"装饰性"图片(OpenAI的原话),升级为能够创作包含详细文字的完整页面图形内容。

笔者提前获得了预发布版本的测试权限。整体表现相当不错,但在处理ZDNET标志时屡屡出错。如今产品已正式上线,我决定对其进行一次全面深入的测试,涵盖多种不同类型的挑战。

Images 2.0对所有ChatGPT套餐层级开放,但更强大的语言功能仅面向付费用户,且需开启思维链(Thinking)模式才可使用。本次所有测试均在开启Thinking模式的ChatGPT Plus账户下进行。

首先从ZDNET品牌视觉相关的测试开始。为了让模型更准确地识别标志,我没有直接上传ZDNET页面截图让它自行寻找,而是单独提取了ZDNET标志图片,并在每次提示中一并上传。这个方法效果非常显著。

(补充说明:ZDNET不允许OpenAI抓取其页面内容。ZDNET母公司Ziff Davis已于2025年4月对OpenAI提起诉讼,指控其在训练和运营AI系统过程中侵犯了Ziff Davis的版权。因此,我使用Chrome扩展程序对相关文章进行了全屏截图,ChatGPT正是通过这种方式读取了文章内容。)

我的第一个测试,是将此前撰写的一篇关于Images 2.0的文章作为输入,并向ChatGPT输入如下提示语:"请根据这篇文章内容,结合ZDNET品牌风格和附件中的ZDNET标志,制作一张详细生动的信息图。"

结果令人满意——不仅标志呈现准确,配色也完美契合ZDNET的视觉风格。更令人惊喜的是图中文字的处理方式:所有文字内容均准确无误,甚至连以倾斜角度排布的细小字体也毫无差错。

接下来,我重新挑战了此前曾交给Google Nano Banana的手绘笔记(Sketchnotes)任务。当时的任务是制作一份美国《权利法案》的手绘笔记版本。Nano Banana在图像方面表现出色,但文字内容需要反复提示才能正确生成,整个过程相当繁琐。

这一次,我在难度上略作提升——不仅要生成手绘笔记,还要融入ZDNET的品牌风格。之所以在本文中持续强调品牌风格,是因为这正是ChatGPT Images 2.0能够为用户带来实际价值的重要场景之一。

第一次提示语为:"请为我制作一份美国《权利法案》的手绘笔记,采用ZDNET标志的风格,并以ZDNET的整体风格呈现。"生成结果为左图。第二次提示语为:"请加入ZDNET标志,并增加更多霓虹风格的色彩,可以考虑使用黑色背景。"生成结果为右图。

首先值得注意的是,文字内容完全正确,没有重复,也没有遗漏。仅凭这一点,就已远超Nano Banana的表现。两个版本的视觉风格也与ZDNET的品牌调性相符。唯一略显不足的是,第二张图中ZDNET标志的摆放位置略显局促。不过标志本身是正确的,再经过几轮提示调整,定位应该可以进一步优化。

然而,测试过程中也暴露出一个明显的失误。我要求Images 2.0将我撰写的一篇AI网站构建工具对比文章转换为信息图。它生成了一张尚算可用的信息图,内容略显繁杂,甚至还主动联网补充了文章中没有提及的信息,例如各工具的基础定价。

但图中出现了四处明显错误。公平地说,这些错误与内部人工设计师在初稿阶段常见的问题并无太大区别。回顾多年担任创始人和产品经理的经历,设计师在初版图稿中犯下更严重错误的情况也并不罕见。

当我针对错误重新进行提示(星级评分部分在第二版中未作修正)后,Images 2.0确实正确地对信息图进行了修改,呈现出更为准确的内容。

总体而言,此次Images 2.0的发布是相较于此前版本的一次重大升级。去年体验的ChatGPT图像版本已令人印象深刻,尤其在图像重新情境化方面表现突出。

而这个能够理解实际内容并据此创作图像的新版本,相比之前的构建版本是一次质的飞跃。更重要的是,它能够创造出切实的商业价值,这使它不仅仅适用于娱乐性图片创作,更具备真正的工作应用潜力。

后续笔者还将测试本版本与Google Gemini Nano Banana的横向比较,并进一步探索其在工作场景中的应用潜力,尤其是用户界面设计方面的表现,敬请关注。

Q&A

Q1:ChatGPT Images 2.0与之前的版本相比有哪些主要改进?

A:ChatGPT Images 2.0相较于之前版本实现了重大升级。最核心的变化是从生成简单的装饰性图片,跨越到能够创作包含详细文字的完整页面图形内容。新版本能够理解并解析实际文章内容,并将其转化为信息图等实用图形,文字准确性大幅提升,即便是倾斜排布的细小字体也能正确呈现,同时还能主动联网补充相关信息,具备更强的实际工作应用价值。

Q2:ChatGPT Images 2.0在品牌视觉设计方面的表现如何?

A:表现相当出色。测试中,ChatGPT Images 2.0能够准确识别并复现上传的品牌标志,配色也能精准匹配品牌风格。在将文章转化为ZDNET品牌风格信息图的测试中,标志呈现正确,色彩搭配到位,图中所有文字内容均无误。不过在部分情况下,标志的排版位置略显局促,可通过多轮提示进行调整优化。

Q3:ChatGPT Images 2.0会不会产生错误内容?

A:会的,测试中确实发现了错误。在将对比文章转化为信息图的测试里,出现了四处明显错误,与人工设计师初稿阶段的常见问题类似。但好消息是,当针对错误进行重新提示后,Images 2.0能够正确修改对应内容。因此建议将其视为可迭代优化的辅助工具,而非一次性输出的完美方案,适合多轮提示配合使用。

来源:ZDNET

0赞

好文章,需要你的鼓励

2026

04/27

09:47

分享

点赞

邮件订阅