ChatGPT 整合 GPT-4o 推出图像生成功能

OpenAI 在 ChatGPT 中推出新的图像生成功能,称为"ChatGPT 中的图像"。用户现可直接在 ChatGPT 中使用 GPT-4o 生成图像,这项功能将在各个订阅层级中提供。新系统在文本渲染和属性绑定方面有显著改进,能够处理更复杂的场景,并包含强大的安全措施以防止滥用。

OpenAI 从今天开始将新的图像生成功能直接整合到 ChatGPT 中——这项功能被称为"Images in ChatGPT"。用户现在可以使用 GPT-4o 在 ChatGPT 中直接生成图像。

这次首次发布仅专注于图像创建功能,将面向 ChatGPT Plus、Pro、Team 和免费订阅层级的用户开放。发言人 Taya Christianson 告诉 The Verge,免费版的使用限制与 DALL-E 相同,但补充说他们"没有具体的数字可以分享",并且"这些限制可能会根据需求随时间变化"。根据 ChatGPT 常见问题解答,免费用户此前可以"每天使用 DALL-E 3 生成三张图片"。至于 DALL-E 的未来,Christianson 表示"粉丝们"将"仍然可以通过自定义 GPT 访问"。

研究负责人 Gabriel Goh 告诉 The Verge:"这个模型相比之前的模型是一个重大进步",他补充说团队使用了 GPT-4o "全模态"(一种可以生成文本、图像、音频和视频等任何类型数据的模型)基础来实现这个功能。

Goh 提到的一些改进包括"绑定",这指的是 AI 图像生成器如何维持属性和对象之间的正确关系;一个绑定能力差的模型可能在收到蓝色星星加红色三角形的提示时,会创建一个红色星星而没有三角形。Goh 说,大多数图像模型在处理这个问题时都很困难,在被要求渲染多个物品(通常是 5 到 8 个)时经常混淆颜色和形状。他表示,这个新的图像生成工具可以正确绑定 15 到 20 个对象的属性而不会混淆,这在准确性和可靠性方面代表了显著的进步。

用户还会注意到文本渲染的改进,这使得在图像上生成连贯的文本而不出现拼写错误变得更容易(在现有工具中,你经常会发现文本很容易变得混乱)。Goh 说,实现正确的文本渲染是一个重大挑战。如果小标题或文本元素有拼写错误,整个图像可能变得无法使用。

"这是一个经过多月反复迭代才完成的过程,"Goh 说。虽然还不完美,但他表示团队已经达到了文本质量持续可用的程度(它在非常小的文本上还是会出现错误)。"这是经过数月的小改进才实现的。"

该系统使用自回归方法——从左到右、从上到下按顺序生成图像,类似于文本的书写方式——而不是大多数图像生成器(如 DALL-E)使用的扩散模型技术,后者是一次性创建整个图像。Goh 推测,这种技术差异可能是赋予 Images in ChatGPT 更好的文本渲染和绑定能力的原因。

在功能发布前的简报中,团队展示了几个例子来说明系统的功能,包括具有正确标记组件的牛顿棱镜实验等科学图表、具有一致性角色和对话气泡的多面板漫画,以及准确文本的信息海报。他们还强调了实际应用,如创建透明背景的贴纸图像、餐厅菜单和标志。

ChatGPT 多模态产品负责人 Jackie Shannon 解释说:"当我去画一张图像时,我不仅受限于自己的技能......还会用到我积累的所有世界知识。这个模型将世界知识带入等式中,所以当你要求生成牛顿棱镜实验的图像时,你不需要解释那是什么就能得到图像。"

新系统生成图像的时间比以前更长,不过 OpenAI 认为这是值得的权衡。Shannon 说:"虽然我们在延迟方面肯定还有改进的空间...但这些图像的质量、功能和世界知识,真的弥补了他们多等待的几秒钟。"

在被问到安全保护措施时——提到了使用 Microsoft 模型生成的 Taylor Swift 裸体换脸事件,xAI 的 Grok 能够渲染持枪的 Kamala Harris,以及 Google Gemini 移除水印的能力——OpenAI 团队强调该系统包含了强大的安全保护措施以防止滥用。Shannon 说该工具可以防止水印移除、阻止生成性相关的换脸内容,并拒绝生成 CSAM 的请求。

OpenAI 的新图像生成系统不包含视觉水印或显示图像是 AI 生成的标识。不过,Shannon 解释说,"我们生成的所有图像都将包含标准的 C2PA 元数据,以标记图像是由 OpenAI 创建的",并且公司"将有一些内部工具来查找图像"。

"最终,对于这类问题没有完美的系统,但我们在不断改进我们的安全保护措施,我们认为这是一个起点,"Shannon 补充道。"ChatGPT 生成的所有图像都具有一个共同点,即用户拥有这些图像的所有权,并可以在我们的使用政策范围内随意使用它们。"

更新,3 月 25 日:文章最初将 ChatGPT 中的图像生成功能称为 Sora;它的正式名称是 Images in ChatGPT。

来源:The Verge

0赞

好文章,需要你的鼓励

2025

03/27

10:24

分享

点赞

邮件订阅