OpenAI 推出 GPT-4o 原生图像生成功能，效果令用户惊叹

OpenAI 终于为其旗舰聊天机器人 ChatGPT 启用了 GPT-4o 的原生多模态图像生成功能。与传统的 DALL-E 3 相比，这项新功能作为同一模型的一部分，能够同时理解和生成文本、代码和图像，展现出更高质量的图像生成能力和更准确的文字渲染效果，已经获得用户的高度赞誉。

在 OpenAI 于 2024 年 5 月发布首个"全能"多模态模型 GPT-4o 即将一周年之际，这款经典模型又带来了新的惊喜。

今天，OpenAI 终于为 ChatGPT 的 Plus、Pro、Team 和免费用户开放了 GPT-4o 的原生多模态图像生成功能。公司表示，该功能很快也将面向企业版、教育版用户开放，并通过 API 提供服务。

与 ChatGPT 此前使用的生成式 AI 图像模型（OpenAI 的 DALL-E 3，一个通过去除像素噪声从文本提示重建图像的经典扩散 Transformer 模型）不同，这个新的图像生成器是输出文本和代码的同一模型的一部分，因为 OpenAI 训练整个模型同时理解所有这些媒体形式。

OpenAI 总裁 Greg Brockman 早在 2024 年 5 月就预览过 GPT-4o 的这种原生功能，但出于目前尚未公开的原因，公司一直将其保留到现在才发布——这是在 Google AI Studio 发布了被许多 AI 高级用户认为类似的 Gemini 2 Flash 实验模型功能之后。

这带来了质量更高的图像生成器，可以生成更逼真的图像和更准确的嵌入文本，已经给用户留下了深刻印象——有用户称其质量"令人疯狂"。

同样值得注意的是，OpenAI 仍然没有明确说明 GPT-4o 的图像生成功能是用什么数据训练的——考虑到该公司和其他模型提供商的历史，很可能包含了从网络上抓取的许多艺术作品，其中一些可能受版权保护，这很可能会激怒这些作品背后的艺术家。

将图像生成引入 ChatGPT 和 Sora

OpenAI 一直致力于将图像生成作为其 AI 模型的核心功能。通过 GPT-4o，用户现在可以直接在 ChatGPT 中生成图像，通过对话进行完善，并即时调整细节。

该模型还集成到了 OpenAI 的视频生成平台 Sora 中，进一步扩展了多模态功能。

在 X 平台的公告中，OpenAI 确认 GPT-4o 的图像生成旨在： - 准确渲染图像中的文本，可以创建标志、菜单、邀请函和信息图表 - 精确执行复杂提示，即使在详细构图中也能保持高保真度 - 基于先前的图像和文本构建，确保多次交互中的视觉一致性 - 支持各种艺术风格，从照片写实到风格化插图

用户可以在 ChatGPT 中描述一个图像，指定诸如宽高比、配色方案 (十六进制代码) 或透明度等细节，GPT-4o 将在一分钟内生成它。

正如独立 AI 顾问 Allie K. Miller 在 X 上所写，这是"文本生成的巨大飞跃"，是她见过的"最好的" AI 图像生成模型。

主要功能和用例

GPT-4o 的设计不仅注重视觉效果，还确保实用性。主要应用包括： - 设计与品牌 – 生成带有精确文本布局的标志、海报和广告 - 教育与可视化 – 创建科学图表、信息图表和历史图像用于学习 - 游戏开发 – 在不同设计迭代中保持角色一致性 - 营销与内容创作 – 根据品牌需求制作社交媒体素材、活动邀请函和数字插图

GPT-4o 如何改进 DALL-E 的生成图像

根据 OpenAI 在 X 上的官方帖子，GPT-4o 相比之前的模型有以下几项改进：

更好的文本集成： - 与过去在可读性和文本布局方面存在困难的 AI 模型不同，GPT-4o 现在可以准确地在图像中嵌入文字

增强的上下文理解： - GPT-4o 利用聊天历史，允许用户交互式地完善图像，并在多次生成中保持连贯性

改进的多对象绑定： - 虽然之前的模型在正确定位场景中的多个不同对象时存在困难，但 GPT-4o 现在可以同时处理 10-20 个对象

多样化的风格适应： - 该模型可以生成或转换图像为各种风格，从手绘草图到高分辨率照片写实风格

局限性

尽管取得了进展，GPT-4o 仍然存在一些已知挑战：

裁剪问题： - 大尺寸图像（如海报）有时可能裁剪过紧

非拉丁文字的准确性： - 某些非英语字符可能无法正确渲染

小文本的细节保留： - 高度详细或小字体的文本可能会失去清晰度

编辑精确度： - 修改图像的特定部分可能会无意中影响其他元素

OpenAI 正在通过持续的模型改进来解决这些问题。

安全和标签措施

作为 OpenAI 负责任 AI 开发承诺的一部分，所有 GPT-4o 生成的图像都包含 C2PA 元数据，允许用户验证其 AI 来源。

此外，OpenAI 还建立了内部搜索工具来帮助检测 AI 生成的图像。

系统设有严格的保护措施来阻止有害内容和防止滥用，比如禁止生成露骨、欺骗性或有害的图像。

OpenAI 还确保对包含真实人物的图像施加更严格的限制。

OpenAI CEO Sam Altman 将此次发布描述为"创作自由的新高度"，强调用户将能够创建广泛的视觉内容，同时 OpenAI 将基于实际使用情况观察和完善其方法。

随着 AI 生成图像变得更加精确和易于使用，GPT-4o 代表着将文本转图像生成技术转变为主流通信、创意和生产力工具的重要一步。

来源：VentureBeat

0赞

好文章，需要你的鼓励

OpenAI 推出 GPT-4o 原生图像生成功能，效果令用户惊叹

来源：VentureBeat

2025

03/26

17:54

分享

点赞

Bookshop.org确认今年将推出Kobo电子书阅读器支持

WeWard新增"步行模式"：走够步数才能解锁应用

X将通过私信通知用户其互动帖子被社区笔记纠错

"慢社交"应用Roost：让消息像真鸟一样飞行

Truecaller与印度电信监管机构就反垃圾电话规则展开公开交锋

Block与46州达成4500万美元和解，涉Cash App欺诈纠纷

欧盟威胁对Meta开出罚款，剑指Facebook和Instagram上瘾性设计

Disney+考虑推出免费流媒体内容层级

HyperTexting：将开放网络变成类社交媒体信息流的新应用

TV Time关闭之际，创始人打造新追剧应用Bingers

Telegram短链域名t.me因制裁合规问题短暂下线后已恢复

Apple芯片现不可修复漏洞，或成iPhone越狱突破口

Red Hat 简化 AI 应用训练和推理的数据访问流程

Groq 和 PlayAI 让 AI 语音更接近人类 — 这是他们的方法

OpenAI 爆火的吉卜力风格引发 AI 版权担忧

ETSI 发布首个后量子加密标准

ChatGPT 整合 GPT-4o 推出图像生成功能

让数据为 AI 做好准备的三个步骤

Gemini 2.5 Pro 问世：提供更强大的性能和更出色的体验

Imandra 新推出的 AI 编程助手 CodeLogician 利用"推理能力"确保代码准确性

微软为研究和数据分析推出"深度推理"版 Copilot AI

Amazon 推出 AI 智能购物助手，洞悉你的喜好

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: