本周 ChatGPT 获得了新的艺术创作升级。母公司 OpenAI 于周三宣布,将 AI 图像生成功能直接整合到其旗舰聊天机器人中。这项功能显然非常受 ChatGPT 用户欢迎,以至于 CEO Sam Altman 在社交媒体上表示公司的 "GPU 都要融化了"。
Sam Altman (@sama) 在 2025 年 3 月 27 日发推文说:"看到人们喜欢在 ChatGPT 中生成图像真是太有趣了。但我们的 GPU 都要融化了。我们将暂时引入一些速率限制,同时努力提高效率。希望这个限制不会持续太久!ChatGPT 免费版用户很快将被限制为每天 3 次生成。"
OpenAI 的 GPU 和服务器可能并没有真的融化,但在需求增加的情况下,确实会消耗更多能源 (并产生更多热量) 并降低请求处理速度。Altman 表示,为了管理激增的请求量,公司将"在努力提高效率的同时"实施临时速率限制。这对图像生成来说并不罕见——通常升级到付费计划可以获得更多保证的快速生成次数。这有点像在迪士尼乐园购买快速通行证可以跳过长队。当 ChatGPT 的图像生成工具昨天推出时,还没有这些不同的通道。
在 ChatGPT 新的图像生成器推出的短短几小时内,一个趋势已经出现:人们正在使用它来制作吉卜力工作室风格的图像。如果你不熟悉:吉卜力的电影如《龙猫》和《悬崖上的金鱼姬》都有标志性的艺术风格。Altman 甚至将他在 X 平台上的头像换成了吉卜力风格的自己。但是创作者和 AI 公司之间的紧张关系持续升温。科技作家 Brian Merchant 在《机器中的血液》一文中指出,OpenAI 倾向于这种风格是一个值得深思的选择,特别是考虑到吉卜力工作室创始人宫崎骏曾说过 AI 工具是"对生命本身的侮辱"。
Dall-E vs ChatGPT
过去,如果人们想要使用 ChatGPT 创建图像,他们必须使用 Dall-E。Dall-E 是一个独立的程序,你可以搜索并使用它。它是我们评选的最佳 AI 图像生成器,部分原因是其独特的对话式风格使创建和编辑图像变得容易。Dall-E 仍然可以使用,而且幸运的是,ChatGPT 版本也包含了那种"对话式编辑"功能。
无论你使用什么计划,都可以使用 Dall-E 或 ChatGPT。ChatGPT 提供免费版本,付费计划起价为每月 20 美元,提供更多功能。如果你使用 ChatGPT,你当前计划的限制将适用于图像生成——如果你使用免费计划,在使用 4o 模型进行消息发送、文件上传和数据分析时可能会遇到限制。Altman 发推文说,免费用户很快将被限制为每天 3 次生成,但没有具体说明时间。
使用 ChatGPT 的图像生成
ChatGPT 4o 的图像生成将更专注于创建工作相关的图像,如信息图表和图表。OpenAI 表示已经改进了文本渲染以实现这一目标——这是非常必要的,因为 AI 经常会产生幻觉并在图像中弄错文字。你还可以上传自己的图像并使用 AI 进行编辑。
ChatGPT 的功能存在一些严重的限制。最重要的是,它表示你可能无法精确编辑图像的特定区域——这是一个重要任务,因为 AI 模型可能会产生幻觉,比如画出十一根手指的手。如果你上传自己的图像并对主体的面部进行编辑,这些更改可能会在编辑之间丢失。你可能还会遇到裁剪问题,以及在数据可视化和多语言文本方面的困难。该公司在博客文章中表示,正在努力改进这些问题,希望最早在下周推出修复方案。
与 Dall-E 一样,在 ChatGPT 中制作的图像没有任何可见的水印表明它们是 AI 生成的。OpenAI 表示,其图像将包含 C2PA 元数据,这是一个行业标准,可以让人们在幕后知道图像是由 AI 制作的。在安全性方面,OpenAI 表示将遵循与 4o 模型其他部分相同的内容准则。它表示对裸露和暴力图像有"更严格的限制"。
如何使用 ChatGPT 创建图像
现在借助 AI 实现你的艺术愿景比以往更容易。如果你想尝试 ChatGPT 的新图像生成器,以下是访问新功能的几种方法:
1. 在主页上,点击搜索和深度研究旁边的三个点。点击"创建图像"。 2. 要进行编辑,只需在聊天栏中输入你的请求并发送。 3. 当你准备使用图像时,点击右上角的向下箭头下载文件。
在我最初的简短测试中,我发现如果你提供一个参考源(如原始资料的 URL),它更可能使用正确的信息。
好文章,需要你的鼓励
数据分析平台公司Databricks完成10亿美元K轮融资,公司估值超过1000亿美元,累计融资总额超过200亿美元。公司第二季度收入运营率达到40亿美元,同比增长50%,AI产品收入运营率超过10亿美元。超过650家客户年消费超过100万美元,净收入留存率超过140%。资金将用于扩展Agent Bricks和Lakebase业务及全球扩张。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
医疗信息管理平台Predoc宣布获得3000万美元新融资,用于扩大运营规模并在肿瘤科、研究网络和虚拟医疗提供商中推广应用。该公司成立于2022年,利用人工智能技术提供端到端平台服务,自动化病历检索并整合为可操作的临床洞察。平台可实现病历检索速度提升75%,临床审查时间减少70%,旨在增强而非替代临床判断。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。