OpenAI 的 4o 图像生成器的推出掀起了一股 AI 动漫热潮。
这一发展引发了关于 AI 辅助视觉创作的能力、局限性和版权问题的新一轮讨论。与之前主要关注艺术诠释和风格迁移的 Dall.E 模型 (灵感来自西班牙超现实主义画家萨尔瓦多·达利) 不同,4o 图像生成器似乎专注于解决特定的专业痛点,尤其是在文本渲染和多图像一致性方面。
随着各大 AI 平台开发出各自的特色功能,这一领域变得愈发拥挤,展现了生成式 AI 的进步与持续存在的挑战。
竞争格局
AI 图像生成市场已演变成一个专业化的生态系统,不同工具服务于明显不同的用途。Midjourney 为数字画家和概念艺术家提供了广泛的风格选择。其作品经常出现在专业作品集甚至博物馆展览中,尽管其倾向于光鲜亮丽、超现实的装饰风格可能会让追求更写实表现的用户感到困扰。
Google 的 Gemini 2.5 采用不同方式,优先考虑与 Google 服务的集成。Meta AI 专注于生成适合社交媒体使用场景的图像,利用海量媒体数据和专业知识创作表情包等内容。其实时协作和故事标题建议功能也使其适应在线交流需求。Grok AI 在聊天中利用图像生成功能,促进图像从文本讨论中逐步演化的头脑风暴会话。
在商业领域,Adobe 的 Firefly 通过提供经过法律审查的图像和与 Creative Cloud 应用程序的直接集成,解决了商业用户的两大主要顾虑,从而获得企业采用。
AI 图像生成的应用
OpenAI 的 4o 图像生成器采用了最新的自回归模型。在最近的一篇论文中,来自加州大学圣地亚哥分校和 Nvidia 的研究人员解释道,自回归模型将"图像和指令作为输入,并在普通的下一个 token 范式中预测编辑后的图像 token。该模型采用先进的自回归架构,将图像处理为 token 序列,实现更连贯的多元素生成。"
借助自回归模型,OpenAI 的新图像生成器在以下方面表现出特殊优势:
文本渲染:在生成图像中的可读文本方面显示出显著改进,这是之前模型的典型弱点。营销团队现在可以创建带有合理标识和口号的模型,教育工作者也报告能够生成带有准确标签的科学图表。
上下文一致性:与经常难以在多个图像中保持角色或对象一致性的 DALL-E 3 不同,4o 在连续生成方面表现更好。这可能有助于设计师、动画师和数字故事讲述者在创建故事板序列时减少修改时间。
提示词遵循:该模型较少出现使早期版本在专业使用中难以预测的创造性重新解释。
AI 图像生成器正在改变公司大规模创建和传递视觉内容的方式。例如,Dashoon 构建了一个生成式 AI 平台,使故事讲述者每天能生产 50,000 张图像,大大加快了创意工作流程。类似地,Ayna 使用 Azure OpenAI Service 训练扩散模型,使品牌能在几分钟内生成产品目录照片和虚拟试穿体验,避免传统工作室设置的时间和成本。在食品零售领域,Blinkit 应用生成式 AI 创建了数千张与其产品目录相关的个性化食谱图片,通过视觉丰富的定制内容增强客户参与度。这些应用展示了 AI 图像生成如何通过提升速度、个性化和视觉创新来重塑行业。联合利华的亚洲营销部门利用 AI 生成的资产进行产品视觉展示,报告生产时间减少了 50%。
然而,AI 图像和视频生成器仍存在局限性。例如,近乎完美的人脸渲染、动物毛发、物体表面,往往使 AI 生成的图像看起来塑料感和不自然。夸张的面部表情可能更容易被图像生成器检测、识别,因此也更容易被生成。但真实的人类并不认同这些过于做作的场景和表情。AI 生成的广告,如可口可乐 2024 年的节日广告,也因缺乏真实性而引发争议。
创造力悖论
随着这些工具使图像创作民主化,它们同时也降低了某些形式的技术艺术价值。AI 图像生成的兴起取代了传统角色,同时创造了对新的 AI 增强技能的需求。根据世界经济论坛的 2025 年就业未来报告,到 2030 年,图形设计师、广告专业人员和印刷工作者等岗位预计将显著减少,部分原因是内容创作和视觉设计的自动化。
与此同时,支持生成式 AI 的角色,如机器学习专家、数据工程师和数字转型专家,正成为增长最快的岗位。这种转变预示着更广泛的转型:随着生成工具越来越多地嵌入视觉制作流程,创意工作者现在必须通过拥抱将人类判断与 AI 能力相结合的混合角色来适应。
但历史模式表明,技术颠覆通常是重新定义而非替代创意职业。就像摄影改变了绘画在视觉文化中的角色,计算机生成图像重塑了动画电影一样,AI 生成似乎正在将人类创造力转向它难以复制的领域:细微的文化理解、丰富的情感共鸣和更多有形的创新。
在创意产业面临剧烈自动化潜力的同时,我们看到公众越来越欣赏带有手工痕迹的艺术。高预算制作中手绘动画的溢价;年轻群体中模拟摄影的复兴;以及手工艺品持久的吸引力,都证明了人类触感、生活记忆和精心制作的细节所提供的丰富背景和意义的独特价值。
展望未来
AI 图像生成的演变既不是乌托邦式的转变,也不是存在性威胁,而是视觉交流的重新配置。专业采用者看到最成功的往往会:1) 实施明确的使用政策,指定可接受的应用。2) 维持对最终输出的人工监督,特别是在敏感领域。3) 开发混合工作流程,利用 AI 的速度同时保留人类判断。4) 持续评估定量指标和定性影响。
随着技术的成熟,其最终价值将不仅取决于技术能力,还取决于组织如何周到地将其整合到创意和运营流程中。最成功的用户可能是那些将 GPT-4o 图像生成器等工具视为协作者而非人类创造力替代品的人,这些工具可以处理某些任务,而将其他任务留给人类专家。
这种细致的方法认识到,虽然 AI 可以生成图像,但人类判断对于确定哪些图像值得生成以及它们最终意味着什么仍然至关重要。在 AI 图像生成器变得越来越准确的日益合成的视觉景观中,真正的挑战仍然存在:它们能否变得更加贴近人类体验?
好文章,需要你的鼓励
腾讯今日开源混元MT系列语言模型,专门针对翻译任务进行优化。该系列包含四个模型,其中两个旗舰模型均拥有70亿参数。腾讯使用四个不同数据集进行初始训练,并采用强化学习进行优化。在WMT25基准测试中,混元MT在31个语言对中的30个表现优于谷歌翻译,某些情况下得分高出65%,同时也超越了GPT-4.1和Claude 4 Sonnet等模型。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
今年是Frontiers Health十周年。在pharmaphorum播客的Frontiers Health限定系列中,网络编辑Nicole Raleigh采访了Startup Health总裁兼联合创始人Unity Stoakes。Stoakes在科技、科学和设计交汇领域深耕30多年,致力于变革全球健康。他认为,Frontiers Health通过精心选择的空间促进有意义的网络建设,利用网络效应推进创新力量,让企业家共同构建并带来改变,从而有益地影响全球人类福祉。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。