OpenAI 的 4o 图像生成器的推出掀起了一股 AI 动漫热潮。
这一发展引发了关于 AI 辅助视觉创作的能力、局限性和版权问题的新一轮讨论。与之前主要关注艺术诠释和风格迁移的 Dall.E 模型 (灵感来自西班牙超现实主义画家萨尔瓦多·达利) 不同,4o 图像生成器似乎专注于解决特定的专业痛点,尤其是在文本渲染和多图像一致性方面。
随着各大 AI 平台开发出各自的特色功能,这一领域变得愈发拥挤,展现了生成式 AI 的进步与持续存在的挑战。
竞争格局
AI 图像生成市场已演变成一个专业化的生态系统,不同工具服务于明显不同的用途。Midjourney 为数字画家和概念艺术家提供了广泛的风格选择。其作品经常出现在专业作品集甚至博物馆展览中,尽管其倾向于光鲜亮丽、超现实的装饰风格可能会让追求更写实表现的用户感到困扰。
Google 的 Gemini 2.5 采用不同方式,优先考虑与 Google 服务的集成。Meta AI 专注于生成适合社交媒体使用场景的图像,利用海量媒体数据和专业知识创作表情包等内容。其实时协作和故事标题建议功能也使其适应在线交流需求。Grok AI 在聊天中利用图像生成功能,促进图像从文本讨论中逐步演化的头脑风暴会话。
在商业领域,Adobe 的 Firefly 通过提供经过法律审查的图像和与 Creative Cloud 应用程序的直接集成,解决了商业用户的两大主要顾虑,从而获得企业采用。
AI 图像生成的应用
OpenAI 的 4o 图像生成器采用了最新的自回归模型。在最近的一篇论文中,来自加州大学圣地亚哥分校和 Nvidia 的研究人员解释道,自回归模型将"图像和指令作为输入,并在普通的下一个 token 范式中预测编辑后的图像 token。该模型采用先进的自回归架构,将图像处理为 token 序列,实现更连贯的多元素生成。"
借助自回归模型,OpenAI 的新图像生成器在以下方面表现出特殊优势:
文本渲染:在生成图像中的可读文本方面显示出显著改进,这是之前模型的典型弱点。营销团队现在可以创建带有合理标识和口号的模型,教育工作者也报告能够生成带有准确标签的科学图表。
上下文一致性:与经常难以在多个图像中保持角色或对象一致性的 DALL-E 3 不同,4o 在连续生成方面表现更好。这可能有助于设计师、动画师和数字故事讲述者在创建故事板序列时减少修改时间。
提示词遵循:该模型较少出现使早期版本在专业使用中难以预测的创造性重新解释。
AI 图像生成器正在改变公司大规模创建和传递视觉内容的方式。例如,Dashoon 构建了一个生成式 AI 平台,使故事讲述者每天能生产 50,000 张图像,大大加快了创意工作流程。类似地,Ayna 使用 Azure OpenAI Service 训练扩散模型,使品牌能在几分钟内生成产品目录照片和虚拟试穿体验,避免传统工作室设置的时间和成本。在食品零售领域,Blinkit 应用生成式 AI 创建了数千张与其产品目录相关的个性化食谱图片,通过视觉丰富的定制内容增强客户参与度。这些应用展示了 AI 图像生成如何通过提升速度、个性化和视觉创新来重塑行业。联合利华的亚洲营销部门利用 AI 生成的资产进行产品视觉展示,报告生产时间减少了 50%。
然而,AI 图像和视频生成器仍存在局限性。例如,近乎完美的人脸渲染、动物毛发、物体表面,往往使 AI 生成的图像看起来塑料感和不自然。夸张的面部表情可能更容易被图像生成器检测、识别,因此也更容易被生成。但真实的人类并不认同这些过于做作的场景和表情。AI 生成的广告,如可口可乐 2024 年的节日广告,也因缺乏真实性而引发争议。
创造力悖论
随着这些工具使图像创作民主化,它们同时也降低了某些形式的技术艺术价值。AI 图像生成的兴起取代了传统角色,同时创造了对新的 AI 增强技能的需求。根据世界经济论坛的 2025 年就业未来报告,到 2030 年,图形设计师、广告专业人员和印刷工作者等岗位预计将显著减少,部分原因是内容创作和视觉设计的自动化。
与此同时,支持生成式 AI 的角色,如机器学习专家、数据工程师和数字转型专家,正成为增长最快的岗位。这种转变预示着更广泛的转型:随着生成工具越来越多地嵌入视觉制作流程,创意工作者现在必须通过拥抱将人类判断与 AI 能力相结合的混合角色来适应。
但历史模式表明,技术颠覆通常是重新定义而非替代创意职业。就像摄影改变了绘画在视觉文化中的角色,计算机生成图像重塑了动画电影一样,AI 生成似乎正在将人类创造力转向它难以复制的领域:细微的文化理解、丰富的情感共鸣和更多有形的创新。
在创意产业面临剧烈自动化潜力的同时,我们看到公众越来越欣赏带有手工痕迹的艺术。高预算制作中手绘动画的溢价;年轻群体中模拟摄影的复兴;以及手工艺品持久的吸引力,都证明了人类触感、生活记忆和精心制作的细节所提供的丰富背景和意义的独特价值。
展望未来
AI 图像生成的演变既不是乌托邦式的转变,也不是存在性威胁,而是视觉交流的重新配置。专业采用者看到最成功的往往会:1) 实施明确的使用政策,指定可接受的应用。2) 维持对最终输出的人工监督,特别是在敏感领域。3) 开发混合工作流程,利用 AI 的速度同时保留人类判断。4) 持续评估定量指标和定性影响。
随着技术的成熟,其最终价值将不仅取决于技术能力,还取决于组织如何周到地将其整合到创意和运营流程中。最成功的用户可能是那些将 GPT-4o 图像生成器等工具视为协作者而非人类创造力替代品的人,这些工具可以处理某些任务,而将其他任务留给人类专家。
这种细致的方法认识到,虽然 AI 可以生成图像,但人类判断对于确定哪些图像值得生成以及它们最终意味着什么仍然至关重要。在 AI 图像生成器变得越来越准确的日益合成的视觉景观中,真正的挑战仍然存在:它们能否变得更加贴近人类体验?
好文章,需要你的鼓励
阿里纳德数据中心与Calibrant Energy合作开发首创电池储能系统,通过绕过传统电网升级时间线,使俄勒冈州希尔斯伯勒在建数据中心园区提前数年上线。该31兆瓦、62兆瓦时储能系统计划2026年投运,将作为响应电网的动态资产,在需求高峰期放电,增强区域电网可靠性。这标志着美国首次使用专用电池系统加速大型数据中心并网。
浙江大学和阿里巴巴集团联合开发的DATAMIND系统,通过创新的数据合成和训练方法,让AI具备了专业数据分析师的能力。该系统使用12,000个高质量训练样本,采用动态权重调整的混合训练策略,最终的DATAMIND-14B模型在多项测试中超越了GPT-5等商业模型,平均得分达71.16%。这项开源成果大大降低了数据分析的技术门槛,让普通用户也能获得专业级的数据洞察能力。
微软在Edge浏览器中推出增强版Copilot模式,提供更强大的AI代理功能,目前在美国进行限量预览。该模式包含Actions和Journeys两大功能:Actions让浏览器能代表用户执行任务,如语音控制打开网页或查找文章特定内容;Journeys则记住用户浏览历史,帮助用户继续之前的研究任务。此举正值AI浏览器竞争加剧,OpenAI推出ChatGPT Atlas、Perplexity发布Comet、谷歌集成Gemini到Chrome。目前Chrome占据71%市场份额,Edge仅占4.67%。
复旦大学团队针对掩码扩散语言模型提出三项关键技术:EOS早期拒绝解决句号陷阱问题,渐进式步长调度器将解码步骤从L/2降至log?L,一致性轨迹强化学习确保训练与实际运行的一致性。研究发现规划任务更适合并行解码而数学任务偏好顺序解码,为AI系统的任务特定优化提供新思路。