Google 的 Gemini 2.0 Flash 原生多模态 AI 图像生成功能给人留下深刻印象

谷歌最新的开源 AI 模型 Gemma 3 并不是今天 Alphabet 子公司唯一的重要新闻。实际上，谷歌的 Gemini 2.0 Flash 以原生图像生成技术吸引了更多的关注，这是一个可供 Google AI Studio 用户和开发者通过谷歌的 Gemini API 免费使用的新实验模型。这是美国主要科技公司首次将多模态图像生成直接集成到模型中供消费者使用。与其他大多数 AI 图像生成工具不同，Gemini 2.0 Flash 可以在用户输入文本提示的同一模型中原生生成图像，理论上允许更高的准确性和更多的功能，早期迹象表明这一点完全正确。

谷歌最新的开源 AI 模型 Gemma 3 并不是今天这家 Alphabet 子公司唯一的大新闻。

事实上，真正吸引眼球的是谷歌的 Gemini 2.0 Flash，它具备原生图像生成功能，这是一种新的实验性模型，免费提供给 Google AI Studio 的用户，并通过谷歌的 Gemini API 提供给开发者。

这是美国主要科技公司首次在模型中直接向消费者提供多模态图像生成。大多数其他 AI 图像生成工具是将扩散模型（特定于图像的）与大语言模型（LLM）连接起来，需要在两个模型之间进行一些解释，以生成用户在文本提示中要求的图像。

相比之下，Gemini 2.0 Flash 可以在用户输入文本提示的同一模型中原生生成图像，理论上可以实现更高的准确性和更多的功能——而早期迹象表明，这完全属实。

Gemini 2.0 Flash 首次于 2024 年 12 月推出，但当时尚未为用户开启原生图像生成功能。它结合了多模态输入、推理和自然语言理解，以生成与文本并列的图像。

新推出的实验版本 gemini-2.0-flash-exp 允许开发者创建插图，通过对话优化图像，并基于世界知识生成详细的视觉效果。

Gemini 2.0 Flash 如何增强 AI 生成的图像

在今天早些时候发布的一篇面向开发者的博客文章中，谷歌强调了 Gemini 2.0 Flash 原生图像生成的几个关键功能：

- 文本和图像讲故事：开发者可以使用 Gemini 2.0 Flash 生成插图故事，同时保持角色和场景的一致性。该模型还会响应反馈，允许用户调整故事或更改艺术风格。

- 对话式图像编辑：AI 支持多轮编辑，这意味着用户可以通过自然语言提示迭代地优化图像。此功能支持实时协作和创意探索。

- 基于世界知识的图像生成：与许多其他图像生成模型不同，Gemini 2.0 Flash 利用更广泛的推理能力来生成更具上下文相关性的图像。例如，它可以用详细的视觉效果来说明与真实世界的食材和烹饪方法一致的食谱。

- 改进的文本渲染：许多 AI 图像模型难以在图像中准确生成可读文本，常常会产生拼写错误或字符扭曲。谷歌报告称，Gemini 2.0 Flash 在文本渲染方面优于领先竞争对手，使其特别适用于广告、社交媒体帖子和邀请函。

初步示例展示了令人难以置信的潜力和前景

谷歌员工和一些 AI 高级用户在 X 上分享了通过 Gemini 2.0 Flash 实验版提供的新图像生成和编辑功能的示例，毫无疑问，这些示例令人印象深刻。

谷歌 DeepMind 研究员 Robert Riachi 展示了该模型如何生成像素艺术风格的图像，然后根据文本提示以相同风格创建新图像。

Google AI Studio 产品负责人 Logan Kilpatrick（前 OpenAI 员工）强调了基于聊天的图像编辑的乐趣和实用性，分享了一个生成的互动故事中 3D 渲染的小山羊的演示。

AI 新闻账号 TestingCatalog News 报道了 Gemini 2.0 Flash 实验版多模态功能的推出，指出谷歌是第一个部署此功能的主要实验室。

用户 @Angaisb_ 又名“Angel”在一个引人注目的示例中展示了如何通过简单的聊天与模型来回对话，在几秒钟内修改现有的羊角面包图像以“添加巧克力淋面”——揭示了 Gemini 2.0 Flash 快速且准确的图像编辑能力。

YouTuber Theoretically Media 指出，这种无需完全重新生成的增量图像编辑是 AI 行业期待已久的，展示了如何轻松要求 Gemini 2.0 Flash 编辑图像以抬起角色的手臂，同时保留图像的其余部分。

前谷歌员工、现 AI YouTuber Bilawal Sidhu 展示了该模型如何为黑白图像上色，暗示了潜在的历史修复或创意增强应用。

这些早期反应表明，开发者和 AI 爱好者将 Gemini 2.0 Flash 视为一个高度灵活的工具，可用于迭代设计、创意讲故事和 AI 辅助视觉编辑。

快速推出也与 OpenAI 的 GPT-4o 形成对比，后者在 2024 年 5 月预览了原生图像生成功能——几乎是一年前——但尚未公开发布该功能——这使得谷歌能够在多模态 AI 部署中抢占先机。

正如用户 @chatgpt21 又名“Chris”在 X 上指出的那样，OpenAI 在这种情况下“失去了这一年多的领先地位”，原因不明。该用户邀请 OpenAI 的任何人对此发表评论。

我自己的测试显示了一些关于纵横比大小的限制——尽管在文本中要求修改它，但它似乎仍然固定在 1:1——但它能够在几秒钟内改变图像中角色的方向。

开发者和企业的重要新工具

虽然关于 Gemini 2.0 Flash 原生图像生成的早期讨论大多集中在个人用户和创意应用上，但其对企业团队、开发者和软件架构师的影响也很显著。

AI 驱动的设计和大规模营销：对于营销团队和内容创作者来说，Gemini 2.0 Flash 可以作为传统图形设计工作流程的成本效益替代方案，自动化创建品牌内容、广告和社交媒体视觉效果。由于它支持图像中的文本渲染，它可以简化广告创建、包装设计和宣传图形，减少对手动编辑的依赖。

增强的开发者工具和 AI 工作流程：对于 CTO、CIO 和软件工程师来说，原生图像生成可以简化 AI 在应用程序和服务中的集成。通过在单一模型中结合文本和图像输出，Gemini 2.0 Flash 允许开发者构建：

- AI 驱动的设计助手，生成 UI/UX 模型或应用资产。

- 自动化文档工具，实时说明概念。

- 媒体和教育的动态 AI 驱动的讲故事平台。

由于该模型还支持对话式图像编辑，团队可以开发 AI 驱动的界面，用户通过自然对话优化设计，降低非技术用户的入门门槛。

AI 驱动的生产力软件的新可能性：对于构建 AI 驱动的生产力工具的企业团队，Gemini 2.0 Flash 可以支持以下应用：

- 自动化演示生成，使用 AI 创建的幻灯片和视觉效果。

- 法律和商业文档注释，带有 AI 生成的信息图表。

- 电子商务可视化，基于描述动态生成产品模型。

如何部署和实验这一功能

开发者可以开始使用 Gemini API 测试 Gemini 2.0 Flash 的图像生成功能。谷歌提供了一个示例 API 请求，展示了开发者如何在单个响应中生成带有文本和图像的插图故事：

通过简化 AI 驱动的图像生成，Gemini 2.0 Flash 为开发者提供了创建插图内容、设计 AI 辅助应用程序和实验视觉讲故事的新方法。

来源：VentureBeat

0赞

好文章，需要你的鼓励

Google 的 Gemini 2.0 Flash 原生多模态 AI 图像生成功能给人留下深刻印象

来源：VentureBeat

2025

03/13

15:58

分享

点赞

人工智能是否存在泡沫风险的深度分析

AI系统在压力下学会战略性欺骗的深层原因

数据中心备份电力系统对比分析

Paxos以超1亿美元收购加密钱包初创公司Fordefi

腾讯发布"读图神器"HunyuanOCR，只用1%的参数就打败了行业巨头？

联想天津工厂入选“世界智能制造十大科技进展” 以零碳智造打造业内标杆

联想万全异构智算研发团队入选IEEE CyberSciTech 2025，RNL技术成果获国际认可！

首款搭载千问的AI硬件：夸克AI眼镜新品发布 次日门店现排队潮

ServiceNow或以超10亿美元收购网络安全初创公司Veza

谷歌云推出"PanyaThAI"计划加速泰国AI应用

英国产学合作推进光纤射频通信技术商业化进程

阿里巴巴推出可换电池设计的Quark AI智能眼镜

AI 能否担任花样滑冰裁判？

Nvidia GTC 主题演讲将重点关注 AI 而非游戏

苹果的下一步最佳选择可能是举办现场 WWDC 主题演讲

新技术帮助大语言模型控制思维链长度，在不增加计算成本的情况下优化推理能力

Cohere 发布仅需两块 GPU 的低成本 AI 模型

AI 时代的数据中心：未来十年规划展望

AI 编程助手拒绝写代码，建议用户自学编程

超越 ChatGPT：通往通用人工智能的 5 大挑战

Oracle 在 AI 主流化方面具有重大优势

Snap 推出基于自研生成模型的 AI 视频滤镜

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

阿里要用AI将云计算重做一遍

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

首款搭载千问的AI硬件：夸克AI眼镜新品发布次日门店现排队潮