Gemini 2.5 Flash Image发布，图像编辑精度大幅提升

谷歌升级Gemini聊天机器人，推出新的AI图像模型Gemini 2.5 Flash Image，让用户能更精确地控制照片编辑。该模型基于自然语言请求进行图像编辑，同时保持面部、动物等细节的一致性，解决了竞争对手工具的常见问题。新工具在LMArena等基准测试中表现出色，专为消费者使用场景设计，支持多轮对话和多参考融合功能，并配备安全防护措施防止不当内容生成。

谷歌正在对其Gemini聊天机器人进行重大升级，推出全新的AI图像模型，为用户提供更精细的照片编辑控制功能。这一举措旨在追赶OpenAI的热门图像工具，并从ChatGPT中吸引更多用户。

这项名为Gemini 2.5 Flash Image的更新从周二开始向所有Gemini应用用户推出，同时也通过Gemini API、Google AI Studio和Vertex AI平台向开发者提供服务。

Gemini的新AI图像模型专为根据用户的自然语言请求进行更精确的图像编辑而设计，同时保持面部、动物和其他细节的一致性，这正是大多数竞争对手工具难以做到的。例如，当你要求ChatGPT或xAI的Grok更改照片中某人衬衫的颜色时，结果可能包含扭曲的面部或改变的背景。

谷歌的新工具已经引起了广泛关注。在最近几周，社交媒体用户对众包评估平台LMArena中一个令人印象深刻的AI图像编辑器赞不绝口。该模型以"nano-banana"的假名匿名出现在用户面前。

谷歌表示，这个模型正是其旗舰产品Gemini 2.5 Flash AI模型中的原生图像功能。谷歌声称该图像模型在LMArena和其他基准测试中达到了最先进水平。

谷歌DeepMind视觉生成模型产品负责人Nicole Brichtova在接受TechCrunch采访时表示："我们真正在推进视觉质量，以及模型遵循指令的能力。这次更新在无缝编辑方面做得更好，模型输出可以用于用户想要的任何用途。"

AI图像模型已成为科技巨头的关键战场。当OpenAI在3月推出GPT-4o的原生图像生成器时，由于AI生成的吉卜力工作室风格表情包引发热潮，ChatGPT的使用量急剧上升。据OpenAI首席执行官Sam Altman表示，这让公司的GPU"过热"。

为了跟上OpenAI和谷歌的步伐，Meta上周宣布将从初创公司Midjourney授权AI图像模型。与此同时，获得a16z支持的德国独角兽公司Black Forest Labs继续凭借其FLUX AI图像模型在基准测试中占据主导地位。

或许Gemini令人印象深刻的AI图像编辑器能够帮助谷歌缩小与OpenAI的用户差距。ChatGPT现在每周拥有超过7亿用户。在谷歌7月的财报电话会议上，该科技巨头的首席执行官Sundar Pichai透露，Gemini拥有4.5亿月活跃用户，这意味着周活跃用户数量更低。

Brichtova表示，谷歌专门针对消费者使用场景设计了这个图像模型，比如帮助用户可视化他们的家居和园艺项目。该模型还具有更好的"世界知识"，可以在单个提示中结合多个参考；例如，将沙发图像、客厅照片和调色板合并成一个协调的渲染图。

虽然Gemini的新AI图像生成器让用户更容易制作和编辑逼真图像，但公司设有限制用户创建内容的保护措施。谷歌在AI图像生成器保护措施方面曾经历过困难。该公司曾因Gemini生成历史上不准确的人物图片而道歉，并完全撤回了AI图像生成器。

现在，谷歌认为它找到了更好的平衡点。Brichtova说："我们希望给用户创意控制权，让他们能从模型中得到想要的东西。但这并不意味着什么都可以。"

谷歌生成式AI服务条款禁止用户生成"非自愿的亲密图像"。这些保护措施似乎在Grok中并不存在，Grok允许用户创建类似泰勒·斯威夫特等名人的AI生成明确图像。

为了应对深度伪造图像的兴起（这可能让用户难以辨别网上什么是真实的），Brichtova表示谷歌对AI生成的图像应用视觉水印以及元数据标识符。然而，在社交媒体上快速浏览图像的用户可能不会寻找这些标识符。

Q&A

Q1：Gemini 2.5 Flash Image相比其他AI图像工具有什么优势？

A：Gemini 2.5 Flash Image专为根据用户的自然语言请求进行更精确的图像编辑而设计，同时保持面部、动物和其他细节的一致性，这正是大多数竞争对手工具难以做到的。例如更改照片中衣服颜色时，不会导致面部扭曲或背景改变。

Q2：普通用户如何使用Gemini 2.5 Flash Image？

A：这项更新从周二开始向所有Gemini应用用户推出，用户可以直接在Gemini聊天机器人中使用这个新的AI图像模型功能。开发者也可以通过Gemini API、Google AI Studio和Vertex AI平台获得服务。

Q3：谷歌如何防止AI图像生成器被滥用？

A：谷歌设有保护措施限制用户创建的内容，生成式AI服务条款禁止用户生成"非自愿的亲密图像"。此外，谷歌对AI生成的图像应用视觉水印以及元数据标识符，帮助用户识别AI生成内容。

来源：Techcrunch

0赞

好文章，需要你的鼓励

Gemini 2.5 Flash Image发布，图像编辑精度大幅提升

来源：Techcrunch

2025

08/27

08:20

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

Broadcom推出AI原生私有云VMware Cloud Foundation 9.0

英伟达大力投资光学技术推动AI计算性能突破

人工智能引领第四次工业革命的历史性变革

AI数据中心：一个热门却难以定义的术语

美联储关注AI对就业市场影响，权衡通胀与失业风险

身份安全成为新边界，企业如何为智能体时代做好准备

中亚欧亚地区史上最大创业大赛选出四家优胜者晋级TechCrunch创业战场

五位AI领袖如何让人工智能普及大众

恶意诱导AI提供不良心理健康建议的风险与防护

使用Llama.cpp在家中私密运行大语言模型

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会