Gemini 2.5 Flash Image企业级图像编辑一致性与精准控制升级

Google正式发布Gemini 2.5 Flash Image模型,该模型此前在测试版中被称为nanobanana。新模型为企业创意项目提供更多选择,能够快速修改图像外观并提供比以往模型更强的控制能力。该模型在保持人物相似度和编辑一致性方面表现出色,支持多轮编辑、照片融合等功能,并已集成到Gemini应用中供付费和免费用户使用。

谷歌正式发布了Gemini 2.5 Flash Image新模型,该模型此前在测试阶段被称为"nanobanana",为企业创意项目提供了更多选择。该模型能够快速改变图像外观,相比以往版本提供更精准的控制能力。

该模型将集成到Gemini应用中。

基于Gemini 2.5 Flash构建的这一新模型,为Gemini应用的原生图像编辑功能增加了更多能力。Gemini 2.5 Flash Image能够在不同图像间保持角色相似性,在编辑图片时具有更好的一致性。例如,用户上传宠物照片后要求模型更换背景或为狗狗添加帽子时,该模型可以完成这些操作而不会改变图片主体。

谷歌在博客文章中表示:"我们深知,在编辑自己或熟悉的人的照片时,细微的缺陷都很重要,'接近但不完全相同'的效果并不理想。因此我们的最新更新旨在让朋友、家人甚至宠物的照片看起来始终保持他们本来的样子。"

企业和个人用户此前的一个主要抱怨是,在对AI生成图像进行编辑提示时,轻微调整会过度改变照片。例如,有人指示模型移动照片中人物的位置,虽然模型按指令执行,但人物面部会被轻微改变。

在Gemini平台生成的所有图像都将包含谷歌的SynthID水印。该模型面向Gemini应用的所有付费和免费用户开放。

社交媒体热议

谷歌计划发布新图像模型的猜测在社交媒体平台上广泛传播。LM Arena用户发现了一个名为"nanobanana"的神秘新模型,正如Andressen Horowitz合伙人Justine Moore所说,该模型能够"以令人印象深刻的准确性执行复杂的多步骤指令"。

人们很快注意到nanobanana模型似乎来自谷歌,随后几位早期测试者证实了这一点。不过当时谷歌并未确认在LM Arena上对该模型的计划。

原生图像编辑功能

Gemini在3月份为其平台添加了原生AI图像编辑功能,向聊天平台的免费用户提供此服务。

将图像编辑功能直接集成到聊天平台中,使企业能够在不切换窗口的情况下修复图像或图表。

用户可以向Gemini上传照片,然后告诉模型需要什么修改。满意后,新图片可以重新上传到Gemini并制作成视频。

除了添加服装或改变位置外,Gemini 2.5 Flash Image还能混合不同照片,提供多轮编辑功能,并将一张图片的风格混合到另一张上。

谷歌仍需与Qwen及其最近发布的Qwen-Image Edit,以及为ChatGPT添加原生AI图像编辑功能的OpenAI等竞争对手抗衡。当然,长期被视为图像编辑领域领导者的Adobe也将其旗舰模型Firefly集成到Photoshop和其他照片编辑平台中。

Q&A

Q1:Gemini 2.5 Flash Image与之前的图像编辑模型相比有什么优势?

A:Gemini 2.5 Flash Image最大的优势是能够保持角色相似性和编辑一致性。当用户编辑照片时,比如给宠物换背景或添加配饰,模型不会改变图片主体的特征,解决了之前轻微调整就会过度改变照片的问题。

Q2:普通用户可以使用Gemini 2.5 Flash Image吗?

A:可以。该模型面向Gemini应用的所有付费和免费用户开放,已集成到Gemini应用中。用户可以直接在聊天平台中上传照片并告诉模型需要什么修改,完成后还可以将新图片制作成视频。

Q3:Gemini 2.5 Flash Image都支持哪些图像编辑功能?

A:该模型支持多种编辑功能,包括更换背景、添加服装配饰、改变位置、混合不同照片、多轮编辑以及将一张图片的风格混合到另一张上。所有生成的图像都会包含谷歌的SynthID水印。

来源:VentureBeat

0赞

好文章,需要你的鼓励

2025

08/27

11:12

分享

点赞

邮件订阅