Gemini"香蕉"AI图像编辑体验：有趣但问题不少

谷歌发布的Gemini 2.5 Flash Image AI图像编辑模型被用户昵称为"纳米香蕉"。该模型在添加图像元素和保持人物一致性方面表现出色，处理速度快且自动添加水印。但存在明显局限：只能生成方形图像、会降低照片分辨率、难以处理复杂编辑任务如移除反射等。谷歌表示正在改进相关问题。该功能免费提供，付费用户可获得更多使用额度。

我一直在测试谷歌最新生成式 AI 模型的图像编辑功能，你也可以试试。这个名为 Gemini 2.5 Flash Image 的模型，升级了在 Gemini 中原生编辑照片的能力。

AI 爱好者称它为"nano bananas"模型，这个称呼源于谷歌高管的一系列预告。谷歌今年在生成式媒体模型上投入巨大，在年度 I/O 开发者大会上发布了图像和视频生成器模型的更新版本。谷歌的 AI 视频生成器 Veo 3 凭借同步音频功能令人惊叹，这在 AI 巨头中尚属首次。创作者们已经使用谷歌的 AI 电影制作工具 Flow 制作了超过 1 亿个 AI 视频。

我花了大量时间测试 AI 创意软件，在所有"香蕉"热潮中看到谷歌的最新发布让我很兴奋。但我对 2.5 Flash Image 的测试表明，华丽的入场并不意味着总能达到预期。以下是我使用 Gemini nano bananas 的体验：好的、坏的和令人沮丧的方面。

**表现出色的方面**

Gemini 香蕉模型在向现有图像添加元素方面表现惊人，能够很好地将 AI 生成的元素融入到你拍摄的任何图片中。它还保持了相当稳定的角色一致性水平——这意味着我照片中的人物在经过 AI 处理后不会过度扭曲或变形。这些都是 AI 图像程序的重要特征，谷歌表示一直在努力改进这方面。

在我和姐姐的照片中可以看到这两个特点。编辑版本（右侧）中我们的整体外观没有改变，展现了角色一致性。我要求 Gemini 添加一个看起来像我们两个的第三个姐姐，它通过在我们之间添加第三个女性出色地完成了这个任务。

我对 Gemini 生成完整图像的速度也印象深刻。任何一分钟以下的时间都值得称赞，Gemini 经常在 15 秒内处理请求。我也很欣赏它为所有创建和编辑的图像添加水印——即使我不喜欢科技公司将闪闪发光表情符号用于 AI，但拥有一些 AI 生成内容的标记非常重要。谷歌的 SynthID 和幕后工作也有助于区分 AI 内容和人工创建的图像。

Gemini 在完全 AI 图像创建方面也很出色，但我建议使用其 Imagen 4 或其他 AI 图像生成器——它们有更多动手控制和设置，能够以更少的工作更接近你想要的效果。

**真正不起作用的方面**

Gemini bananas 有严重的局限性。它自动生成方形图像，要求将图像调整为其他尺寸的后续提示被忽略or失败。

我还注意到 Gemini 降低了我许多照片的分辨率。我主要用 iPhone 16 拍照，它有出色的摄像头，但经过 Gemini bananas 模型处理后，那些精细细节经常变得模糊。这很令人恼火，不会赢得任何摄影师的青睐。

我反复尝试让 Gemini 处理对我来说手动操作会很困难的照片编辑。这是照片编辑中 AI 应该擅长的一个领域——自动化繁琐但细节密集的编辑。遗憾的是，Gemini 在提示遵循方面真的很困难，意思是它没有按我要求的去做。

我多次尝试让 Gemini 从《Freakier Friday》电影海报的照片中去除反射，但它们顽固地保留着。我越是试图让它去除反射，每次提示后图像质量就越差。曾经清晰的文字最终在我放弃时变得难以辨认，更不用说对林赛·罗韩和杰米·李·柯蒂斯面部造成的意外且可怕的损害。

Gemini nano bananas 在生成不同尺寸图像方面表现困难。调整大小和裁剪图像是核心照片编辑过程，但 Gemini 没有——或不能——处理我提示中的简单尺寸指导。

我就分辨率和尺寸问题联系了谷歌，发言人表示这家科技公司"意识到并正在积极解决这两个问题。这是我们之前模型的重大更新，但我们将继续改进模型。"

总的来说，Gemini nano bananas 向我证明了谷歌对继续在生成式媒体领域占主导地位是认真的。但它有显著的缺陷，过于专注于生成新元素，而不是使用 AI 来改进和调整常见的照片问题。目前，nano bananas 模型最适合想要快速进行大编辑的 Gemini 粉丝。对于我们这些寻找更精确工具的人，我们必须等待谷歌的下一次重大更新或找到其他程序。

**Gemini nano bananas 可用性、定价和隐私**

你不需要做任何事情来访问新模型；它会自动添加到基础 Gemini 2.5 Flash 模型中。Gemini 免费提供，更多模型和更高使用限制在谷歌每月 20 美元起的 AI 计划中提供。

如果你是付费订阅者，你也可以通过 Google AI Studio 访问该模型。从那里，你只需要上传图像并输入提示。每个提示使用一到两千个 Token，具体取决于所需的详细程度。Adobe Express 和 Firefly 用户现在也可以访问新模型。

谷歌的 Gemini 隐私政策表示，它可以使用你上传的信息来改进其 AI 产品，这就是为什么公司建议避免上传敏感或私人信息。公司的 AI 禁止使用政策也禁止创建非法或滥用材料。

Q&A

Q1：Gemini 2.5 Flash Image模型有什么特色功能？

A：Gemini 2.5 Flash Image被AI爱好者称为"nano bananas"模型，主要升级了在Gemini中原生编辑照片的能力。它擅长向现有图像添加AI生成元素，保持较好的角色一致性，处理速度通常在15秒内完成，并会为所有编辑图像添加水印标记。

Q2：使用Gemini图像编辑功能会遇到什么问题？

A：主要问题包括：只能生成方形图像，无法调整为其他尺寸；会降低原照片的分辨率，模糊精细细节；在复杂编辑任务中提示遵循能力差，比如去除反射等操作经常失败；更适合生成新元素而非改进常见照片问题。

Q3：如何获取和使用Gemini图像编辑功能？

A：新模型会自动添加到基础Gemini 2.5 Flash模型中，Gemini免费提供使用。付费订阅者（每月20美元起）可通过Google AI Studio访问，只需上传图像并输入提示即可。Adobe Express和Firefly用户现在也能访问该功能。

来源：cnet

0赞

好文章，需要你的鼓励

Gemini"香蕉"AI图像编辑体验：有趣但问题不少

来源：cnet

2025

09/08

07:50

分享

点赞

联想集团混合式AI实践获权威肯定，CES期间获评“全球科技引领企业”

CES 2026 | 重大更新：NVIDIA DGX Spark开启“云边端”模式

Gmail新增Gemini驱动AI功能，智能优先级和摘要来袭

研究发现商业AI模型可完整还原《哈利·波特》原著内容

Razer在2026年CES展会推出全息AI伴侣项目

CES 2026：英伟达新架构亮相，AMD发布新芯片，Razer推出AI奇异产品

通过舞蹈认识LimX Dynamics的人形机器人Oli

谷歌为Gmail搜索引入AI概览功能并推出实验性AI智能收件箱

DuRoBo Krono：搭载AI助手的智能手机尺寸电子阅读器

OpenAI推出ChatGPT Health医疗问答功能

Anthropic寻求3500亿美元估值融资100亿美元

OpenAI收购高管教练AI工具Convogo团队

Anthropic因盗版图书训练AI达成15亿美元和解协议

OpenAI推出ChatGPT认证体系和AI求职平台

AI推理初创公司Baseten获1.5亿美元融资

Geniez数据机器人连接大语言模型与大型机数据

瑞士政府发布自研大语言模型SwiGPT

安客智能体监控摄像头实现360度全方位实时监控

SwitchBot发布三款AI智能家居新品，机器人加持智能生活

Google Photos免费开放Veo 3动画功能

Atlassian以6.1亿美元收购AI浏览器开发商The Browser Company

智能体身份验证初创公司Vouched获得1700万美元融资

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: