我一直在测试谷歌最新生成式 AI 模型的图像编辑功能,你也可以试试。这个名为 Gemini 2.5 Flash Image 的模型,升级了在 Gemini 中原生编辑照片的能力。
AI 爱好者称它为"nano bananas"模型,这个称呼源于谷歌高管的一系列预告。谷歌今年在生成式媒体模型上投入巨大,在年度 I/O 开发者大会上发布了图像和视频生成器模型的更新版本。谷歌的 AI 视频生成器 Veo 3 凭借同步音频功能令人惊叹,这在 AI 巨头中尚属首次。创作者们已经使用谷歌的 AI 电影制作工具 Flow 制作了超过 1 亿个 AI 视频。
我花了大量时间测试 AI 创意软件,在所有"香蕉"热潮中看到谷歌的最新发布让我很兴奋。但我对 2.5 Flash Image 的测试表明,华丽的入场并不意味着总能达到预期。以下是我使用 Gemini nano bananas 的体验:好的、坏的和令人沮丧的方面。
**表现出色的方面**
Gemini 香蕉模型在向现有图像添加元素方面表现惊人,能够很好地将 AI 生成的元素融入到你拍摄的任何图片中。它还保持了相当稳定的角色一致性水平——这意味着我照片中的人物在经过 AI 处理后不会过度扭曲或变形。这些都是 AI 图像程序的重要特征,谷歌表示一直在努力改进这方面。
在我和姐姐的照片中可以看到这两个特点。编辑版本(右侧)中我们的整体外观没有改变,展现了角色一致性。我要求 Gemini 添加一个看起来像我们两个的第三个姐姐,它通过在我们之间添加第三个女性出色地完成了这个任务。
我对 Gemini 生成完整图像的速度也印象深刻。任何一分钟以下的时间都值得称赞,Gemini 经常在 15 秒内处理请求。我也很欣赏它为所有创建和编辑的图像添加水印——即使我不喜欢科技公司将闪闪发光表情符号用于 AI,但拥有一些 AI 生成内容的标记非常重要。谷歌的 SynthID 和幕后工作也有助于区分 AI 内容和人工创建的图像。
Gemini 在完全 AI 图像创建方面也很出色,但我建议使用其 Imagen 4 或其他 AI 图像生成器——它们有更多动手控制和设置,能够以更少的工作更接近你想要的效果。
**真正不起作用的方面**
Gemini bananas 有严重的局限性。它自动生成方形图像,要求将图像调整为其他尺寸的后续提示被忽略or失败。
我还注意到 Gemini 降低了我许多照片的分辨率。我主要用 iPhone 16 拍照,它有出色的摄像头,但经过 Gemini bananas 模型处理后,那些精细细节经常变得模糊。这很令人恼火,不会赢得任何摄影师的青睐。
我反复尝试让 Gemini 处理对我来说手动操作会很困难的照片编辑。这是照片编辑中 AI 应该擅长的一个领域——自动化繁琐但细节密集的编辑。遗憾的是,Gemini 在提示遵循方面真的很困难,意思是它没有按我要求的去做。
我多次尝试让 Gemini 从《Freakier Friday》电影海报的照片中去除反射,但它们顽固地保留着。我越是试图让它去除反射,每次提示后图像质量就越差。曾经清晰的文字最终在我放弃时变得难以辨认,更不用说对林赛·罗韩和杰米·李·柯蒂斯面部造成的意外且可怕的损害。
Gemini nano bananas 在生成不同尺寸图像方面表现困难。调整大小和裁剪图像是核心照片编辑过程,但 Gemini 没有——或不能——处理我提示中的简单尺寸指导。
我就分辨率和尺寸问题联系了谷歌,发言人表示这家科技公司"意识到并正在积极解决这两个问题。这是我们之前模型的重大更新,但我们将继续改进模型。"
总的来说,Gemini nano bananas 向我证明了谷歌对继续在生成式媒体领域占主导地位是认真的。但它有显著的缺陷,过于专注于生成新元素,而不是使用 AI 来改进和调整常见的照片问题。目前,nano bananas 模型最适合想要快速进行大编辑的 Gemini 粉丝。对于我们这些寻找更精确工具的人,我们必须等待谷歌的下一次重大更新或找到其他程序。
**Gemini nano bananas 可用性、定价和隐私**
你不需要做任何事情来访问新模型;它会自动添加到基础 Gemini 2.5 Flash 模型中。Gemini 免费提供,更多模型和更高使用限制在谷歌每月 20 美元起的 AI 计划中提供。
如果你是付费订阅者,你也可以通过 Google AI Studio 访问该模型。从那里,你只需要上传图像并输入提示。每个提示使用一到两千个 Token,具体取决于所需的详细程度。Adobe Express 和 Firefly 用户现在也可以访问新模型。
谷歌的 Gemini 隐私政策表示,它可以使用你上传的信息来改进其 AI 产品,这就是为什么公司建议避免上传敏感或私人信息。公司的 AI 禁止使用政策也禁止创建非法或滥用材料。
Q&A
Q1:Gemini 2.5 Flash Image模型有什么特色功能?
A:Gemini 2.5 Flash Image被AI爱好者称为"nano bananas"模型,主要升级了在Gemini中原生编辑照片的能力。它擅长向现有图像添加AI生成元素,保持较好的角色一致性,处理速度通常在15秒内完成,并会为所有编辑图像添加水印标记。
Q2:使用Gemini图像编辑功能会遇到什么问题?
A:主要问题包括:只能生成方形图像,无法调整为其他尺寸;会降低原照片的分辨率,模糊精细细节;在复杂编辑任务中提示遵循能力差,比如去除反射等操作经常失败;更适合生成新元素而非改进常见照片问题。
Q3:如何获取和使用Gemini图像编辑功能?
A:新模型会自动添加到基础Gemini 2.5 Flash模型中,Gemini免费提供使用。付费订阅者(每月20美元起)可通过Google AI Studio访问,只需上传图像并输入提示即可。Adobe Express和Firefly用户现在也能访问该功能。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。