谷歌发布新版图像生成AI挑战Photoshop地位

谷歌发布Gemini 2.5 Flash Image升级版,支持语音和文本提示生成图像,可替换照片中的人物、更改服装或合并真实图像与新背景。该工具目前仅在Gemini移动应用中提供。测试显示其处理速度极快,能在几秒内完成复杂的图像编辑任务,包括自动补全缺失的身体部位和衣物细节。谷歌集成了SynthID水印技术识别AI生成图像,并设置了内容安全防护措施。

谷歌日前更新了其Gemini AI图像生成工具,推出了代号为"Nano Bananas"的全新版本。

这次升级被正式命名为Gemini 2.5 Flash Image,允许用户通过语音和文本提示生成图像,包括替换照片中的人物、改变服装或将真实图像中的人物与新背景合并。谷歌于周二正式发布该功能,目前仅通过Gemini移动应用提供,网页版尚未获得所有新功能。

在测试中,新引擎展现出令人印象深刻的效果。例如,美国编辑Avram Piltch分别拍摄了自己的躯干照片和两把椅子的照片。当他将两张照片上传到手机上的Gemini后,要求引擎将他画在红色椅子上。

Gemini不仅将Piltch放置在红椅上,还为他绘制了原始躯干照片中没有的手臂和腿部。它甚至完成了T恤上原本只显示一半的logo。合成照片唯一的不准确之处是裤子变成了黑色,而实际上他穿的是蓝色牛仔裤。当他要求Gemini将裤子改为浅蓝色牛仔裤时,系统毫无问题地完成了修改。

谷歌表示:"只需给Gemini一张照片,告诉它你想改变什么来添加你的独特风格。Gemini让你可以合并照片,将自己与宠物放在一张图片中,改变房间背景来预览新墙纸,或将自己置于世界任何你能想象的地方——同时保持你还是你。"

"完成后,你甚至可以将编辑过的图像重新上传到Gemini,将新照片转换成有趣的视频。"

在其他测试中,Piltch拍摄了女儿的照片,要求移除她旁边的两个雕像。雕像消失了,附近树木的阴影延伸到它们之前所在的位置。然后他要求女儿出现在金字塔前,Gemini满足了要求,甚至改变了她的姿势,让她站得更直。

用户会立即注意到的一个重大改进是速度。在测试中,图像在几秒钟内就能完成,所有工作都在云端进行。我们甚至使用Gemini制作了本文的封面图。

这一举措应该让Adobe感到担忧,Gemini在让图像编辑者使用AI在几秒钟内完成可能需要图形设计师数小时或至少数分钟才能完成的工作方面展现出真正的技能。过去需要用Photoshop将某人合成到图片中的工作,现在只需要要求工具为你完成即可。

谷歌加入了SynthID水印,让人们能够识别AI生成的图像,这应该在减少垃圾邮件、煽动或其他目的的虚假图片方面发挥重要作用。

虽然这不会阻止即将涌入你收件箱的AI生成垃圾邮件浪潮,但至少提供了一些安全检查。Gemini 2.5 Flash Image仍有一些防护机制,尽管相对有限。例如,生成希特勒的图片很困难但并非不可能。如果你想要泰勒·斯威夫特或唐纳德·特朗普等名人,则不会有任何问题。值得庆幸的是,它至少有防护措施防止生成色情内容。

总体而言,虽然有些图像效果不够完美,但它仍然是OpenAI或xAI的Grok等其他大语言模型图像设计工具的有力竞争对手。

谷歌正在为Gemini API、面向开发者的Google AI Studio和Vertex AI推出新系统,成本为每百万输出Token 30美元,每张图像为1290个输出Token(每张图像0.039美元)。

谷歌表示,这是一个过渡版本,未来将有更多改进。该公司还与OpenRouter.ai和fal.ai合作,使该技术更加普及。现在轮到其他AI公司来匹配谷歌这套极具吸引力的新功能了。

Q&A

Q1:Gemini 2.5 Flash Image有什么新功能?

A:Gemini 2.5 Flash Image允许用户通过语音和文本提示生成图像,包括替换照片中的人物、改变服装、合并不同照片中的元素,以及将人物与新背景合并。它还能自动补全缺失的身体部位和物体细节。

Q2:这个AI图像生成工具的速度如何?

A:新版本的处理速度非常快,在测试中图像能在几秒钟内完成生成,所有工作都在云端进行。相比传统图像编辑可能需要数小时或数分钟的工作,现在只需几秒钟就能完成。

Q3:Gemini 2.5 Flash Image的使用成本是多少?

A:谷歌为Gemini API、Google AI Studio和Vertex AI提供该服务,成本为每百万输出Token 30美元,每张图像为1290个输出Token,相当于每张图像0.039美元。目前主要通过Gemini移动应用提供服务。

来源:The Register

0赞

好文章,需要你的鼓励

2025

08/27

11:07

分享

点赞

邮件订阅