谷歌日前更新了其Gemini AI图像生成工具,推出了代号为"Nano Bananas"的全新版本。
这次升级被正式命名为Gemini 2.5 Flash Image,允许用户通过语音和文本提示生成图像,包括替换照片中的人物、改变服装或将真实图像中的人物与新背景合并。谷歌于周二正式发布该功能,目前仅通过Gemini移动应用提供,网页版尚未获得所有新功能。
在测试中,新引擎展现出令人印象深刻的效果。例如,美国编辑Avram Piltch分别拍摄了自己的躯干照片和两把椅子的照片。当他将两张照片上传到手机上的Gemini后,要求引擎将他画在红色椅子上。
Gemini不仅将Piltch放置在红椅上,还为他绘制了原始躯干照片中没有的手臂和腿部。它甚至完成了T恤上原本只显示一半的logo。合成照片唯一的不准确之处是裤子变成了黑色,而实际上他穿的是蓝色牛仔裤。当他要求Gemini将裤子改为浅蓝色牛仔裤时,系统毫无问题地完成了修改。
谷歌表示:"只需给Gemini一张照片,告诉它你想改变什么来添加你的独特风格。Gemini让你可以合并照片,将自己与宠物放在一张图片中,改变房间背景来预览新墙纸,或将自己置于世界任何你能想象的地方——同时保持你还是你。"
"完成后,你甚至可以将编辑过的图像重新上传到Gemini,将新照片转换成有趣的视频。"
在其他测试中,Piltch拍摄了女儿的照片,要求移除她旁边的两个雕像。雕像消失了,附近树木的阴影延伸到它们之前所在的位置。然后他要求女儿出现在金字塔前,Gemini满足了要求,甚至改变了她的姿势,让她站得更直。
用户会立即注意到的一个重大改进是速度。在测试中,图像在几秒钟内就能完成,所有工作都在云端进行。我们甚至使用Gemini制作了本文的封面图。
这一举措应该让Adobe感到担忧,Gemini在让图像编辑者使用AI在几秒钟内完成可能需要图形设计师数小时或至少数分钟才能完成的工作方面展现出真正的技能。过去需要用Photoshop将某人合成到图片中的工作,现在只需要要求工具为你完成即可。
谷歌加入了SynthID水印,让人们能够识别AI生成的图像,这应该在减少垃圾邮件、煽动或其他目的的虚假图片方面发挥重要作用。
虽然这不会阻止即将涌入你收件箱的AI生成垃圾邮件浪潮,但至少提供了一些安全检查。Gemini 2.5 Flash Image仍有一些防护机制,尽管相对有限。例如,生成希特勒的图片很困难但并非不可能。如果你想要泰勒·斯威夫特或唐纳德·特朗普等名人,则不会有任何问题。值得庆幸的是,它至少有防护措施防止生成色情内容。
总体而言,虽然有些图像效果不够完美,但它仍然是OpenAI或xAI的Grok等其他大语言模型图像设计工具的有力竞争对手。
谷歌正在为Gemini API、面向开发者的Google AI Studio和Vertex AI推出新系统,成本为每百万输出Token 30美元,每张图像为1290个输出Token(每张图像0.039美元)。
谷歌表示,这是一个过渡版本,未来将有更多改进。该公司还与OpenRouter.ai和fal.ai合作,使该技术更加普及。现在轮到其他AI公司来匹配谷歌这套极具吸引力的新功能了。
Q&A
Q1:Gemini 2.5 Flash Image有什么新功能?
A:Gemini 2.5 Flash Image允许用户通过语音和文本提示生成图像,包括替换照片中的人物、改变服装、合并不同照片中的元素,以及将人物与新背景合并。它还能自动补全缺失的身体部位和物体细节。
Q2:这个AI图像生成工具的速度如何?
A:新版本的处理速度非常快,在测试中图像能在几秒钟内完成生成,所有工作都在云端进行。相比传统图像编辑可能需要数小时或数分钟的工作,现在只需几秒钟就能完成。
Q3:Gemini 2.5 Flash Image的使用成本是多少?
A:谷歌为Gemini API、Google AI Studio和Vertex AI提供该服务,成本为每百万输出Token 30美元,每张图像为1290个输出Token,相当于每张图像0.039美元。目前主要通过Gemini移动应用提供服务。
好文章,需要你的鼓励
Anthropic发布SCONE-bench智能合约漏洞利用基准测试,评估AI代理发现和利用区块链智能合约缺陷的能力。研究显示Claude Opus 4.5等模型可从漏洞中获得460万美元收益。测试2849个合约仅需3476美元成本,发现两个零日漏洞并创造3694美元利润。研究表明AI代理利用安全漏洞的能力快速提升,每1.3个月翻倍增长,强调需要主动采用AI防御技术应对AI攻击威胁。
NVIDIA联合多所高校开发的SpaceTools系统通过双重交互强化学习方法,让AI学会协调使用多种视觉工具进行复杂空间推理。该系统在空间理解基准测试中达到最先进性能,并在真实机器人操作中实现86%成功率,代表了AI从单一功能向工具协调专家的重要转变,为未来更智能实用的AI助手奠定基础。
Spotify年度总结功能回归,在去年AI播客功能遭遇批评后,今年重新专注于用户数据深度分析。新版本引入近十项新功能,包括首个实时多人互动体验"Wrapped Party",最多可邀请9位好友比较听歌数据。此外还新增热门歌曲播放次数显示、互动歌曲测验、听歌年龄分析和听歌俱乐部等功能,让年度总结更具互动性和个性化体验。
这项研究解决了现代智能机器人面临的"行动不稳定"问题,开发出名为TACO的决策优化系统。该系统让机器人在执行任务前生成多个候选方案,然后通过伪计数估计器选择最可靠的行动,就像为机器人配备智能顾问。实验显示,真实环境中机器人成功率平均提升16%,且系统可即插即用无需重新训练,为机器人智能化发展提供了新思路。