谷歌日前更新了其Gemini AI图像生成工具,推出了代号为"Nano Bananas"的全新版本。
这次升级被正式命名为Gemini 2.5 Flash Image,允许用户通过语音和文本提示生成图像,包括替换照片中的人物、改变服装或将真实图像中的人物与新背景合并。谷歌于周二正式发布该功能,目前仅通过Gemini移动应用提供,网页版尚未获得所有新功能。
在测试中,新引擎展现出令人印象深刻的效果。例如,美国编辑Avram Piltch分别拍摄了自己的躯干照片和两把椅子的照片。当他将两张照片上传到手机上的Gemini后,要求引擎将他画在红色椅子上。
Gemini不仅将Piltch放置在红椅上,还为他绘制了原始躯干照片中没有的手臂和腿部。它甚至完成了T恤上原本只显示一半的logo。合成照片唯一的不准确之处是裤子变成了黑色,而实际上他穿的是蓝色牛仔裤。当他要求Gemini将裤子改为浅蓝色牛仔裤时,系统毫无问题地完成了修改。
谷歌表示:"只需给Gemini一张照片,告诉它你想改变什么来添加你的独特风格。Gemini让你可以合并照片,将自己与宠物放在一张图片中,改变房间背景来预览新墙纸,或将自己置于世界任何你能想象的地方——同时保持你还是你。"
"完成后,你甚至可以将编辑过的图像重新上传到Gemini,将新照片转换成有趣的视频。"
在其他测试中,Piltch拍摄了女儿的照片,要求移除她旁边的两个雕像。雕像消失了,附近树木的阴影延伸到它们之前所在的位置。然后他要求女儿出现在金字塔前,Gemini满足了要求,甚至改变了她的姿势,让她站得更直。
用户会立即注意到的一个重大改进是速度。在测试中,图像在几秒钟内就能完成,所有工作都在云端进行。我们甚至使用Gemini制作了本文的封面图。
这一举措应该让Adobe感到担忧,Gemini在让图像编辑者使用AI在几秒钟内完成可能需要图形设计师数小时或至少数分钟才能完成的工作方面展现出真正的技能。过去需要用Photoshop将某人合成到图片中的工作,现在只需要要求工具为你完成即可。
谷歌加入了SynthID水印,让人们能够识别AI生成的图像,这应该在减少垃圾邮件、煽动或其他目的的虚假图片方面发挥重要作用。
虽然这不会阻止即将涌入你收件箱的AI生成垃圾邮件浪潮,但至少提供了一些安全检查。Gemini 2.5 Flash Image仍有一些防护机制,尽管相对有限。例如,生成希特勒的图片很困难但并非不可能。如果你想要泰勒·斯威夫特或唐纳德·特朗普等名人,则不会有任何问题。值得庆幸的是,它至少有防护措施防止生成色情内容。
总体而言,虽然有些图像效果不够完美,但它仍然是OpenAI或xAI的Grok等其他大语言模型图像设计工具的有力竞争对手。
谷歌正在为Gemini API、面向开发者的Google AI Studio和Vertex AI推出新系统,成本为每百万输出Token 30美元,每张图像为1290个输出Token(每张图像0.039美元)。
谷歌表示,这是一个过渡版本,未来将有更多改进。该公司还与OpenRouter.ai和fal.ai合作,使该技术更加普及。现在轮到其他AI公司来匹配谷歌这套极具吸引力的新功能了。
Q&A
Q1:Gemini 2.5 Flash Image有什么新功能?
A:Gemini 2.5 Flash Image允许用户通过语音和文本提示生成图像,包括替换照片中的人物、改变服装、合并不同照片中的元素,以及将人物与新背景合并。它还能自动补全缺失的身体部位和物体细节。
Q2:这个AI图像生成工具的速度如何?
A:新版本的处理速度非常快,在测试中图像能在几秒钟内完成生成,所有工作都在云端进行。相比传统图像编辑可能需要数小时或数分钟的工作,现在只需几秒钟就能完成。
Q3:Gemini 2.5 Flash Image的使用成本是多少?
A:谷歌为Gemini API、Google AI Studio和Vertex AI提供该服务,成本为每百万输出Token 30美元,每张图像为1290个输出Token,相当于每张图像0.039美元。目前主要通过Gemini移动应用提供服务。
好文章,需要你的鼓励
博通宣布对VMware Cloud Foundation平台进行重大升级,将私有AI服务集成到核心订阅中,并为vSAN存储虚拟化软件添加云原生对象存储支持。此举旨在满足企业对简化基础设施、高效AI采用和网络安全的需求。升级包括与英伟达合作的VMware Private AI Foundation服务、支持AMD GPU、Amazon S3兼容对象存储、与Canonical合作的Ubuntu容器镜像,以及新的四阶段自动化安全流程。博通还推出了面向高监管行业的VCF网络合规高级服务。
谷歌DeepMind研究团队开发出革命性AI训练方法,让AI学会深度思考。通过"连续推理空间"技术,AI能在回答前进行内部分析和规划,一次性提供高质量解决方案。新方法在数学推理、逻辑分析等任务中表现显著提升,错误率明显降低。该技术有望应用于教育、医疗、商业咨询等领域,为用户提供更智能可靠的AI助手服务。
Google正式发布Gemini 2.5 Flash Image模型,该模型此前在测试版中被称为nanobanana。新模型为企业创意项目提供更多选择,能够快速修改图像外观并提供比以往模型更强的控制能力。该模型在保持人物相似度和编辑一致性方面表现出色,支持多轮编辑、照片融合等功能,并已集成到Gemini应用中供付费和免费用户使用。
这项研究展示了一种革命性的AI技术,能够仅通过音频生成高度逼真的说话视频。滑铁卢大学研究团队开发的Audio2Photoreal系统巧妙结合了深度学习、扩散模型等先进技术,实现了声音到面部动作的精准转换。该技术在影视制作、在线教育、新闻媒体等领域具有广阔应用前景,将大幅降低视频制作成本和门槛。虽然仍面临计算资源需求高、隐私安全等挑战,但其突破性创新为未来视频内容创作开辟了全新路径。