谷歌日前更新了其Gemini AI图像生成工具,推出了代号为"Nano Bananas"的全新版本。
这次升级被正式命名为Gemini 2.5 Flash Image,允许用户通过语音和文本提示生成图像,包括替换照片中的人物、改变服装或将真实图像中的人物与新背景合并。谷歌于周二正式发布该功能,目前仅通过Gemini移动应用提供,网页版尚未获得所有新功能。
在测试中,新引擎展现出令人印象深刻的效果。例如,美国编辑Avram Piltch分别拍摄了自己的躯干照片和两把椅子的照片。当他将两张照片上传到手机上的Gemini后,要求引擎将他画在红色椅子上。
Gemini不仅将Piltch放置在红椅上,还为他绘制了原始躯干照片中没有的手臂和腿部。它甚至完成了T恤上原本只显示一半的logo。合成照片唯一的不准确之处是裤子变成了黑色,而实际上他穿的是蓝色牛仔裤。当他要求Gemini将裤子改为浅蓝色牛仔裤时,系统毫无问题地完成了修改。
谷歌表示:"只需给Gemini一张照片,告诉它你想改变什么来添加你的独特风格。Gemini让你可以合并照片,将自己与宠物放在一张图片中,改变房间背景来预览新墙纸,或将自己置于世界任何你能想象的地方——同时保持你还是你。"
"完成后,你甚至可以将编辑过的图像重新上传到Gemini,将新照片转换成有趣的视频。"
在其他测试中,Piltch拍摄了女儿的照片,要求移除她旁边的两个雕像。雕像消失了,附近树木的阴影延伸到它们之前所在的位置。然后他要求女儿出现在金字塔前,Gemini满足了要求,甚至改变了她的姿势,让她站得更直。
用户会立即注意到的一个重大改进是速度。在测试中,图像在几秒钟内就能完成,所有工作都在云端进行。我们甚至使用Gemini制作了本文的封面图。
这一举措应该让Adobe感到担忧,Gemini在让图像编辑者使用AI在几秒钟内完成可能需要图形设计师数小时或至少数分钟才能完成的工作方面展现出真正的技能。过去需要用Photoshop将某人合成到图片中的工作,现在只需要要求工具为你完成即可。
谷歌加入了SynthID水印,让人们能够识别AI生成的图像,这应该在减少垃圾邮件、煽动或其他目的的虚假图片方面发挥重要作用。
虽然这不会阻止即将涌入你收件箱的AI生成垃圾邮件浪潮,但至少提供了一些安全检查。Gemini 2.5 Flash Image仍有一些防护机制,尽管相对有限。例如,生成希特勒的图片很困难但并非不可能。如果你想要泰勒·斯威夫特或唐纳德·特朗普等名人,则不会有任何问题。值得庆幸的是,它至少有防护措施防止生成色情内容。
总体而言,虽然有些图像效果不够完美,但它仍然是OpenAI或xAI的Grok等其他大语言模型图像设计工具的有力竞争对手。
谷歌正在为Gemini API、面向开发者的Google AI Studio和Vertex AI推出新系统,成本为每百万输出Token 30美元,每张图像为1290个输出Token(每张图像0.039美元)。
谷歌表示,这是一个过渡版本,未来将有更多改进。该公司还与OpenRouter.ai和fal.ai合作,使该技术更加普及。现在轮到其他AI公司来匹配谷歌这套极具吸引力的新功能了。
Q&A
Q1:Gemini 2.5 Flash Image有什么新功能?
A:Gemini 2.5 Flash Image允许用户通过语音和文本提示生成图像,包括替换照片中的人物、改变服装、合并不同照片中的元素,以及将人物与新背景合并。它还能自动补全缺失的身体部位和物体细节。
Q2:这个AI图像生成工具的速度如何?
A:新版本的处理速度非常快,在测试中图像能在几秒钟内完成生成,所有工作都在云端进行。相比传统图像编辑可能需要数小时或数分钟的工作,现在只需几秒钟就能完成。
Q3:Gemini 2.5 Flash Image的使用成本是多少?
A:谷歌为Gemini API、Google AI Studio和Vertex AI提供该服务,成本为每百万输出Token 30美元,每张图像为1290个输出Token,相当于每张图像0.039美元。目前主要通过Gemini移动应用提供服务。
好文章,需要你的鼓励
这项由浙江大学与阿里巴巴通义实验室联合开展的研究,通过创新的半在线强化学习方法,显著提升了AI界面助手在多步骤任务中的表现。UI-S1-7B模型在多个基准测试中创造了7B参数规模的新纪录,为GUI自动化代理的发展开辟了新的技术路径。
阿里巴巴联合浙江大学开发的OmniThink框架让AI学会像人类一样慢思考写作。通过信息树和概念池的双重架构,系统能够动态检索信息、持续反思,突破了传统AI写作内容浅薄重复的局限。实验显示该方法在文章质量各维度均显著超越现有最强基线,知识密度提升明显,为长文本生成研究开辟了新方向。
新加坡国立大学研究人员开发出名为AiSee的可穿戴辅助设备,利用Meta的Llama模型帮助视障人士"看见"周围世界。该设备采用耳机形态,配备摄像头作为AI伴侣处理视觉信息。通过集成大语言模型,设备从简单物体识别升级为对话助手,用户可进行追问。设备运行代理AI框架,使用量化技术将Llama模型压缩至10-30亿参数在安卓设备上高效运行,支持离线处理敏感文档,保护用户隐私。
腾讯混元3D 2.0是一个革命性的3D生成系统,能够从单张图片生成高质量的带纹理3D模型。该系统包含形状生成模块Hunyuan3D-DiT和纹理合成模块Hunyuan3D-Paint,采用创新的重要性采样和多视角一致性技术,在多项评估指标上超越现有技术,并提供用户友好的制作平台。作为开源项目,它将大大降低3D内容创作门槛,推动3D技术的普及应用。