谷歌日前更新了其Gemini AI图像生成工具,推出了代号为"Nano Bananas"的全新版本。
这次升级被正式命名为Gemini 2.5 Flash Image,允许用户通过语音和文本提示生成图像,包括替换照片中的人物、改变服装或将真实图像中的人物与新背景合并。谷歌于周二正式发布该功能,目前仅通过Gemini移动应用提供,网页版尚未获得所有新功能。
在测试中,新引擎展现出令人印象深刻的效果。例如,美国编辑Avram Piltch分别拍摄了自己的躯干照片和两把椅子的照片。当他将两张照片上传到手机上的Gemini后,要求引擎将他画在红色椅子上。
Gemini不仅将Piltch放置在红椅上,还为他绘制了原始躯干照片中没有的手臂和腿部。它甚至完成了T恤上原本只显示一半的logo。合成照片唯一的不准确之处是裤子变成了黑色,而实际上他穿的是蓝色牛仔裤。当他要求Gemini将裤子改为浅蓝色牛仔裤时,系统毫无问题地完成了修改。
谷歌表示:"只需给Gemini一张照片,告诉它你想改变什么来添加你的独特风格。Gemini让你可以合并照片,将自己与宠物放在一张图片中,改变房间背景来预览新墙纸,或将自己置于世界任何你能想象的地方——同时保持你还是你。"
"完成后,你甚至可以将编辑过的图像重新上传到Gemini,将新照片转换成有趣的视频。"
在其他测试中,Piltch拍摄了女儿的照片,要求移除她旁边的两个雕像。雕像消失了,附近树木的阴影延伸到它们之前所在的位置。然后他要求女儿出现在金字塔前,Gemini满足了要求,甚至改变了她的姿势,让她站得更直。
用户会立即注意到的一个重大改进是速度。在测试中,图像在几秒钟内就能完成,所有工作都在云端进行。我们甚至使用Gemini制作了本文的封面图。
这一举措应该让Adobe感到担忧,Gemini在让图像编辑者使用AI在几秒钟内完成可能需要图形设计师数小时或至少数分钟才能完成的工作方面展现出真正的技能。过去需要用Photoshop将某人合成到图片中的工作,现在只需要要求工具为你完成即可。
谷歌加入了SynthID水印,让人们能够识别AI生成的图像,这应该在减少垃圾邮件、煽动或其他目的的虚假图片方面发挥重要作用。
虽然这不会阻止即将涌入你收件箱的AI生成垃圾邮件浪潮,但至少提供了一些安全检查。Gemini 2.5 Flash Image仍有一些防护机制,尽管相对有限。例如,生成希特勒的图片很困难但并非不可能。如果你想要泰勒·斯威夫特或唐纳德·特朗普等名人,则不会有任何问题。值得庆幸的是,它至少有防护措施防止生成色情内容。
总体而言,虽然有些图像效果不够完美,但它仍然是OpenAI或xAI的Grok等其他大语言模型图像设计工具的有力竞争对手。
谷歌正在为Gemini API、面向开发者的Google AI Studio和Vertex AI推出新系统,成本为每百万输出Token 30美元,每张图像为1290个输出Token(每张图像0.039美元)。
谷歌表示,这是一个过渡版本,未来将有更多改进。该公司还与OpenRouter.ai和fal.ai合作,使该技术更加普及。现在轮到其他AI公司来匹配谷歌这套极具吸引力的新功能了。
Q&A
Q1:Gemini 2.5 Flash Image有什么新功能?
A:Gemini 2.5 Flash Image允许用户通过语音和文本提示生成图像,包括替换照片中的人物、改变服装、合并不同照片中的元素,以及将人物与新背景合并。它还能自动补全缺失的身体部位和物体细节。
Q2:这个AI图像生成工具的速度如何?
A:新版本的处理速度非常快,在测试中图像能在几秒钟内完成生成,所有工作都在云端进行。相比传统图像编辑可能需要数小时或数分钟的工作,现在只需几秒钟就能完成。
Q3:Gemini 2.5 Flash Image的使用成本是多少?
A:谷歌为Gemini API、Google AI Studio和Vertex AI提供该服务,成本为每百万输出Token 30美元,每张图像为1290个输出Token,相当于每张图像0.039美元。目前主要通过Gemini移动应用提供服务。
好文章,需要你的鼓励
研究人员意外发现,标准MOSFET晶体管可同时模拟神经元和突触行为,形成"神经突触随机存取存储器"(NSRAM)。该技术仅需一至两个晶体管即可实现传统需数十乃至数百个元件才能完成的神经信号处理,且与现有硅基制造工艺完全兼容,良率达100%。未来有望应用于边缘AI及高能效神经形态芯片,长远或可挑战GPU地位。
复旦大学团队提出ICWM框架,让机器人在任务前通过随机探测动作自主感知当前视角和物理配置,无需重新训练即可适应新摄像头角度,真实机器人测试成功率最高提升175%。
本文提出一种评估人工智能风险的新方法,借鉴生态学与演化论视角,从理论生态模型中推导出三项风险指标,涵盖种群模型与生态系统模型。研究旨在为AI治理策略提供量化工具,并对分析局限性及政策改进方向进行了深入探讨,为构建更科学的AI风险评估体系提供参考框架。
西安交通大学团队提出Fast-LeWM,用动作前缀并行预测替代逐步推演,将AI世界模型规划速度提升近4倍,同时平均成功率从85.8%提升至90.5%。