谷歌正式发布了Gemini 2.5 Flash Image新模型,该模型此前在测试阶段被称为"nanobanana",为企业创意项目提供了更多选择。该模型能够快速改变图像外观,相比以往版本提供更精准的控制能力。
该模型将集成到Gemini应用中。
基于Gemini 2.5 Flash构建的这一新模型,为Gemini应用的原生图像编辑功能增加了更多能力。Gemini 2.5 Flash Image能够在不同图像间保持角色相似性,在编辑图片时具有更好的一致性。例如,用户上传宠物照片后要求模型更换背景或为狗狗添加帽子时,该模型可以完成这些操作而不会改变图片主体。
谷歌在博客文章中表示:"我们深知,在编辑自己或熟悉的人的照片时,细微的缺陷都很重要,'接近但不完全相同'的效果并不理想。因此我们的最新更新旨在让朋友、家人甚至宠物的照片看起来始终保持他们本来的样子。"
企业和个人用户此前的一个主要抱怨是,在对AI生成图像进行编辑提示时,轻微调整会过度改变照片。例如,有人指示模型移动照片中人物的位置,虽然模型按指令执行,但人物面部会被轻微改变。
在Gemini平台生成的所有图像都将包含谷歌的SynthID水印。该模型面向Gemini应用的所有付费和免费用户开放。
社交媒体热议
谷歌计划发布新图像模型的猜测在社交媒体平台上广泛传播。LM Arena用户发现了一个名为"nanobanana"的神秘新模型,正如Andressen Horowitz合伙人Justine Moore所说,该模型能够"以令人印象深刻的准确性执行复杂的多步骤指令"。
人们很快注意到nanobanana模型似乎来自谷歌,随后几位早期测试者证实了这一点。不过当时谷歌并未确认在LM Arena上对该模型的计划。
原生图像编辑功能
Gemini在3月份为其平台添加了原生AI图像编辑功能,向聊天平台的免费用户提供此服务。
将图像编辑功能直接集成到聊天平台中,使企业能够在不切换窗口的情况下修复图像或图表。
用户可以向Gemini上传照片,然后告诉模型需要什么修改。满意后,新图片可以重新上传到Gemini并制作成视频。
除了添加服装或改变位置外,Gemini 2.5 Flash Image还能混合不同照片,提供多轮编辑功能,并将一张图片的风格混合到另一张上。
谷歌仍需与Qwen及其最近发布的Qwen-Image Edit,以及为ChatGPT添加原生AI图像编辑功能的OpenAI等竞争对手抗衡。当然,长期被视为图像编辑领域领导者的Adobe也将其旗舰模型Firefly集成到Photoshop和其他照片编辑平台中。
Q&A
Q1:Gemini 2.5 Flash Image与之前的图像编辑模型相比有什么优势?
A:Gemini 2.5 Flash Image最大的优势是能够保持角色相似性和编辑一致性。当用户编辑照片时,比如给宠物换背景或添加配饰,模型不会改变图片主体的特征,解决了之前轻微调整就会过度改变照片的问题。
Q2:普通用户可以使用Gemini 2.5 Flash Image吗?
A:可以。该模型面向Gemini应用的所有付费和免费用户开放,已集成到Gemini应用中。用户可以直接在聊天平台中上传照片并告诉模型需要什么修改,完成后还可以将新图片制作成视频。
Q3:Gemini 2.5 Flash Image都支持哪些图像编辑功能?
A:该模型支持多种编辑功能,包括更换背景、添加服装配饰、改变位置、混合不同照片、多轮编辑以及将一张图片的风格混合到另一张上。所有生成的图像都会包含谷歌的SynthID水印。
好文章,需要你的鼓励
博通宣布对VMware Cloud Foundation平台进行重大升级,将私有AI服务集成到核心订阅中,并为vSAN存储虚拟化软件添加云原生对象存储支持。此举旨在满足企业对简化基础设施、高效AI采用和网络安全的需求。升级包括与英伟达合作的VMware Private AI Foundation服务、支持AMD GPU、Amazon S3兼容对象存储、与Canonical合作的Ubuntu容器镜像,以及新的四阶段自动化安全流程。博通还推出了面向高监管行业的VCF网络合规高级服务。
谷歌DeepMind研究团队开发出革命性AI训练方法,让AI学会深度思考。通过"连续推理空间"技术,AI能在回答前进行内部分析和规划,一次性提供高质量解决方案。新方法在数学推理、逻辑分析等任务中表现显著提升,错误率明显降低。该技术有望应用于教育、医疗、商业咨询等领域,为用户提供更智能可靠的AI助手服务。
Google正式发布Gemini 2.5 Flash Image模型,该模型此前在测试版中被称为nanobanana。新模型为企业创意项目提供更多选择,能够快速修改图像外观并提供比以往模型更强的控制能力。该模型在保持人物相似度和编辑一致性方面表现出色,支持多轮编辑、照片融合等功能,并已集成到Gemini应用中供付费和免费用户使用。
这项研究展示了一种革命性的AI技术,能够仅通过音频生成高度逼真的说话视频。滑铁卢大学研究团队开发的Audio2Photoreal系统巧妙结合了深度学习、扩散模型等先进技术,实现了声音到面部动作的精准转换。该技术在影视制作、在线教育、新闻媒体等领域具有广阔应用前景,将大幅降低视频制作成本和门槛。虽然仍面临计算资源需求高、隐私安全等挑战,但其突破性创新为未来视频内容创作开辟了全新路径。