谷歌正在对其Gemini聊天机器人进行重大升级,推出全新的AI图像模型,为用户提供更精细的照片编辑控制功能。这一举措旨在追赶OpenAI的热门图像工具,并从ChatGPT中吸引更多用户。
这项名为Gemini 2.5 Flash Image的更新从周二开始向所有Gemini应用用户推出,同时也通过Gemini API、Google AI Studio和Vertex AI平台向开发者提供服务。
Gemini的新AI图像模型专为根据用户的自然语言请求进行更精确的图像编辑而设计,同时保持面部、动物和其他细节的一致性,这正是大多数竞争对手工具难以做到的。例如,当你要求ChatGPT或xAI的Grok更改照片中某人衬衫的颜色时,结果可能包含扭曲的面部或改变的背景。
谷歌的新工具已经引起了广泛关注。在最近几周,社交媒体用户对众包评估平台LMArena中一个令人印象深刻的AI图像编辑器赞不绝口。该模型以"nano-banana"的假名匿名出现在用户面前。
谷歌表示,这个模型正是其旗舰产品Gemini 2.5 Flash AI模型中的原生图像功能。谷歌声称该图像模型在LMArena和其他基准测试中达到了最先进水平。
谷歌DeepMind视觉生成模型产品负责人Nicole Brichtova在接受TechCrunch采访时表示:"我们真正在推进视觉质量,以及模型遵循指令的能力。这次更新在无缝编辑方面做得更好,模型输出可以用于用户想要的任何用途。"
AI图像模型已成为科技巨头的关键战场。当OpenAI在3月推出GPT-4o的原生图像生成器时,由于AI生成的吉卜力工作室风格表情包引发热潮,ChatGPT的使用量急剧上升。据OpenAI首席执行官Sam Altman表示,这让公司的GPU"过热"。
为了跟上OpenAI和谷歌的步伐,Meta上周宣布将从初创公司Midjourney授权AI图像模型。与此同时,获得a16z支持的德国独角兽公司Black Forest Labs继续凭借其FLUX AI图像模型在基准测试中占据主导地位。
或许Gemini令人印象深刻的AI图像编辑器能够帮助谷歌缩小与OpenAI的用户差距。ChatGPT现在每周拥有超过7亿用户。在谷歌7月的财报电话会议上,该科技巨头的首席执行官Sundar Pichai透露,Gemini拥有4.5亿月活跃用户,这意味着周活跃用户数量更低。
Brichtova表示,谷歌专门针对消费者使用场景设计了这个图像模型,比如帮助用户可视化他们的家居和园艺项目。该模型还具有更好的"世界知识",可以在单个提示中结合多个参考;例如,将沙发图像、客厅照片和调色板合并成一个协调的渲染图。
虽然Gemini的新AI图像生成器让用户更容易制作和编辑逼真图像,但公司设有限制用户创建内容的保护措施。谷歌在AI图像生成器保护措施方面曾经历过困难。该公司曾因Gemini生成历史上不准确的人物图片而道歉,并完全撤回了AI图像生成器。
现在,谷歌认为它找到了更好的平衡点。Brichtova说:"我们希望给用户创意控制权,让他们能从模型中得到想要的东西。但这并不意味着什么都可以。"
谷歌生成式AI服务条款禁止用户生成"非自愿的亲密图像"。这些保护措施似乎在Grok中并不存在,Grok允许用户创建类似泰勒·斯威夫特等名人的AI生成明确图像。
为了应对深度伪造图像的兴起(这可能让用户难以辨别网上什么是真实的),Brichtova表示谷歌对AI生成的图像应用视觉水印以及元数据标识符。然而,在社交媒体上快速浏览图像的用户可能不会寻找这些标识符。
Q&A
Q1:Gemini 2.5 Flash Image相比其他AI图像工具有什么优势?
A:Gemini 2.5 Flash Image专为根据用户的自然语言请求进行更精确的图像编辑而设计,同时保持面部、动物和其他细节的一致性,这正是大多数竞争对手工具难以做到的。例如更改照片中衣服颜色时,不会导致面部扭曲或背景改变。
Q2:普通用户如何使用Gemini 2.5 Flash Image?
A:这项更新从周二开始向所有Gemini应用用户推出,用户可以直接在Gemini聊天机器人中使用这个新的AI图像模型功能。开发者也可以通过Gemini API、Google AI Studio和Vertex AI平台获得服务。
Q3:谷歌如何防止AI图像生成器被滥用?
A:谷歌设有保护措施限制用户创建的内容,生成式AI服务条款禁止用户生成"非自愿的亲密图像"。此外,谷歌对AI生成的图像应用视觉水印以及元数据标识符,帮助用户识别AI生成内容。
好文章,需要你的鼓励
数据中心分类对企业选择合适设施至关重要。不同类型数据中心在可用性、运行时间和特殊服务方面存在显著差异。主要分类方法包括:层级系统(Tier I-IV)评估可靠性和冗余度;功率容量以兆瓦为单位衡量规模;可持续性认证如LEED标准;服务模式区分私有和托管设施;规模分类涵盖超大规模、传统、模块化和微型数据中心。理解这些分类体系有助于企业根据业务需求、性能期望和预算约束做出明智决策。
这项研究展示了一种革命性的AI技术,能够仅通过音频生成高度逼真的说话视频。滑铁卢大学研究团队开发的Audio2Photoreal系统巧妙结合了深度学习、扩散模型等先进技术,实现了声音到面部动作的精准转换。该技术在影视制作、在线教育、新闻媒体等领域具有广阔应用前景,将大幅降低视频制作成本和门槛。虽然仍面临计算资源需求高、隐私安全等挑战,但其突破性创新为未来视频内容创作开辟了全新路径。
2025年,企业数据平台已成为业务运营的核心支撑,随着AI深度融入日常工作流程,企业对清洁、易用的实时数据需求激增。Apache Iceberg和Delta Lake等开放格式正在打破供应商锁定,统一平台将编排、治理和元数据管理集成一体。主要厂商纷纷推出AI原生功能,支持混合云和边缘部署。预测显示,企业数据平台市场将从2025年的1113亿美元增长至2032年的2435亿美元,年复合增长率达11.8%。
腾讯和深圳大学联合开发的多视角语言理解技术取得重大突破,通过创新的训练方法让人工智能具备接近人类水平的语言理解能力。系统能准确识别讽刺、情感变化等复杂语言现象,在多项测试中表现优异,已在客服、教育、医疗等领域开始应用,未来有望广泛改善人机交互体验。