谷歌最新的开源 AI 模型 Gemma 3 并不是今天这家 Alphabet 子公司唯一的大新闻。
事实上,真正吸引眼球的是谷歌的 Gemini 2.0 Flash,它具备原生图像生成功能,这是一种新的实验性模型,免费提供给 Google AI Studio 的用户,并通过谷歌的 Gemini API 提供给开发者。
这是美国主要科技公司首次在模型中直接向消费者提供多模态图像生成。大多数其他 AI 图像生成工具是将扩散模型(特定于图像的)与大语言模型(LLM)连接起来,需要在两个模型之间进行一些解释,以生成用户在文本提示中要求的图像。
相比之下,Gemini 2.0 Flash 可以在用户输入文本提示的同一模型中原生生成图像,理论上可以实现更高的准确性和更多的功能——而早期迹象表明,这完全属实。
Gemini 2.0 Flash 首次于 2024 年 12 月推出,但当时尚未为用户开启原生图像生成功能。它结合了多模态输入、推理和自然语言理解,以生成与文本并列的图像。
新推出的实验版本 gemini-2.0-flash-exp 允许开发者创建插图,通过对话优化图像,并基于世界知识生成详细的视觉效果。
Gemini 2.0 Flash 如何增强 AI 生成的图像
在今天早些时候发布的一篇面向开发者的博客文章中,谷歌强调了 Gemini 2.0 Flash 原生图像生成的几个关键功能:
- 文本和图像讲故事:开发者可以使用 Gemini 2.0 Flash 生成插图故事,同时保持角色和场景的一致性。该模型还会响应反馈,允许用户调整故事或更改艺术风格。
- 对话式图像编辑:AI 支持多轮编辑,这意味着用户可以通过自然语言提示迭代地优化图像。此功能支持实时协作和创意探索。
- 基于世界知识的图像生成:与许多其他图像生成模型不同,Gemini 2.0 Flash 利用更广泛的推理能力来生成更具上下文相关性的图像。例如,它可以用详细的视觉效果来说明与真实世界的食材和烹饪方法一致的食谱。
- 改进的文本渲染:许多 AI 图像模型难以在图像中准确生成可读文本,常常会产生拼写错误或字符扭曲。谷歌报告称,Gemini 2.0 Flash 在文本渲染方面优于领先竞争对手,使其特别适用于广告、社交媒体帖子和邀请函。
初步示例展示了令人难以置信的潜力和前景
谷歌员工和一些 AI 高级用户在 X 上分享了通过 Gemini 2.0 Flash 实验版提供的新图像生成和编辑功能的示例,毫无疑问,这些示例令人印象深刻。
谷歌 DeepMind 研究员 Robert Riachi 展示了该模型如何生成像素艺术风格的图像,然后根据文本提示以相同风格创建新图像。
Google AI Studio 产品负责人 Logan Kilpatrick(前 OpenAI 员工)强调了基于聊天的图像编辑的乐趣和实用性,分享了一个生成的互动故事中 3D 渲染的小山羊的演示。
AI 新闻账号 TestingCatalog News 报道了 Gemini 2.0 Flash 实验版多模态功能的推出,指出谷歌是第一个部署此功能的主要实验室。
用户 @Angaisb_ 又名“Angel”在一个引人注目的示例中展示了如何通过简单的聊天与模型来回对话,在几秒钟内修改现有的羊角面包图像以“添加巧克力淋面”——揭示了 Gemini 2.0 Flash 快速且准确的图像编辑能力。
YouTuber Theoretically Media 指出,这种无需完全重新生成的增量图像编辑是 AI 行业期待已久的,展示了如何轻松要求 Gemini 2.0 Flash 编辑图像以抬起角色的手臂,同时保留图像的其余部分。
前谷歌员工、现 AI YouTuber Bilawal Sidhu 展示了该模型如何为黑白图像上色,暗示了潜在的历史修复或创意增强应用。
这些早期反应表明,开发者和 AI 爱好者将 Gemini 2.0 Flash 视为一个高度灵活的工具,可用于迭代设计、创意讲故事和 AI 辅助视觉编辑。
快速推出也与 OpenAI 的 GPT-4o 形成对比,后者在 2024 年 5 月预览了原生图像生成功能——几乎是一年前——但尚未公开发布该功能——这使得谷歌能够在多模态 AI 部署中抢占先机。
正如用户 @chatgpt21 又名“Chris”在 X 上指出的那样,OpenAI 在这种情况下“失去了这一年多的领先地位”,原因不明。该用户邀请 OpenAI 的任何人对此发表评论。
我自己的测试显示了一些关于纵横比大小的限制——尽管在文本中要求修改它,但它似乎仍然固定在 1:1——但它能够在几秒钟内改变图像中角色的方向。
开发者和企业的重要新工具
虽然关于 Gemini 2.0 Flash 原生图像生成的早期讨论大多集中在个人用户和创意应用上,但其对企业团队、开发者和软件架构师的影响也很显著。
AI 驱动的设计和大规模营销:对于营销团队和内容创作者来说,Gemini 2.0 Flash 可以作为传统图形设计工作流程的成本效益替代方案,自动化创建品牌内容、广告和社交媒体视觉效果。由于它支持图像中的文本渲染,它可以简化广告创建、包装设计和宣传图形,减少对手动编辑的依赖。
增强的开发者工具和 AI 工作流程:对于 CTO、CIO 和软件工程师来说,原生图像生成可以简化 AI 在应用程序和服务中的集成。通过在单一模型中结合文本和图像输出,Gemini 2.0 Flash 允许开发者构建:
- AI 驱动的设计助手,生成 UI/UX 模型或应用资产。
- 自动化文档工具,实时说明概念。
- 媒体和教育的动态 AI 驱动的讲故事平台。
由于该模型还支持对话式图像编辑,团队可以开发 AI 驱动的界面,用户通过自然对话优化设计,降低非技术用户的入门门槛。
AI 驱动的生产力软件的新可能性:对于构建 AI 驱动的生产力工具的企业团队,Gemini 2.0 Flash 可以支持以下应用:
- 自动化演示生成,使用 AI 创建的幻灯片和视觉效果。
- 法律和商业文档注释,带有 AI 生成的信息图表。
- 电子商务可视化,基于描述动态生成产品模型。
如何部署和实验这一功能
开发者可以开始使用 Gemini API 测试 Gemini 2.0 Flash 的图像生成功能。谷歌提供了一个示例 API 请求,展示了开发者如何在单个响应中生成带有文本和图像的插图故事:
通过简化 AI 驱动的图像生成,Gemini 2.0 Flash 为开发者提供了创建插图内容、设计 AI 辅助应用程序和实验视觉讲故事的新方法。
好文章,需要你的鼓励
OpenAI 宣布重大升级:ChatGPT 现可记忆用户全部历史对话,并据此调整回复。这项功能将使 ChatGPT 随时间更了解用户,提供个性化响应。新功能包括"引用保存的记忆"和"引用聊天历史",目前仅向付费用户开放。虽然提升了实用性,但也引发了隐私方面的担忧。
本文探讨了人工智能聊天机器人对人类情感和关系的潜在影响。作者指出,虽然AI可以模仿关怀,但缺乏真实情感,可能导致人们对亲密关系的期望发生改变。特别是对儿童来说,过度依赖AI可能阻碍情感发展。文章呼吁我们要警惕AI带来的长期影响,保持人际交往的真实性。
AI革命的下一波浪潮不仅仅关乎拥有AI技术,更在于拥有能让AI真正理解业务的人才。虽然媒体关注的是构建大语言模型和复杂AI代理的工程师,但在前瞻性公司的分析部门中,一场悄然革命正在酝酿:AI分析师的兴起。这个角色将成为连接AI技术与业务实践的关键纽带,对企业数字化转型至关重要。
Google 推出了 Firebase Studio,这是一个基于云的人工智能辅助开发环境。它结合了 Project IDX、GenKit 和 Gemini 等技术,旨在帮助开发者快速原型设计和构建应用程序。然而,一些开发者反馈称,目前该工具的 AI 功能还不够成熟,难以生成高质量的可用代码。这表明 AI 辅助开发工具虽有潜力,但仍无法完全取代专业开发人员的技能和经验。