谷歌近日发布了一项全新的AI视频生成能力,这项技术既有望帮助创作者更轻松地制作高质量视频,也可能让YouTube上充斥更多AI生成的低质内容——很可能两者兼而有之。
谷歌正式宣布推出Gemini Omni,将AI视频创作能力提升至全新高度。谷歌将此次发布的意义,类比于此前推出Nano Banana时在AI图像生成领域带来的重大突破。Nano Banana大幅拓展了图像生成的可能性边界,而Omni则立志在视频领域实现同等级别的飞跃。Omni已于发布当日起开始逐步推出。
谷歌将Omni定位为"Gemini推理能力与创作能力的结合体"。据谷歌介绍,"使用Omni,你可以将图像、音频、视频和文本作为输入内容,生成基于Gemini真实世界知识的高质量视频。"虽然Omni目前"以视频为起点",但谷歌表示该模型能够"从任意输入生成任意内容",因此未来有望支持更多媒体类型的生成。
Omni还将提供分级版本,目前首先推出Gemini Omni Flash。该功能将陆续登陆Gemini应用、Google Flow以及YouTube Shorts。目前尚不清楚网页版Gemini是否支持Omni,或是否需要通过浏览器使用Flow界面才能访问。
数字分身功能:机遇还是隐患?
这项功能令人难以定论——它究竟是一个出色的创新功能、一大隐私隐患,还是一台"低质内容生成机器"?谷歌表示,用户可以"通过Avatars(数字化身)功能,创建自己的数字版本,从而生成看起来和听起来都像你本人的视频"。
作为一名YouTube频道的视频创作者,笔者对此颇感兴趣。有时想发布视频,却偏偏状态不佳——头发乱、声音哑,甚至情绪低落,不想让这些负面状态出现在镜头前。如果能将脚本输入数字分身,让"数字替身"代为出镜,效果究竟如何?观众会注意到吗?他们会在意吗?这显然是值得探索的方向,但可能不会成为常态,毕竟做视频本身也是锻炼表达和演讲能力的过程,将这项工作交给数字替身虽然省力,却也意味着减少了自我训练的机会。
谷歌特别强调,Omni生成的视频将嵌入SynthID数字水印技术,以便验证视频是否由Omni生成。谷歌还表示:"在通过编辑视频来改变音频和语音方面,我们仍在测试中,并致力于以负责任的方式将这一功能带给用户。"
物理引擎加持,视频生成更真实
还记得早期电子游戏中角色动作僵硬、毫无真实感的时代吗?随着游戏技术进步,物理引擎的引入让角色行为更符合现实规律。Omni如今也将物理模拟融入视频生成之中。据谷歌介绍,Omni具备"对重力、动能和流体动力学等力学的直觉理解能力",并借助Gemini的知识"以远超简单模式匹配的方式关联语言、图像与语义"。
谷歌表示,Omni可以从简短的提示词出发生成详尽的视频,还能制作解说类视频,用于拆解相对复杂的概念。这一点颇具说服力——NotebookLM的音频概览和视频概览功能已经展现出令人惊叹的内容解说能力。若这些技术融入Omni,结果将令人期待。
笔者曾将营销文档和产品规格表导入NotebookLM,它在短短30分钟内生成了多个产品功能的解说视频,质量远超手动制作水平,极大提升了产品发布效率,尽管当时的视觉效果还不够理想。
多模态输入,风格自由定制
Nano Banana早期的一大亮点是对图像的重新情境化能力。例如,笔者曾用它将自己在公园散步的照片改造成身着近似海军上将制服、站在航母舰桥上的场景,尽管细节上有些偏差,但面部和体型均得到了较为准确的还原。
Omni计划将这种能力延伸至视频领域,将图像、文本、视频或音频转化为"连贯的输出内容"。目前仅支持语音录音作为音频输入,但谷歌表示将"尽快推出其他类型的音频输入支持"。此外,用户可以创建场景、匹配风格、用自然语言描述需求,并在整段视频中保持角色外观的一致性。
自然语言驱动视频剪辑
视频制作中最令人头疼的环节莫过于后期剪辑,往往耗时费力。Omni为此提供了一种更便捷的解决方案——"通过自然语言编辑视频,每一条指令都在上一条的基础上延续,角色保持一致,物理效果正常运作,场景也会记住之前发生的事情"。
谷歌还表示,用户可以对视频中的元素进行修改。如果能导入一段视频并让编辑器自动移除遮挡物、替换物体或更改背景,这将带来巨大的实用价值。目前尚不清楚支持的视频时长上限,以及不同套餐下Omni的编辑能力边界,但这些可能性已经令人振奋。
此外,谷歌还表示新版Omni能够实现两项额外转换能力,不过谷歌目前尚未明确视频格式或分辨率规格——这究竟会是支持4K乃至8K分辨率的专业工具,还是主要面向YouTube Shorts创作者的轻量级应用,仍有待观察。
能否成为专业创作者的利器?
当OpenAI推出Sora时,它更多是一种新奇体验,始终未能真正融入专业创作者的工作流程。Omni的数字分身克隆和对象替换功能固然有趣,但笔者更希望这些能力能够与Final Cut、Premiere Pro、DaVinci Resolve等专业视频软件实现集成,或至少能让这些工具调用Omni生成的编辑结果。
这并非没有可能——Omni的功能已开始通过谷歌API向企业客户和开发者推出。
另一个值得关注的问题是,Omni生成的视频是否会像Nano Banana生成的图像那样,在角落嵌入小菱形水印?水印有助于标识AI生成内容,但也会妨碍其作为专业工具的使用。未来是否会推出可移除水印的付费套餐?是否会出现绕过水印的第三方工具?这些问题的答案,时间会给出答案。
Q&A
Q1:Gemini Omni是什么?它和普通AI视频生成工具有什么不同?
A:Gemini Omni是谷歌推出的新一代AI视频生成模型,核心特点是将Gemini的推理能力与视频创作能力相结合。它支持图像、音频、视频和文本多模态输入,内置物理引擎模拟真实世界的重力、动能和流体效果,并支持用自然语言进行视频编辑。相比早期AI视频工具,Omni更注重内容的连贯性、角色一致性和语义理解,定位更接近专业创作辅助工具。
Q2:Gemini Omni的数字分身(Avatar)功能是怎么运作的?有没有安全保障?
A:Avatars功能允许用户创建自己的数字化身,生成看起来和听起来都像本人的视频,无需本人出镜录制。谷歌为此嵌入了SynthID数字水印技术,使生成的视频可被验证为AI生成内容。不过谷歌也坦承,涉及修改音频和语音的编辑功能仍在测试中,目前以负责任的方式谨慎推进,尚未完全开放。
Q3:Gemini Omni现在可以在哪里使用?是否对普通用户开放?
A:Gemini Omni目前已开始逐步推出,首先以Gemini Omni Flash版本上线,将陆续登陆Gemini应用、Google Flow和YouTube Shorts平台。同时,企业客户和开发者可通过谷歌API提前获取相关能力。目前尚不清楚网页版Gemini是否直接支持,普通用户的完整体验可能需要等待后续更新。
好文章,需要你的鼓励
Instagram正在推出一项备受期待的新功能,允许用户手动调整个人主页网格中帖子的排列顺序。用户只需点击主页网格中的任意照片,选择"重新排列网格",即可进入拖拽界面自由调整照片顺序,完成后点击左上角返回按钮即可保存更改。该功能本周起开始向用户推出,部分用户可能尚未获得访问权限。
耶鲁大学研究团队证明两层神经网络在学习有限群运算时,梯度下降自发驱动每个神经元收敛到单一不可约群表示,并在傅里叶域实现秩一旋转对齐,揭示了特征学习的表示论机制。
iOS 27代码中发现"休息提醒"相关字符串,暗示Siri AI可能在对话持续过长时向用户发出休息提示,并提醒用户Siri并非真实的人。目前,OpenAI、Anthropic、Google等公司已陆续为旗下AI产品添加类似功能。苹果尚未官方确认该功能,触发条件也可能不仅限于对话时长。此举表明苹果正关注AI聊天机器人带来的用户健康责任问题。
强化学习训练的大语言模型可在无任何指令的情况下自发发现社会规章制度漏洞,现有安全机制对此几乎无效,这一现象或将重塑AI安全防护框架。