谷歌近日发布了一项全新的AI视频生成能力,这项技术既有望帮助创作者更轻松地制作高质量视频,也可能让YouTube上充斥更多AI生成的低质内容——很可能两者兼而有之。
谷歌正式宣布推出Gemini Omni,将AI视频创作能力提升至全新高度。谷歌将此次发布的意义,类比于此前推出Nano Banana时在AI图像生成领域带来的重大突破。Nano Banana大幅拓展了图像生成的可能性边界,而Omni则立志在视频领域实现同等级别的飞跃。Omni已于发布当日起开始逐步推出。
谷歌将Omni定位为"Gemini推理能力与创作能力的结合体"。据谷歌介绍,"使用Omni,你可以将图像、音频、视频和文本作为输入内容,生成基于Gemini真实世界知识的高质量视频。"虽然Omni目前"以视频为起点",但谷歌表示该模型能够"从任意输入生成任意内容",因此未来有望支持更多媒体类型的生成。
Omni还将提供分级版本,目前首先推出Gemini Omni Flash。该功能将陆续登陆Gemini应用、Google Flow以及YouTube Shorts。目前尚不清楚网页版Gemini是否支持Omni,或是否需要通过浏览器使用Flow界面才能访问。
数字分身功能:机遇还是隐患?
这项功能令人难以定论——它究竟是一个出色的创新功能、一大隐私隐患,还是一台"低质内容生成机器"?谷歌表示,用户可以"通过Avatars(数字化身)功能,创建自己的数字版本,从而生成看起来和听起来都像你本人的视频"。
作为一名YouTube频道的视频创作者,笔者对此颇感兴趣。有时想发布视频,却偏偏状态不佳——头发乱、声音哑,甚至情绪低落,不想让这些负面状态出现在镜头前。如果能将脚本输入数字分身,让"数字替身"代为出镜,效果究竟如何?观众会注意到吗?他们会在意吗?这显然是值得探索的方向,但可能不会成为常态,毕竟做视频本身也是锻炼表达和演讲能力的过程,将这项工作交给数字替身虽然省力,却也意味着减少了自我训练的机会。
谷歌特别强调,Omni生成的视频将嵌入SynthID数字水印技术,以便验证视频是否由Omni生成。谷歌还表示:"在通过编辑视频来改变音频和语音方面,我们仍在测试中,并致力于以负责任的方式将这一功能带给用户。"
物理引擎加持,视频生成更真实
还记得早期电子游戏中角色动作僵硬、毫无真实感的时代吗?随着游戏技术进步,物理引擎的引入让角色行为更符合现实规律。Omni如今也将物理模拟融入视频生成之中。据谷歌介绍,Omni具备"对重力、动能和流体动力学等力学的直觉理解能力",并借助Gemini的知识"以远超简单模式匹配的方式关联语言、图像与语义"。
谷歌表示,Omni可以从简短的提示词出发生成详尽的视频,还能制作解说类视频,用于拆解相对复杂的概念。这一点颇具说服力——NotebookLM的音频概览和视频概览功能已经展现出令人惊叹的内容解说能力。若这些技术融入Omni,结果将令人期待。
笔者曾将营销文档和产品规格表导入NotebookLM,它在短短30分钟内生成了多个产品功能的解说视频,质量远超手动制作水平,极大提升了产品发布效率,尽管当时的视觉效果还不够理想。
多模态输入,风格自由定制
Nano Banana早期的一大亮点是对图像的重新情境化能力。例如,笔者曾用它将自己在公园散步的照片改造成身着近似海军上将制服、站在航母舰桥上的场景,尽管细节上有些偏差,但面部和体型均得到了较为准确的还原。
Omni计划将这种能力延伸至视频领域,将图像、文本、视频或音频转化为"连贯的输出内容"。目前仅支持语音录音作为音频输入,但谷歌表示将"尽快推出其他类型的音频输入支持"。此外,用户可以创建场景、匹配风格、用自然语言描述需求,并在整段视频中保持角色外观的一致性。
自然语言驱动视频剪辑
视频制作中最令人头疼的环节莫过于后期剪辑,往往耗时费力。Omni为此提供了一种更便捷的解决方案——"通过自然语言编辑视频,每一条指令都在上一条的基础上延续,角色保持一致,物理效果正常运作,场景也会记住之前发生的事情"。
谷歌还表示,用户可以对视频中的元素进行修改。如果能导入一段视频并让编辑器自动移除遮挡物、替换物体或更改背景,这将带来巨大的实用价值。目前尚不清楚支持的视频时长上限,以及不同套餐下Omni的编辑能力边界,但这些可能性已经令人振奋。
此外,谷歌还表示新版Omni能够实现两项额外转换能力,不过谷歌目前尚未明确视频格式或分辨率规格——这究竟会是支持4K乃至8K分辨率的专业工具,还是主要面向YouTube Shorts创作者的轻量级应用,仍有待观察。
能否成为专业创作者的利器?
当OpenAI推出Sora时,它更多是一种新奇体验,始终未能真正融入专业创作者的工作流程。Omni的数字分身克隆和对象替换功能固然有趣,但笔者更希望这些能力能够与Final Cut、Premiere Pro、DaVinci Resolve等专业视频软件实现集成,或至少能让这些工具调用Omni生成的编辑结果。
这并非没有可能——Omni的功能已开始通过谷歌API向企业客户和开发者推出。
另一个值得关注的问题是,Omni生成的视频是否会像Nano Banana生成的图像那样,在角落嵌入小菱形水印?水印有助于标识AI生成内容,但也会妨碍其作为专业工具的使用。未来是否会推出可移除水印的付费套餐?是否会出现绕过水印的第三方工具?这些问题的答案,时间会给出答案。
Q&A
Q1:Gemini Omni是什么?它和普通AI视频生成工具有什么不同?
A:Gemini Omni是谷歌推出的新一代AI视频生成模型,核心特点是将Gemini的推理能力与视频创作能力相结合。它支持图像、音频、视频和文本多模态输入,内置物理引擎模拟真实世界的重力、动能和流体效果,并支持用自然语言进行视频编辑。相比早期AI视频工具,Omni更注重内容的连贯性、角色一致性和语义理解,定位更接近专业创作辅助工具。
Q2:Gemini Omni的数字分身(Avatar)功能是怎么运作的?有没有安全保障?
A:Avatars功能允许用户创建自己的数字化身,生成看起来和听起来都像本人的视频,无需本人出镜录制。谷歌为此嵌入了SynthID数字水印技术,使生成的视频可被验证为AI生成内容。不过谷歌也坦承,涉及修改音频和语音的编辑功能仍在测试中,目前以负责任的方式谨慎推进,尚未完全开放。
Q3:Gemini Omni现在可以在哪里使用?是否对普通用户开放?
A:Gemini Omni目前已开始逐步推出,首先以Gemini Omni Flash版本上线,将陆续登陆Gemini应用、Google Flow和YouTube Shorts平台。同时,企业客户和开发者可通过谷歌API提前获取相关能力。目前尚不清楚网页版Gemini是否直接支持,普通用户的完整体验可能需要等待后续更新。
好文章,需要你的鼓励
今天讲的出海案例是利亚德,这家 1995 年成立、从 LED 显示产品研发生产销售起步,并做到小间距和 Micro LED 的视效科技公司,沙特工厂预计 2026 年 7 月投产。
本文综述了基于大型语言模型的多智能体系统,提出LIFE框架,系统串联个体能力、多智能体协作、故障归因与自我进化四个相互依存的阶段,填补了该领域的理论空白。
黑石集团与谷歌宣布成立合资公司,整合数据中心容量与谷歌云张量处理器(TPU),以"算力即服务"模式面向企业市场。黑石初期承诺投入50亿美元股权资本,首批500兆瓦算力预计于2027年上线。谷歌负责提供TPU硬件、软件及技术支持。此举旨在满足AI工作负载需求,同时与CoreWeave等新兴云服务商展开竞争。据Synergy Research Group数据,2026年一季度企业云基础设施支出已达1290亿美元。
韩国VIDRAFT公司提出达尔文框架,通过进化算法和诊断引导的参数重组,让AI模型无需训练即可提升推理能力,旗舰模型GPQA得分86.9%全球排名第六。