谷歌发布多模态AI视频工具Gemini Omni,能够理解和模拟真实世界

谷歌在I/O开发者大会上发布了全新多模态AI产品Gemini Omni。与现有文字转视频工具不同,Omni支持文本、图像、视频等多种输入形式,可生成高度逼真的视频内容。该产品基于Gemini架构,具备高级物理模拟与视频编辑能力,支持替换视频中的单个元素。所有输出内容将自动附加SynthID水印。Omni目前已在Gemini应用、Google Flow及YouTube Shorts上线,后续将向开发者和企业开放API接入,并推出更强大的Omni Pro版本。

谷歌在周二举行的I/O开发者大会上正式发布了最新AI产品——Gemini Omni。与现有的文本转视频产品(如Veo)不同,Omni几乎可以接受任何形式的输入,并生成逼真的高质量视频。

Gemini Omni基于Gemini模型架构构建,是一个真正意义上的多模态输入输出系统,支持用户通过文本、图片以及已有视频来生成新的视频内容。在正式上线时,用户即可使用上述输入方式进行视频创作,而图像与文本的生成功能则将在后续版本中陆续推出。

以Gemini为核心,Omni能够处理和理解多种类型的输入,从而生成连贯、精良的最终作品。它在谷歌现有产品体系的基础上,深度融合了Gemini智能能力,进一步拓展了视频创作的边界。

AI生成视频的兴起,正处于一个充满矛盾的时代——谷歌等公司在技术层面取得了令人瞩目的突破,而与此同时,社交媒体上充斥着大量粗制滥造的AI内容。谷歌将Omni定位为迈向"能够建模和模拟真实世界的AI"的"下一个重大步骤"。Omni是一个具备高级推理能力的世界模型,能够生成与现实世界高度一致的视频内容,并展现出强大的物理规律模拟能力,使输出的视频更具真实感。以下是谷歌I/O大会上Gemini Omni的功能亮点。

强大(且令人警觉)的编辑能力

Omni不仅具备出色的视频生成能力,还拥有高度先进的视频编辑功能。用户在使用Omni生成视频后,可以将其重新导入工具中,仅凭一条文字提示即可完成精细修改,或加入额外的媒体素材。用户甚至可以上传自己拍摄的视频,对其中的单独元素进行更改或替换——这种视频编辑方式此前几乎闻所未闻。

然而,这种能够对视频内容进行深度替换的能力,也可能带来不容忽视的风险,使Omni的强大编辑功能在令人印象深刻的同时,也引发了一定的安全担忧。对此,谷歌内置了相应的防护机制:Omni生成的所有内容将自动附带谷歌的SynthID水印,帮助用户识别内容是否经过AI处理或篡改。这一举措意义重大,因为Omni本质上已具备改变人们对现实认知的能力。

多样化的访问入口

用户将能够通过多种方式体验Gemini Omni。它是全新改版的Gemini应用中的一项核心功能,用户只需点击一下,即可将内置模板添加到相册中。此外,用户还可以创建与自己外貌和声音相似的自定义数字形象,并将其添加到视频中。

从周二起,部分付费订阅用户可在Google Flow和YouTube Shorts上体验Omni功能。未来几周内,Omni还将通过API向开发者和企业客户开放,支持定制化集成应用。

Omni Flash与Omni Pro

与大多数Gemini模型一样,Omni将分为Flash和Pro两个版本,其中Flash版本将率先上线。谷歌目前正在研发性能更为强大的Omni Pro版本,预计将在未来推出。

Q&A

Q1:Gemini Omni和谷歌之前的Veo有什么区别?

A:Veo主要是文本转视频的产品,而Gemini Omni是一个真正的多模态系统,支持文本、图片和现有视频等多种形式的输入来生成视频。Omni还具备强大的视频编辑能力,可以替换视频中的单个元素,功能更加全面,适用场景也更广。

Q2:Gemini Omni生成的视频内容怎么判断真假?

A:谷歌为Omni内置了SynthID水印机制,所有由Omni生成或编辑过的视频内容都会自动添加该水印,用户可以通过水印识别内容是否经过AI处理,这也是谷歌应对深度伪造等滥用风险的核心防护手段之一。

Q3:普通用户如何使用Gemini Omni?需要付费吗?

A:用户可以通过全新改版的Gemini应用体验Omni功能,部分功能还将在Google Flow和YouTube Shorts上开放给付费订阅用户。开发者和企业客户则可以通过API进行定制集成。目前Flash版本将率先推出,更强大的Pro版本将在未来上线。

来源:cnet

0赞

好文章,需要你的鼓励

2026

05/20

15:13

分享

点赞

邮件订阅