Gemini Omni正式发布:多模态输入生成高质量视频

谷歌推出全新模型Gemini Omni,支持图像、音频、视频和文本的多模态输入,并可生成高质量视频。用户可通过自然语言对话编辑视频,保持角色一致性与场景连贯性。Omni结合物理直觉与Gemini的知识库,实现更真实的视觉效果。首款产品Gemini Omni Flash已向全球Plus、Pro和Ultra订阅用户开放,并将逐步向开发者和企业客户提供API接入。

去年,Nano Banana将Gemini的智能引入图像生成与编辑领域,帮助数百万用户修复老照片、从草图出发进行创作,以及以前所未有的方式将创意可视化。从最初设计起,Gemini就以原生多模态为核心构建,如今我们迈出了下一步。

我们正式推出Gemini Omni——Gemini的推理能力与内容创作能力的全面融合。Omni是我们全新的模型,能够接受任意形式的输入并生成任意内容,目前率先支持视频生成。借助Omni,用户可以将图像、音频、视频和文字组合作为输入,生成基于Gemini真实世界知识的高质量视频,同时还可以通过对话方式轻松编辑视频。

即日起,Omni家族的首款模型——Gemini Omni Flash正式向Gemini应用、Google Flow以及YouTube Shorts推出。未来,Omni还将陆续支持图像和音频等更多输出形式。以下是Omni的核心亮点:

通过对话编辑视频

Gemini Omni让视频编辑变得更加直观——只需用自然语言描述即可。每一条指令都在上一条的基础上延续,角色形象保持一致,物理规律符合逻辑,场景也能记住此前发生的一切。

改变画面中的世界,可以只改动某个细节,也可以全面重塑。原始视频成为新创作的起点,让你拍摄到现实中无法实现的画面。

示例提示词:将雕塑变成由泡泡构成的形态。

重新编排动作。拿到一段你拍摄的视频,只需告诉Omni你想改变什么。可以编辑动作内容、加入新角色或物体,也可以将某个瞬间变成令人意想不到的场景。

示例提示词:当人触碰镜子时,让镜子像液体一样产生美丽的涟漪,同时人的手臂变成反光的镜面材质。

示例提示词:调暗房间灯光。将一个黑白棋盘格房间放置在一个漂浮于手部上方的玻璃球内,球内包含同一只手持球的递归影像,形成无限递归的房间效果。镜头缓缓推向玻璃球,形成循环视频。

示例提示词:公寓的灯光随着音乐的节拍依次亮起。

多轮对话中持续精细调整视频。修改环境、角度、风格甚至具体细节,始终不会丢失原始场景的脉络。

示例提示词:一段小提琴手演奏乐曲的视频。

示例提示词:将小提琴手传送到图像所在的环境中。

示例提示词:让小提琴消失不见。

示例提示词:将摄像机角度切换到小提琴手肩膀后方的视角。

融合Gemini世界知识,让创意真正落地

Gemini Omni不仅能构建看起来真实的场景,还能推断接下来应该发生什么。它将对物理规律的直觉理解与Gemini在历史、科学和文化背景方面的知识相结合,在照片级真实感与有意义的故事叙述之间架起桥梁。

创作物理效果更精准的视觉内容。Omni对重力、动能和流体动力学等物理力有着更强的直觉理解,让你能够创作出更逼真的场景。

示例提示词:一个弹珠在连锁反应式轨道上快速滚动,连续流畅的拍摄镜头。

融合知识与创造力。Omni借助Gemini的知识储备,以远超简单模式匹配的方式,将语言、图像与意义有机连接。

示例提示词:视频展示26个字母对应的物品。每个字母对应一个不寻常的物品放置在桌上(如C对应水豚、D对应迪斯科球、L对应熔岩灯)。26个字母须全部呈现,每次只显示一个物品及对应的字幕条。字幕条样式为左下角用黑色马克笔写在纸片上。节奏快速,每个物品约9帧、24帧率播放。最后一帧为写有"THE END"的纸片。全程配以平静流畅的音乐。

让复杂创意得以可视化呈现。Omni能够根据简短的提示词,生成引人入胜的说明性视频,将复杂的概念拆解为直观的视觉内容。

示例提示词:关于蛋白质折叠的粘土动画解说视频,所有内容均由粘土制成,无需出现手,采用定格动画形式,内容准确。

支持任意输入组合生成视频

随意引用参考素材。Omni能将任意参考内容——图像、文本、视频或音频——整合为统一连贯的输出。目前音频参考仅支持语音输入,其他类型的音频输入将于近期陆续推出。

示例提示词:根据image_0.png生成动态科幻电影风格视频,画面元素的闪烁效果参照video_0.mp4,并与audio_0.wav的音乐节拍同步。

示例提示词:参照video-0中极端的镜头运动、透视变形和畸变效果,为image-0中的角色创建一个正面全身行走循环动画,行走过程中快速切换多种视觉风格,从写实电影风格出发。保持场景环境,仅改变风格。背景硬切,始终以天空为中心。行走连续、音频连续,风格切换与音频节拍完美同步。电影级画质,16:9。

示例提示词:在我触碰每片蕨叶时,加入与之同步的竖琴音效。将叶片结构改为半透明3D生物发光植物形态,周围有生物发光的萤火虫飞舞,并随我的演奏做出反应,与音效同步。添加微妙的散景景深效果和动态光影,光线反射至房间墙壁,保持房间整体结构不变。

从已有素材出发进行创作。借助输入参考素材,你可以使用角色、场景或草图图像,按照自己的设想进行创作。

示例提示词:随着我行走,想象世界逐渐变换为复古未来主义风格(颗粒感浓厚、氛围沉郁,参照image-1)。以音频作为复古未来主义背景音乐,时长10秒。

示例提示词:将画作转化为写实画面,仅以绘图作为动作参考,最终视频中不显示绘图本身。

示例提示词:将输入视频中的姿势与动作应用于图像中提供的角色,并将图像参考中的风格应用于新视频。

应用风格、动作或特效。通过输入参考素材定义视觉风格语言,或直接用自然语言描述。Omni会融合各输入参考,生成风格统一的视频片段。

示例提示词:保持视频内容不变,为滑板添加向外迸发的动画运动特效。

示例提示词:将提供视频中鲸鱼游动的动作应用于提供的流动反光材质图像。不显示鲸鱼或水面;而是让这种反光流动材质形成一个在游动中呈现鲸鱼轮廓的形状。将水替换为移动的白色光滑材质形态。

使用专属数字分身创作视频

我们始终致力于以负责任的方式推进AI发展,并制定了明确的政策以保护用户权益、规范AI工具的使用。目前,用户可通过"Avatar数字分身"功能使用自己的声音创作视频——该功能会创建你的数字版本,生成外观和声音都与你相似的视频。此外,关于通过编辑视频来更改音频和语音的功能,我们仍在持续测试和评估,以期找到以负责任的方式向用户开放该能力的最佳路径。

所有通过Omni生成的视频均嵌入了我们不可感知的SynthID数字水印。用户可通过Gemini应用、Chrome中的Gemini以及Google搜索,便捷验证视频是否由Gemini Omni生成。有关我们如何扩展内容透明度与验证工具,帮助用户了解网络上内容的创建与编辑方式的更多信息,请参阅我们的博客文章。

立即体验Gemini Omni

即日起,Omni家族的首款模型Gemini Omni Flash正式上线。全球范围内,Google AI Plus、Pro及Ultra订阅用户可通过Gemini应用和Google Flow立即使用。本周起,YouTube Shorts和YouTube Create App用户也可免费体验。

未来数周内,我们还将通过API向开发者和企业客户开放该模型。

Q&A

Q1:Gemini Omni能生成哪些类型的视频?

A:Gemini Omni目前主要支持视频生成与编辑,用户可以将图像、音频、视频和文字任意组合作为输入,生成高质量视频。未来还将陆续支持图像和音频等更多输出形式。Omni能够处理多种任务,包括改变场景风格、调整物理效果、多轮对话精细编辑,以及从草图或参考图像创作视频等。

Q2:Gemini Omni Flash现在如何获取?是否需要付费?

A:Gemini Omni Flash即日起向全球Google AI Plus、Pro和Ultra订阅用户开放,可通过Gemini应用和Google Flow使用。YouTube Shorts和YouTube Create App的用户本周起可免费体验。未来数周内,开发者和企业客户也可通过API接入该模型。

Q3:Gemini Omni生成的视频如何防止被滥用?

A:所有由Gemini Omni生成的视频均自动嵌入SynthID数字水印,这种水印对人眼不可见,但可通过技术手段识别。用户可通过Gemini应用、Chrome中的Gemini以及Google搜索验证视频是否为AI生成。此外,Omni目前仅支持用户使用自己的声音创建数字分身视频,涉及更改他人音频和语音的功能仍在负责任地测试评估中。

来源:Google DeepMind

0赞

好文章,需要你的鼓励

2026

05/21

18:08

分享

点赞

邮件订阅