Gemini Omni正式发布：多模态输入生成高质量视频

谷歌推出全新模型Gemini Omni，支持图像、音频、视频和文本的多模态输入，并可生成高质量视频。用户可通过自然语言对话编辑视频，保持角色一致性与场景连贯性。Omni结合物理直觉与Gemini的知识库，实现更真实的视觉效果。首款产品Gemini Omni Flash已向全球Plus、Pro和Ultra订阅用户开放，并将逐步向开发者和企业客户提供API接入。

去年，Nano Banana将Gemini的智能引入图像生成与编辑领域，帮助数百万用户修复老照片、从草图出发进行创作，以及以前所未有的方式将创意可视化。从最初设计起，Gemini就以原生多模态为核心构建，如今我们迈出了下一步。

我们正式推出Gemini Omni——Gemini的推理能力与内容创作能力的全面融合。Omni是我们全新的模型，能够接受任意形式的输入并生成任意内容，目前率先支持视频生成。借助Omni，用户可以将图像、音频、视频和文字组合作为输入，生成基于Gemini真实世界知识的高质量视频，同时还可以通过对话方式轻松编辑视频。

即日起，Omni家族的首款模型——Gemini Omni Flash正式向Gemini应用、Google Flow以及YouTube Shorts推出。未来，Omni还将陆续支持图像和音频等更多输出形式。以下是Omni的核心亮点：

通过对话编辑视频

Gemini Omni让视频编辑变得更加直观——只需用自然语言描述即可。每一条指令都在上一条的基础上延续，角色形象保持一致，物理规律符合逻辑，场景也能记住此前发生的一切。

改变画面中的世界，可以只改动某个细节，也可以全面重塑。原始视频成为新创作的起点，让你拍摄到现实中无法实现的画面。

示例提示词：将雕塑变成由泡泡构成的形态。

重新编排动作。拿到一段你拍摄的视频，只需告诉Omni你想改变什么。可以编辑动作内容、加入新角色或物体，也可以将某个瞬间变成令人意想不到的场景。

示例提示词：当人触碰镜子时，让镜子像液体一样产生美丽的涟漪，同时人的手臂变成反光的镜面材质。

示例提示词：调暗房间灯光。将一个黑白棋盘格房间放置在一个漂浮于手部上方的玻璃球内，球内包含同一只手持球的递归影像，形成无限递归的房间效果。镜头缓缓推向玻璃球，形成循环视频。

示例提示词：公寓的灯光随着音乐的节拍依次亮起。

多轮对话中持续精细调整视频。修改环境、角度、风格甚至具体细节，始终不会丢失原始场景的脉络。

示例提示词：一段小提琴手演奏乐曲的视频。

示例提示词：将小提琴手传送到图像所在的环境中。

示例提示词：让小提琴消失不见。

示例提示词：将摄像机角度切换到小提琴手肩膀后方的视角。

融合Gemini世界知识，让创意真正落地

Gemini Omni不仅能构建看起来真实的场景，还能推断接下来应该发生什么。它将对物理规律的直觉理解与Gemini在历史、科学和文化背景方面的知识相结合，在照片级真实感与有意义的故事叙述之间架起桥梁。

创作物理效果更精准的视觉内容。Omni对重力、动能和流体动力学等物理力有着更强的直觉理解，让你能够创作出更逼真的场景。

示例提示词：一个弹珠在连锁反应式轨道上快速滚动，连续流畅的拍摄镜头。

融合知识与创造力。Omni借助Gemini的知识储备，以远超简单模式匹配的方式，将语言、图像与意义有机连接。

示例提示词：视频展示26个字母对应的物品。每个字母对应一个不寻常的物品放置在桌上（如C对应水豚、D对应迪斯科球、L对应熔岩灯）。26个字母须全部呈现，每次只显示一个物品及对应的字幕条。字幕条样式为左下角用黑色马克笔写在纸片上。节奏快速，每个物品约9帧、24帧率播放。最后一帧为写有"THE END"的纸片。全程配以平静流畅的音乐。

让复杂创意得以可视化呈现。Omni能够根据简短的提示词，生成引人入胜的说明性视频，将复杂的概念拆解为直观的视觉内容。

示例提示词：关于蛋白质折叠的粘土动画解说视频，所有内容均由粘土制成，无需出现手，采用定格动画形式，内容准确。

支持任意输入组合生成视频

随意引用参考素材。Omni能将任意参考内容——图像、文本、视频或音频——整合为统一连贯的输出。目前音频参考仅支持语音输入，其他类型的音频输入将于近期陆续推出。

示例提示词：根据image_0.png生成动态科幻电影风格视频，画面元素的闪烁效果参照video_0.mp4，并与audio_0.wav的音乐节拍同步。

示例提示词：参照video-0中极端的镜头运动、透视变形和畸变效果，为image-0中的角色创建一个正面全身行走循环动画，行走过程中快速切换多种视觉风格，从写实电影风格出发。保持场景环境，仅改变风格。背景硬切，始终以天空为中心。行走连续、音频连续，风格切换与音频节拍完美同步。电影级画质，16:9。

示例提示词：在我触碰每片蕨叶时，加入与之同步的竖琴音效。将叶片结构改为半透明3D生物发光植物形态，周围有生物发光的萤火虫飞舞，并随我的演奏做出反应，与音效同步。添加微妙的散景景深效果和动态光影，光线反射至房间墙壁，保持房间整体结构不变。

从已有素材出发进行创作。借助输入参考素材，你可以使用角色、场景或草图图像，按照自己的设想进行创作。

示例提示词：随着我行走，想象世界逐渐变换为复古未来主义风格（颗粒感浓厚、氛围沉郁，参照image-1）。以音频作为复古未来主义背景音乐，时长10秒。

示例提示词：将画作转化为写实画面，仅以绘图作为动作参考，最终视频中不显示绘图本身。

示例提示词：将输入视频中的姿势与动作应用于图像中提供的角色，并将图像参考中的风格应用于新视频。

应用风格、动作或特效。通过输入参考素材定义视觉风格语言，或直接用自然语言描述。Omni会融合各输入参考，生成风格统一的视频片段。

示例提示词：保持视频内容不变，为滑板添加向外迸发的动画运动特效。

示例提示词：将提供视频中鲸鱼游动的动作应用于提供的流动反光材质图像。不显示鲸鱼或水面；而是让这种反光流动材质形成一个在游动中呈现鲸鱼轮廓的形状。将水替换为移动的白色光滑材质形态。

使用专属数字分身创作视频

我们始终致力于以负责任的方式推进AI发展，并制定了明确的政策以保护用户权益、规范AI工具的使用。目前，用户可通过"Avatar数字分身"功能使用自己的声音创作视频——该功能会创建你的数字版本，生成外观和声音都与你相似的视频。此外，关于通过编辑视频来更改音频和语音的功能，我们仍在持续测试和评估，以期找到以负责任的方式向用户开放该能力的最佳路径。

所有通过Omni生成的视频均嵌入了我们不可感知的SynthID数字水印。用户可通过Gemini应用、Chrome中的Gemini以及Google搜索，便捷验证视频是否由Gemini Omni生成。有关我们如何扩展内容透明度与验证工具，帮助用户了解网络上内容的创建与编辑方式的更多信息，请参阅我们的博客文章。

立即体验Gemini Omni

即日起，Omni家族的首款模型Gemini Omni Flash正式上线。全球范围内，Google AI Plus、Pro及Ultra订阅用户可通过Gemini应用和Google Flow立即使用。本周起，YouTube Shorts和YouTube Create App用户也可免费体验。

未来数周内，我们还将通过API向开发者和企业客户开放该模型。

Q&A

Q1：Gemini Omni能生成哪些类型的视频？

A：Gemini Omni目前主要支持视频生成与编辑，用户可以将图像、音频、视频和文字任意组合作为输入，生成高质量视频。未来还将陆续支持图像和音频等更多输出形式。Omni能够处理多种任务，包括改变场景风格、调整物理效果、多轮对话精细编辑，以及从草图或参考图像创作视频等。

Q2：Gemini Omni Flash现在如何获取？是否需要付费？

A：Gemini Omni Flash即日起向全球Google AI Plus、Pro和Ultra订阅用户开放，可通过Gemini应用和Google Flow使用。YouTube Shorts和YouTube Create App的用户本周起可免费体验。未来数周内，开发者和企业客户也可通过API接入该模型。

Q3：Gemini Omni生成的视频如何防止被滥用？

A：所有由Gemini Omni生成的视频均自动嵌入SynthID数字水印，这种水印对人眼不可见，但可通过技术手段识别。用户可通过Gemini应用、Chrome中的Gemini以及Google搜索验证视频是否为AI生成。此外，Omni目前仅支持用户使用自己的声音创建数字分身视频，涉及更改他人音频和语音的功能仍在负责任地测试评估中。

来源：Google DeepMind

0赞

好文章，需要你的鼓励

Gemini Omni正式发布：多模态输入生成高质量视频

来源：Google DeepMind

2026

05/21

18:08

分享

点赞

OpenAI提议向美国主权财富基金捐赠5%股权

退役电动车电池"再就业"：如何变身电网储能系统

仿人机器人视觉与运动技术的精细调校

抵御AI驱动的数据融合攻击：芯片安全防护的关键挑战

AI数据中心与汽车行业在能源管理领域的技术融合

为下一代英伟达AI工厂提供MGX驱动支持

GLM-5.2海外爆火，我们翻了1500条评论，看看用户在讨论什么

电动自行车的功过之辩：被忽视的那一面

Neo：印度科技大亨自掏3000万美元，打造微软Office的AI替代品

AI数据中心如何获得电网接入资格？公用事业公司的规划逻辑解析

Brookfield与Bloom能源将融资规模扩至250亿美元，押注AI数据中心独立供电

当CIO的技术提案遭到否决，该如何应对？

Google推出全新AI搜索框及智能体等六大升级

谷歌DeepMind CEO称我们或已站在"奇点的山麓"

美国将AI数据中心纳入基础设施快速审批通道

谷歌50亿美元TPU合作是否预示新云计算时代到来

NanoCo融资1200万美元加速NanoClaw发展，为企业员工打造安全智能体助手

Juicebox推出自主招聘智能体，助力企业主动寻找候选人

Informatica扩展智能体AI战略，推出无头数据服务与统一智能体治理

Presight与阿布扎比民防局共建AI驱动公共安全平台

OpenAI推出图像水印新技术，AI生成内容将更易被识别

AI时代的企业进化——智企，超聚变探索者大会2026在郑举行

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: