谷歌发布多模态AI视频工具Gemini Omni，能够理解和模拟真实世界

谷歌在I/O开发者大会上发布了全新多模态AI产品Gemini Omni。与现有文字转视频工具不同，Omni支持文本、图像、视频等多种输入形式，可生成高度逼真的视频内容。该产品基于Gemini架构，具备高级物理模拟与视频编辑能力，支持替换视频中的单个元素。所有输出内容将自动附加SynthID水印。Omni目前已在Gemini应用、Google Flow及YouTube Shorts上线，后续将向开发者和企业开放API接入，并推出更强大的Omni Pro版本。

谷歌在周二举行的I/O开发者大会上正式发布了最新AI产品——Gemini Omni。与现有的文本转视频产品（如Veo）不同，Omni几乎可以接受任何形式的输入，并生成逼真的高质量视频。

Gemini Omni基于Gemini模型架构构建，是一个真正意义上的多模态输入输出系统，支持用户通过文本、图片以及已有视频来生成新的视频内容。在正式上线时，用户即可使用上述输入方式进行视频创作，而图像与文本的生成功能则将在后续版本中陆续推出。

以Gemini为核心，Omni能够处理和理解多种类型的输入，从而生成连贯、精良的最终作品。它在谷歌现有产品体系的基础上，深度融合了Gemini智能能力，进一步拓展了视频创作的边界。

AI生成视频的兴起，正处于一个充满矛盾的时代——谷歌等公司在技术层面取得了令人瞩目的突破，而与此同时，社交媒体上充斥着大量粗制滥造的AI内容。谷歌将Omni定位为迈向"能够建模和模拟真实世界的AI"的"下一个重大步骤"。Omni是一个具备高级推理能力的世界模型，能够生成与现实世界高度一致的视频内容，并展现出强大的物理规律模拟能力，使输出的视频更具真实感。以下是谷歌I/O大会上Gemini Omni的功能亮点。

强大（且令人警觉）的编辑能力

Omni不仅具备出色的视频生成能力，还拥有高度先进的视频编辑功能。用户在使用Omni生成视频后，可以将其重新导入工具中，仅凭一条文字提示即可完成精细修改，或加入额外的媒体素材。用户甚至可以上传自己拍摄的视频，对其中的单独元素进行更改或替换——这种视频编辑方式此前几乎闻所未闻。

然而，这种能够对视频内容进行深度替换的能力，也可能带来不容忽视的风险，使Omni的强大编辑功能在令人印象深刻的同时，也引发了一定的安全担忧。对此，谷歌内置了相应的防护机制：Omni生成的所有内容将自动附带谷歌的SynthID水印，帮助用户识别内容是否经过AI处理或篡改。这一举措意义重大，因为Omni本质上已具备改变人们对现实认知的能力。

多样化的访问入口

用户将能够通过多种方式体验Gemini Omni。它是全新改版的Gemini应用中的一项核心功能，用户只需点击一下，即可将内置模板添加到相册中。此外，用户还可以创建与自己外貌和声音相似的自定义数字形象，并将其添加到视频中。

从周二起，部分付费订阅用户可在Google Flow和YouTube Shorts上体验Omni功能。未来几周内，Omni还将通过API向开发者和企业客户开放，支持定制化集成应用。

Omni Flash与Omni Pro

与大多数Gemini模型一样，Omni将分为Flash和Pro两个版本，其中Flash版本将率先上线。谷歌目前正在研发性能更为强大的Omni Pro版本，预计将在未来推出。

Q&A

Q1：Gemini Omni和谷歌之前的Veo有什么区别？

A：Veo主要是文本转视频的产品，而Gemini Omni是一个真正的多模态系统，支持文本、图片和现有视频等多种形式的输入来生成视频。Omni还具备强大的视频编辑能力，可以替换视频中的单个元素，功能更加全面，适用场景也更广。

Q2：Gemini Omni生成的视频内容怎么判断真假？

A：谷歌为Omni内置了SynthID水印机制，所有由Omni生成或编辑过的视频内容都会自动添加该水印，用户可以通过水印识别内容是否经过AI处理，这也是谷歌应对深度伪造等滥用风险的核心防护手段之一。

Q3：普通用户如何使用Gemini Omni？需要付费吗？

A：用户可以通过全新改版的Gemini应用体验Omni功能，部分功能还将在Google Flow和YouTube Shorts上开放给付费订阅用户。开发者和企业客户则可以通过API进行定制集成。目前Flash版本将率先推出，更强大的Pro版本将在未来上线。

来源：cnet

0赞

好文章，需要你的鼓励

谷歌发布多模态AI视频工具Gemini Omni，能够理解和模拟真实世界

来源：cnet

2026

05/20

15:13

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

谷歌Project Genie新功能：将真实地点变为奇幻世界

macOS 27 即将发布：五大新功能抢先看

Apple iOS 27无障碍功能揭示Siri智能体新能力

AI工程与网络安全技能领跑IT薪酬溢价榜单

Status AI获1700万美元融资，打造沉浸式互动社交娱乐新体验

LaunchDarkly推出面向智能体AI时代的运行时控制层

Unframe完成5000万美元融资，成立首年合同总价值突破1亿美元

沃尔沃如何为一辆两吨半重的移动装置开发软件

苹果推出AI驱动无障碍功能，支持眼控轮椅操作

亚斯卡瓦与戴尔自动化携手提升南非制造业效率

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会