谷歌在周二举行的I/O开发者大会上正式发布了最新AI产品——Gemini Omni。与现有的文本转视频产品(如Veo)不同,Omni几乎可以接受任何形式的输入,并生成逼真的高质量视频。
Gemini Omni基于Gemini模型架构构建,是一个真正意义上的多模态输入输出系统,支持用户通过文本、图片以及已有视频来生成新的视频内容。在正式上线时,用户即可使用上述输入方式进行视频创作,而图像与文本的生成功能则将在后续版本中陆续推出。
以Gemini为核心,Omni能够处理和理解多种类型的输入,从而生成连贯、精良的最终作品。它在谷歌现有产品体系的基础上,深度融合了Gemini智能能力,进一步拓展了视频创作的边界。
AI生成视频的兴起,正处于一个充满矛盾的时代——谷歌等公司在技术层面取得了令人瞩目的突破,而与此同时,社交媒体上充斥着大量粗制滥造的AI内容。谷歌将Omni定位为迈向"能够建模和模拟真实世界的AI"的"下一个重大步骤"。Omni是一个具备高级推理能力的世界模型,能够生成与现实世界高度一致的视频内容,并展现出强大的物理规律模拟能力,使输出的视频更具真实感。以下是谷歌I/O大会上Gemini Omni的功能亮点。
强大(且令人警觉)的编辑能力
Omni不仅具备出色的视频生成能力,还拥有高度先进的视频编辑功能。用户在使用Omni生成视频后,可以将其重新导入工具中,仅凭一条文字提示即可完成精细修改,或加入额外的媒体素材。用户甚至可以上传自己拍摄的视频,对其中的单独元素进行更改或替换——这种视频编辑方式此前几乎闻所未闻。
然而,这种能够对视频内容进行深度替换的能力,也可能带来不容忽视的风险,使Omni的强大编辑功能在令人印象深刻的同时,也引发了一定的安全担忧。对此,谷歌内置了相应的防护机制:Omni生成的所有内容将自动附带谷歌的SynthID水印,帮助用户识别内容是否经过AI处理或篡改。这一举措意义重大,因为Omni本质上已具备改变人们对现实认知的能力。
多样化的访问入口
用户将能够通过多种方式体验Gemini Omni。它是全新改版的Gemini应用中的一项核心功能,用户只需点击一下,即可将内置模板添加到相册中。此外,用户还可以创建与自己外貌和声音相似的自定义数字形象,并将其添加到视频中。
从周二起,部分付费订阅用户可在Google Flow和YouTube Shorts上体验Omni功能。未来几周内,Omni还将通过API向开发者和企业客户开放,支持定制化集成应用。
Omni Flash与Omni Pro
与大多数Gemini模型一样,Omni将分为Flash和Pro两个版本,其中Flash版本将率先上线。谷歌目前正在研发性能更为强大的Omni Pro版本,预计将在未来推出。
Q&A
Q1:Gemini Omni和谷歌之前的Veo有什么区别?
A:Veo主要是文本转视频的产品,而Gemini Omni是一个真正的多模态系统,支持文本、图片和现有视频等多种形式的输入来生成视频。Omni还具备强大的视频编辑能力,可以替换视频中的单个元素,功能更加全面,适用场景也更广。
Q2:Gemini Omni生成的视频内容怎么判断真假?
A:谷歌为Omni内置了SynthID水印机制,所有由Omni生成或编辑过的视频内容都会自动添加该水印,用户可以通过水印识别内容是否经过AI处理,这也是谷歌应对深度伪造等滥用风险的核心防护手段之一。
Q3:普通用户如何使用Gemini Omni?需要付费吗?
A:用户可以通过全新改版的Gemini应用体验Omni功能,部分功能还将在Google Flow和YouTube Shorts上开放给付费订阅用户。开发者和企业客户则可以通过API进行定制集成。目前Flash版本将率先推出,更强大的Pro版本将在未来上线。
好文章,需要你的鼓励
英国政府在AI采纳峰会上宣布设立2亿英镑专项基金,旨在帮助企业提升AI技能并推广AI应用。资金将用于多项举措,包括为中小企业提供AI培训、设立AI采纳成长实验室、扩大Sparck AI奖学金计划等。思科、IBM、BT、劳斯莱斯等30余家企业参与其中。政府还与谷歌、微软、Anthropic及OpenAI签署联合声明,共同推动AI负责任发展,并设立"亲劳工AI采纳奖",表彰在提升生产力和员工技能方面表现突出的企业。
ZipSplat是苏黎世联邦理工学院提出的三维高斯泼溅框架,通过K-means令牌聚类将Gaussian数量减少最高33倍,同时在多个基准上超越现有方法,推理时无需重新训练即可调节质量与效率的平衡。
微软在6月补丁日修复了高危零日漏洞CVE-2026-45586,该漏洞由化名"Nightmare Eclipse"的研究员披露。此前双方因漏洞披露协议破裂而交恶,研究员陆续公开多个未修复漏洞。本次修复的漏洞涉及Windows协作翻译框架,属本地权限提升类型,可被链式利用获取SYSTEM权限。此外,研究员披露的另一漏洞MiniPlasma似乎也已被悄然修复,但微软未提供相关CVE编号。本轮补丁共修复约200个漏洞。
Stability AI提出Stable-Layers框架,无需标注数据,用视觉语言模型打分结合Flow-GRPO强化学习微调图像分层模型,显著提升分层质量。