谷歌在周二举行的I/O开发者大会上正式发布了最新AI产品——Gemini Omni。与现有的文本转视频产品(如Veo)不同,Omni几乎可以接受任何形式的输入,并生成逼真的高质量视频。
Gemini Omni基于Gemini模型架构构建,是一个真正意义上的多模态输入输出系统,支持用户通过文本、图片以及已有视频来生成新的视频内容。在正式上线时,用户即可使用上述输入方式进行视频创作,而图像与文本的生成功能则将在后续版本中陆续推出。
以Gemini为核心,Omni能够处理和理解多种类型的输入,从而生成连贯、精良的最终作品。它在谷歌现有产品体系的基础上,深度融合了Gemini智能能力,进一步拓展了视频创作的边界。
AI生成视频的兴起,正处于一个充满矛盾的时代——谷歌等公司在技术层面取得了令人瞩目的突破,而与此同时,社交媒体上充斥着大量粗制滥造的AI内容。谷歌将Omni定位为迈向"能够建模和模拟真实世界的AI"的"下一个重大步骤"。Omni是一个具备高级推理能力的世界模型,能够生成与现实世界高度一致的视频内容,并展现出强大的物理规律模拟能力,使输出的视频更具真实感。以下是谷歌I/O大会上Gemini Omni的功能亮点。
强大(且令人警觉)的编辑能力
Omni不仅具备出色的视频生成能力,还拥有高度先进的视频编辑功能。用户在使用Omni生成视频后,可以将其重新导入工具中,仅凭一条文字提示即可完成精细修改,或加入额外的媒体素材。用户甚至可以上传自己拍摄的视频,对其中的单独元素进行更改或替换——这种视频编辑方式此前几乎闻所未闻。
然而,这种能够对视频内容进行深度替换的能力,也可能带来不容忽视的风险,使Omni的强大编辑功能在令人印象深刻的同时,也引发了一定的安全担忧。对此,谷歌内置了相应的防护机制:Omni生成的所有内容将自动附带谷歌的SynthID水印,帮助用户识别内容是否经过AI处理或篡改。这一举措意义重大,因为Omni本质上已具备改变人们对现实认知的能力。
多样化的访问入口
用户将能够通过多种方式体验Gemini Omni。它是全新改版的Gemini应用中的一项核心功能,用户只需点击一下,即可将内置模板添加到相册中。此外,用户还可以创建与自己外貌和声音相似的自定义数字形象,并将其添加到视频中。
从周二起,部分付费订阅用户可在Google Flow和YouTube Shorts上体验Omni功能。未来几周内,Omni还将通过API向开发者和企业客户开放,支持定制化集成应用。
Omni Flash与Omni Pro
与大多数Gemini模型一样,Omni将分为Flash和Pro两个版本,其中Flash版本将率先上线。谷歌目前正在研发性能更为强大的Omni Pro版本,预计将在未来推出。
Q&A
Q1:Gemini Omni和谷歌之前的Veo有什么区别?
A:Veo主要是文本转视频的产品,而Gemini Omni是一个真正的多模态系统,支持文本、图片和现有视频等多种形式的输入来生成视频。Omni还具备强大的视频编辑能力,可以替换视频中的单个元素,功能更加全面,适用场景也更广。
Q2:Gemini Omni生成的视频内容怎么判断真假?
A:谷歌为Omni内置了SynthID水印机制,所有由Omni生成或编辑过的视频内容都会自动添加该水印,用户可以通过水印识别内容是否经过AI处理,这也是谷歌应对深度伪造等滥用风险的核心防护手段之一。
Q3:普通用户如何使用Gemini Omni?需要付费吗?
A:用户可以通过全新改版的Gemini应用体验Omni功能,部分功能还将在Google Flow和YouTube Shorts上开放给付费订阅用户。开发者和企业客户则可以通过API进行定制集成。目前Flash版本将率先推出,更强大的Pro版本将在未来上线。
好文章,需要你的鼓励
美国连锁超市巨头Albertsons正在基于Databricks构建商品智能平台,整合产品、定价、促销与陈列等决策功能,目标是在2026年底前全面向门店运营商落地。该平台以Databricks Lakehouse存储零售数据,通过Unity Catalog与AI Gateway实现数据治理,并借助AI智能体Genie支持自然语言查询,帮助商家洞察销售趋势,提升决策效率。此举是Albertsons今年四项AI核心战略投资之一。
阿里Qwen团队通过引入强化学习和在线策略蒸馏,将Qwen-Image-2.0升级为Qwen-Image-2.0-RL,让图像生成模型真正学会人类审美,文生图Elo评分提升78分,图像编辑提升93分。
微软正将Windows 11打造成真正的AI操作系统。在Build大会上,微软展示了AI模型与智能代理如何深度融合进Windows 11,让用户通过自然语言完成系统操作。借助Windows ML框架,超过5亿台PC已可在本地离线运行AI任务,无需联网、无token费用、数据不离设备。Office、Photos、Teams等应用已支持本地AI能力,Adobe、WhatsApp、Canva等第三方也在积极跟进,企业级AI PC采购需求有望加速。
港科大与快手联合提出NormGuard,针对流匹配模型强化学习训练中速度范数膨胀问题,通过训练时单向惩罚约束,在保留奖励的同时改善图像真实感。