谷歌在周二举行的I/O开发者大会上正式发布了最新AI产品——Gemini Omni。与现有的文本转视频产品(如Veo)不同,Omni几乎可以接受任何形式的输入,并生成逼真的高质量视频。
Gemini Omni基于Gemini模型架构构建,是一个真正意义上的多模态输入输出系统,支持用户通过文本、图片以及已有视频来生成新的视频内容。在正式上线时,用户即可使用上述输入方式进行视频创作,而图像与文本的生成功能则将在后续版本中陆续推出。
以Gemini为核心,Omni能够处理和理解多种类型的输入,从而生成连贯、精良的最终作品。它在谷歌现有产品体系的基础上,深度融合了Gemini智能能力,进一步拓展了视频创作的边界。
AI生成视频的兴起,正处于一个充满矛盾的时代——谷歌等公司在技术层面取得了令人瞩目的突破,而与此同时,社交媒体上充斥着大量粗制滥造的AI内容。谷歌将Omni定位为迈向"能够建模和模拟真实世界的AI"的"下一个重大步骤"。Omni是一个具备高级推理能力的世界模型,能够生成与现实世界高度一致的视频内容,并展现出强大的物理规律模拟能力,使输出的视频更具真实感。以下是谷歌I/O大会上Gemini Omni的功能亮点。
强大(且令人警觉)的编辑能力
Omni不仅具备出色的视频生成能力,还拥有高度先进的视频编辑功能。用户在使用Omni生成视频后,可以将其重新导入工具中,仅凭一条文字提示即可完成精细修改,或加入额外的媒体素材。用户甚至可以上传自己拍摄的视频,对其中的单独元素进行更改或替换——这种视频编辑方式此前几乎闻所未闻。
然而,这种能够对视频内容进行深度替换的能力,也可能带来不容忽视的风险,使Omni的强大编辑功能在令人印象深刻的同时,也引发了一定的安全担忧。对此,谷歌内置了相应的防护机制:Omni生成的所有内容将自动附带谷歌的SynthID水印,帮助用户识别内容是否经过AI处理或篡改。这一举措意义重大,因为Omni本质上已具备改变人们对现实认知的能力。
多样化的访问入口
用户将能够通过多种方式体验Gemini Omni。它是全新改版的Gemini应用中的一项核心功能,用户只需点击一下,即可将内置模板添加到相册中。此外,用户还可以创建与自己外貌和声音相似的自定义数字形象,并将其添加到视频中。
从周二起,部分付费订阅用户可在Google Flow和YouTube Shorts上体验Omni功能。未来几周内,Omni还将通过API向开发者和企业客户开放,支持定制化集成应用。
Omni Flash与Omni Pro
与大多数Gemini模型一样,Omni将分为Flash和Pro两个版本,其中Flash版本将率先上线。谷歌目前正在研发性能更为强大的Omni Pro版本,预计将在未来推出。
Q&A
Q1:Gemini Omni和谷歌之前的Veo有什么区别?
A:Veo主要是文本转视频的产品,而Gemini Omni是一个真正的多模态系统,支持文本、图片和现有视频等多种形式的输入来生成视频。Omni还具备强大的视频编辑能力,可以替换视频中的单个元素,功能更加全面,适用场景也更广。
Q2:Gemini Omni生成的视频内容怎么判断真假?
A:谷歌为Omni内置了SynthID水印机制,所有由Omni生成或编辑过的视频内容都会自动添加该水印,用户可以通过水印识别内容是否经过AI处理,这也是谷歌应对深度伪造等滥用风险的核心防护手段之一。
Q3:普通用户如何使用Gemini Omni?需要付费吗?
A:用户可以通过全新改版的Gemini应用体验Omni功能,部分功能还将在Google Flow和YouTube Shorts上开放给付费订阅用户。开发者和企业客户则可以通过API进行定制集成。目前Flash版本将率先推出,更强大的Pro版本将在未来上线。
好文章,需要你的鼓励
Locus Robotics宣布收购加拿大温哥华机器人公司Nexera Robotics,将其专有的NeuraGrasp末端执行器技术整合至Locus Array平台。NeuraGrasp融合AI抓取智能、计算机视觉及专利软膜结构,可动态适应不同形状、材质、重量的商品,显著扩大了可自主拣选的SKU类型范围。此次收购将加速Locus Robotics在移动操控领域的技术路线图,推动仓储全流程自动化履约能力迈上新台阶。
ServiceNow研究团队构建的EVA-Bench框架,通过AI对AI的音频通话测试,量化评估语音客服系统在准确性和对话体验两个维度的真实表现,揭示现有系统普遍存在的可靠性缺口。
人形机器人正从原型验证迈向早期商业部署,汽车制造与物流领域预计成为未来十年核心需求市场。IDTechEx预测,相关市场规模将于2030年代初达到约250亿美元,2036年年出货量接近180万台。硬件成本持续下降,均价有望从2024年的约11.47万美元降至2030年的约3.7万美元。高利用率场景下运营成本有望低于5美元/小时,投资回收期可缩短至约6个月。但大规模商业化的关键,仍在于软件能力、任务泛化与系统集成的持续突破。
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。