Google 正将其 Veo 2 视频生成 AI 模型引入 Gemini Advanced 付费用户,这是该公司推出的高级 AI 服务计划。
此次扩展正值 Google 寻求推出 OpenAI 的 Sora 视频生成平台的对标产品之际,同时这一领域的竞争也日益激烈。两周前,一家颇具实力的合成媒体公司 Runway 发布了其第四代视频生成器,并筹集了超过 3 亿美元的新资金。
从本周二开始,Gemini Advanced 订阅用户可在 Google 的 Gemini 应用中从模型下拉菜单选择 Veo 2。用户可以生成 16:9 画幅、720p 分辨率的 8 秒视频剪辑,并通过 Gemini 的 “share” 按钮将这些剪辑上传至 TikTok、YouTube 等平台。由 Veo 2 生成的视频还可下载为 MP4 文件,并附加有 Google SynthID 技术的水印。
Google 表示,每月用户可生成的视频数量存在限制,而且目前 Google Workspace 商务和教育计划尚不支持该功能。
Google 还将 Veo 2 与 Whisk 集成,Whisk 是 Google Labs 中一项实验性功能,允许用户将图像作为提示,通过 Gemini 创造出新图像。新功能 Whisk Animate 使用户能够将生成的图像转换成 8 秒的 Veo 2 生成视频。(Google Labs 是 Google 为早期 AI 产品提供的平台,该平台通过公司每月 20 美元的 Google One AI Premium 订阅进行授权。)
目前来看,Google 对 Veo 2 的应用显得相对基础。不过,Google DeepMind 首席执行官 Demis Hassabis 最近表示,公司计划最终将 Gemini AI 模型与 Veo 相结合,以提升前者对物理世界的理解能力。
与此同时,许多艺术家和创作者对 Veo 2 这类视频生成器持谨慎态度,因为它可能颠覆整个创意产业。由好莱坞动画师与卡通画家工会 Animation Guild 委托的一项 2024 年研究估计,到 2026 年,基于美国的电影、电视和动画工作岗位中将有超过 10 万个因 AI 的应用而受到冲击。
好文章,需要你的鼓励
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
数据分析平台公司Databricks完成10亿美元K轮融资,公司估值超过1000亿美元,累计融资总额超过200亿美元。公司第二季度收入运营率达到40亿美元,同比增长50%,AI产品收入运营率超过10亿美元。超过650家客户年消费超过100万美元,净收入留存率超过140%。资金将用于扩展Agent Bricks和Lakebase业务及全球扩张。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。