Gemini 和 Veo AI 模型将整合在一起,DeepMind CEO Demis Hassabis 宣布

Google DeepMind CEO Demis Hassabis透露,Google计划将Gemini AI模型与Veo视频生成模型结合,以增强AI对物理世界的理解。这一举措旨在创建多模态的"通用数字助手",能在现实世界中为用户提供帮助。AI行业正逐步发展towards全能模型,能够理解和生成多种媒体形式。

在最近一期由 LinkedIn 联合创始人 Reid Hoffman 共同主持的 Possible 播客节目中,Google DeepMind 的 CEO Demis Hassabis 表示,Google 计划将其 Gemini AI 模型与 Veo 视频生成模型最终整合在一起,以提升前者对物理世界的理解能力。

Hassabis 说道:"我们从一开始就将 Gemini(我们的基础模型)设计为多模态的。我们这样做是因为我们对通用数字助手有一个愿景,这个助手能够在现实世界中真正帮助到你。"

AI 行业正在逐步向"全能"模型发展——这类模型能够理解和合成多种形式的媒体内容。Google 最新的 Gemini 模型可以生成音频、图像和文本,而 OpenAI 在 ChatGPT 中的默认模型也能原生创建图像——当然也包括吉卜力工作室风格的艺术作品。Amazon 也宣布计划在今年晚些时候推出一个"任意转换"模型。

这些全能模型需要大量的训练数据——包括图像、视频、音频、文本等。Hassabis 暗示 Veo 的视频数据主要来自 Google 旗下的 YouTube 平台。

Hassabis 表示:"基本上,通过观看大量的 YouTube 视频,Veo 2 可以理解世界的物理规律。"

Google 此前向 TechCrunch 表示,其模型"可能"会按照与 YouTube 创作者的协议,使用"部分" YouTube 内容进行训练。据报道,Google 去年部分扩展了其服务条款,以允许公司获取更多数据来训练其 AI 模型。

来源:Techcrunch

0赞

好文章,需要你的鼓励

2025

04/11

10:03

分享

点赞

邮件订阅