在最近一期由 LinkedIn 联合创始人 Reid Hoffman 共同主持的 Possible 播客节目中,Google DeepMind 的 CEO Demis Hassabis 表示,Google 计划将其 Gemini AI 模型与 Veo 视频生成模型最终整合在一起,以提升前者对物理世界的理解能力。
Hassabis 说道:"我们从一开始就将 Gemini(我们的基础模型)设计为多模态的。我们这样做是因为我们对通用数字助手有一个愿景,这个助手能够在现实世界中真正帮助到你。"
AI 行业正在逐步向"全能"模型发展——这类模型能够理解和合成多种形式的媒体内容。Google 最新的 Gemini 模型可以生成音频、图像和文本,而 OpenAI 在 ChatGPT 中的默认模型也能原生创建图像——当然也包括吉卜力工作室风格的艺术作品。Amazon 也宣布计划在今年晚些时候推出一个"任意转换"模型。
这些全能模型需要大量的训练数据——包括图像、视频、音频、文本等。Hassabis 暗示 Veo 的视频数据主要来自 Google 旗下的 YouTube 平台。
Hassabis 表示:"基本上,通过观看大量的 YouTube 视频,Veo 2 可以理解世界的物理规律。"
Google 此前向 TechCrunch 表示,其模型"可能"会按照与 YouTube 创作者的协议,使用"部分" YouTube 内容进行训练。据报道,Google 去年部分扩展了其服务条款,以允许公司获取更多数据来训练其 AI 模型。
好文章,需要你的鼓励
法国人工智能公司Mistral AI宣布完成17亿欧元(约20亿美元)C轮融资,由荷兰半导体设备制造商ASML领投。此轮融资使Mistral估值从去年的60亿美元翻倍至137亿美元。英伟达、DST Global等知名投资机构参投。作为欧洲领先的AI开发商,Mistral凭借先进的多语言大模型与OpenAI等美国公司竞争,其聊天机器人Le Chat具备语音模式等功能。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
VAST Data收购了成立仅数月的初创公司Red Stapler,该公司由NetApp资深团队创立。Red Stapler创始人兼CEO Jonsi Stefansson将担任VAST云解决方案总经理,负责超大规模云战略。Red Stapler拥有6名开发人员,开发了跨SaaS交付、API集成、监控等功能的云控制平面和服务交付平台,将加速VAST AI OS在超大规模和多云环境中的部署,深化与全球领先超大规模云服务商的合作关系。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。