YouTube 刚刚为创作者推出了一系列基于生成式 AI 的新视频制作功能。该平台宣布,Google 的 Veo 2 视频模型将被整合到 YouTube 的实验性功能 Dream Screen 中,同时允许用户生成独立的视频片段,并将其添加到 Shorts 中。
Dream Screen 于 2023 年 9 月首次亮相,当时就已经能够根据文字描述为 Shorts 内容生成图像和视频。不过在此之前,这些生成内容只能作为虚拟绿幕背景使用。
要使用视频片段生成功能,Dream Screen 用户需要打开 Shorts 相机,进入媒体选择器,然后点击顶部的"创建"选项。随后,用户可以输入描述所需内容的文字提示,并选择期望的风格、镜头、电影效果和视频长度。
以下是展示如何使用新的视频片段生成功能的快速演示。
GIF: YouTube
根据 YouTube 的说法,该功能从今天开始在美国、加拿大、澳大利亚和新西兰全面推出,并"计划在未来向更多用户开放"。
考虑到 Google 最新的 Veo 模型仍处于早期访问阶段,且公众只能通过等候名单使用,这次更新显得格外有趣。YouTube 表示,通过整合 Veo 2,Dream Screen 能够更快地生成视频,并在真实世界物理效果和人物动作方面呈现出更加"细致和真实"的效果。生成的视频片段将同时带有视觉标签和 Google 的不可见 SynthID 水印,以标识其是由 AI 创建或修改的内容。
好文章,需要你的鼓励
英特尔携手戴尔以及零克云,通过打造“工作站-AI PC-云端”的协同生态,大幅缩短AI部署流程,助力企业快速实现从想法验证到规模化落地。
意大利ISTI研究院推出Patch-ioner零样本图像描述框架,突破传统局限实现任意区域精确描述。系统将图像拆分为小块,通过智能组合生成从单块到整图的统一描述,无需区域标注数据。创新引入轨迹描述任务,用户可用鼠标画线获得对应区域描述。在四大评测任务中全面超越现有方法,为人机交互开辟新模式。
阿联酋阿布扎比人工智能大学发布全新PAN世界模型,超越传统大语言模型局限。该模型具备通用性、交互性和长期一致性,能深度理解几何和物理规律,通过"物理推理"学习真实世界材料行为。PAN采用生成潜在预测架构,可模拟数千个因果一致步骤,支持分支操作模拟多种可能未来。预计12月初公开发布,有望为机器人、自动驾驶等领域提供低成本合成数据生成。
MIT研究团队发现,AI系统无需严格配对的多模态数据也能显著提升性能。他们开发的UML框架通过参数共享让AI从图像、文本、音频等不同类型数据中学习,即使这些数据间没有直接对应关系。实验显示这种方法在图像分类、音频识别等任务上都超越了单模态系统,并能自发发展出跨模态理解能力,为未来AI应用开辟了新路径。