在周二举行的Made on YouTube直播活动中,YouTube公司发布了专为Shorts创作者设计的多项生成式AI工具。这些工具包括谷歌文本转视频生成式AI模型Veo 3的定制版本、全新的混音工具、"AI编辑"功能等创新功能。
YouTube引入的Veo 3定制版本名为Veo 3 Fast,能够以更低延迟生成480p视频输出,让创作者轻松制作视频片段。值得注意的是,用户现在首次可以创建带有声音的视频内容。
该更新目前已在美国、英国、加拿大、澳大利亚和新西兰推出,YouTube计划未来将功能扩展到更多地区。
YouTube还为Shorts带来了新的Veo功能,包括将视频中的动作应用到静态图像的能力。例如,创作者可以通过让静态图像中的人物执行视频中的舞蹈动作来实现动画效果。该公司表示,这项技术能够捕捉并传输一个主体的动作到另一个主体上。
创作者现在还可以使用Veo为视频应用不同风格,如波普艺术或折纸风格。此外,创作者现在能够通过文本描述添加角色或道具等对象。这些新功能将在未来几个月内推出。
关于新的混音工具,创作者可以将符合条件的视频中的对话转换为其他Shorts的动听配乐。
YouTube Shorts和生成式AI创作产品总监Dina Berrada在博客文章中写道:"作为世界上最大的创意平台,YouTube是趋势诞生的地方,也是你汲取灵感的地方。想象一下,当你听到一句激发灵感的对话——一个有趣的短语、一句难忘的名言或独特的声音——你想要将其混音成新的声音。通过我们新的语音转歌曲混音工具,你就能做到这一点。"
YouTube指出,该功能使用谷歌的AI音乐模型Lyria 2来创建配乐。创作者可以为歌曲添加自己的风格,如"舒缓"、"适合跳舞"或"有趣"等。
该公司表示计划很快测试这项功能,并将在未来几周内向更多美国创作者推出。
通过新的AI编辑功能,创作者可以将原始素材转换为初稿。该功能通过寻找和整理最佳时刻、添加音乐和转场效果,将原始相机胶卷素材转换为初稿。它甚至可以添加能够对视频中发生的事情做出反应的英语或印地语配音。YouTube表示,该功能的理念是为创作者的Shorts提供起点。
YouTube正在Shorts和YouTube Create应用中实验AI编辑功能,并将在未来几周内在特定市场扩展该功能。
Q&A
Q1:Veo 3 Fast是什么?有什么特别之处?
A:Veo 3 Fast是YouTube引入的谷歌Veo 3文本转视频生成式AI模型的定制版本。它能够以更低延迟生成480p视频输出,让创作者轻松制作视频片段,最重要的是用户现在首次可以创建带有声音的视频内容。
Q2:语音转歌曲混音工具如何工作?
A:这项工具允许创作者将符合条件的视频中的对话转换为其他Shorts的动听配乐。该功能使用谷歌的AI音乐模型Lyria 2来创建配乐,创作者可以为歌曲添加自己的风格,如"舒缓"、"适合跳舞"或"有趣"等。
Q3:AI编辑功能能帮创作者做什么?
A:AI编辑功能可以将创作者的原始素材转换为初稿。它通过寻找和整理最佳时刻、添加音乐和转场效果来处理原始相机胶卷素材,甚至可以添加能够对视频中发生的事情做出反应的英语或印地语配音,为创作者的Shorts提供制作起点。
好文章,需要你的鼓励
2025年,企业技术高管面临巨大压力,需要帮助企业从持续的AI投入中获得回报。大多数高管取得了进展,完善了项目优先级排序方法。然而,CIO仍面临AI相关问题。支离破裂的AI监管环境和宏观经济阻力将继续推动技术高管保持谨慎态度。随着AI采用增长的影响不断显现,一些CIO预期明年将带来劳动力策略变化。
这篇论文提出了CJE(因果法官评估)框架,解决了当前LLM评估中的三大致命问题:AI法官偏好倒置、置信区间失效和离线策略评估失败。通过AutoCal-R校准、SIMCal-W权重稳定和OUA不确定性推理,CJE仅用5%的专家标签就达到了99%的排名准确率,成本降低14倍,为AI评估提供了科学可靠的解决方案。
FinOps基金会周四更新了其FinOps开放成本和使用规范云成本管理工具,新版本1.3更好地支持多供应商工作流。该版本新增了合同承诺和协商协议数据集,增加了跨工作负载成本分摊跟踪列,以及云支出和使用报告时效性和完整性的元数据可见性。随着云和AI采用推动企业IT预算增长,技术供应商正在关注将成本与价值联系起来的努力。大型企业通常使用三到四家云供应商,小企业可能使用两家,同时还有数据中心、SaaS和许可等服务。
NVIDIA团队开发出Fast-FoundationStereo系统,成功解决了立体视觉AI在速度与精度之间的两难选择。通过分而治之的策略,该系统实现了超过10倍的速度提升同时保持高精度,包括知识蒸馏压缩特征提取、神经架构搜索优化成本过滤,以及结构化剪枝精简视差细化。此外,研究团队还构建了包含140万对真实图像的自动伪标注数据集,为立体视觉的实时应用开辟了新道路。