OpenAI可能正在收缩视频生成业务,但Google却在大力推进其Vids编辑产品的重大AI升级。该公司最新的视频和音频模型现已集成到该工具中,用户可以选择各种可控的智能体出现在生成的视频中。您的作品现在也更容易在YouTube上分享。
Veo 3.1视频生成模型的重大升级
Veo 3.1是Vids升级的最大亮点。Google去年底首先在Gemini中部署了这一更新模型,承诺在真实性和一致性方面有显著改进。虽然Google将Veo定位为电影制作者的工具,但Vids的定位有所不同。Google建议使用Vids中的AI工具来创建动画聚会传单、商业宣传片或视频贺卡。
用户可以免费使用Vids,但如果没有AI订阅,生成的视频数量会受到限制。如果您的账户没有付费AI访问权限,每月只能生成10个视频。AI Pro订阅用户可以获得50个视频,而购买Google昂贵的AI Ultra计划(个人版或企业版)的用户每月可获得1000个视频。与大多数其他Veo实现方式一样,视频长度为8秒,分辨率为720p。
Lyria音乐生成模型增强音频体验
Google最近推出的Lyria音乐创作模型现在也是Vids的一部分。这个AI音乐制作工具的最新版本甚至不需要您输入歌词。您只需告诉机器人您想要什么氛围,它就会创建一个30秒或3分钟的音轨。虽然这不算高艺术,但如果您只是制作动画生日卡片,这可能就足够了。与视频一样,AI订阅用户在AI音乐方面也有更高的限制。
可定制智能体解决一致性问题
一致性始终是生成式系统的一个问题,但Google在Vids中为此提供了解决方案。该工具现在有各种预设的AI智能体,包括写实和卡通风格,您可以将它们添加到视频中。这些角色从一个场景到下一个场景的声音和外观都会保持一致(可选的外观定制),您可以提示智能体说出和做您想要的事情。它们甚至可以与生成视频中的物体进行交互。
便捷的录制和分享功能
Google希望减少摩擦,帮助人们使用Vids,即使他们不使用AI功能。新的Chrome扩展程序让您可以立即录制屏幕或摄像头内容,而无需打开Vids。它具有所有录制工具,可以将您的视频发送到完整的Vids网站进行进一步编辑。
您在Vids中创建的视频,无论是否由AI生成,现在也更容易分享。Vids可以直接在Google的流媒体网站上发布视频,而不是下载后再上传到YouTube。导出的视频默认为私有,允许您根据需要更改分享设置。
所有新功能现在都已在Vids中上线。
Q&A
Q1:Veo 3.1模型有什么特殊功能?
A:Veo 3.1是Google最新的视频生成模型,集成在Vids编辑产品中。它在真实性和一致性方面有显著改进,可以生成8秒长、720p分辨率的视频,适合制作动画聚会传单、商业宣传片或视频贺卡等内容。
Q2:Google Vids的AI智能体有什么作用?
A:Google Vids提供各种预设的AI智能体,包括写实和卡通风格。这些智能体可以解决生成式系统的一致性问题,从一个场景到下一个场景保持相同的声音和外观,用户可以提示它们说话和行动,甚至与视频中的物体互动。
Q3:使用Google Vids需要付费吗?生成限制是什么?
A:Google Vids可以免费使用,但有生成限制。免费用户每月只能生成10个视频,AI Pro订阅用户可获得50个视频,AI Ultra计划用户每月可获得1000个视频。同样的限制规则也适用于Lyria AI音乐生成功能。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。