在经过为期四个月的有限预览后,Google 现已向更多用户开放其 Veo 2 视频生成模型。该公司已开始向 Gemini Advanced 用户推送这一工具,用户可以利用它生成最多八秒、分辨率为 720p 的视频片段。Google 对该模型解释道:“描述越详细,对最终视频的掌控越强。”
目前,Gemini 仅支持生成 16:9 横屏格式的视频,这意味着它不太适合制作社交媒体视频。话虽如此,Google 提到,通过 Gemini 的分享功能,你可以直接将视频上传至 TikTok 或 YouTube,而通过聊天机器人生成的所有视频都会自动以 MP4 格式保存。相较于之前的版本,Google 表示 Veo 2 对现实物理现象和人体运动的理解更为出色。
如果你想开始使用 Gemini 生成视频片段,则需要订阅 Google 每月 20 美元的 One AI Premium Plan。一旦公司完成 Veo 2 的全面推广,你将可以在网页版和移动端的 Gemini 上使用任何语言生成视频。
另外,Google 正在将 Veo 2 的生成功能引入 Whisk。对于不太了解该应用的用户,Whisk 是 Google Labs 测试平台上提供的一款实验性生成式 AI 应用。它不仅可以通过文本和图像提示生成图片,现在借助于整合了 Veo 2,你还能利用 Whisk 将应用中生成的内容进行动画化处理。
好文章,需要你的鼓励
南洋理工大学研究团队开发了WorldMem框架,首次让AI拥有真正的长期记忆能力,解决了虚拟世界模拟中的一致性问题。该系统通过记忆银行存储历史场景,并使用智能检索机制,让AI能准确重现之前的场景和事件,即使间隔很长时间。实验显示在Minecraft和真实场景中都表现出色,为游戏、自动驾驶、机器人等领域带来广阔应用前景。
AWS通过升级SageMaker机器学习平台来扩展市场地位,新增观测能力、连接式编码环境和GPU集群性能管理功能。面对谷歌和微软的激烈竞争,AWS专注于为企业提供AI基础设施支撑。SageMaker新功能包括深入洞察模型性能下降原因、为开发者提供更多计算资源控制权,以及支持本地IDE连接部署。这些更新主要源于客户需求,旨在解决AI模型开发中的实际问题。
MTS AI研究团队提出RewardRanker系统,通过重排序模型和迭代自训练显著提升AI代码生成质量。该方法让13.4B参数模型超越33B大模型,在多种编程语言上表现优异,甚至在C++上超越GPT-4。通过引入困难负样本和PPO优化,系统能从多个代码候选中选出最优方案,为AI编程助手的实用化奠定基础。