Google 宣布又一款 AI 模型将加入 Gemini,但这次不只是一个聊天机器人。公司的 Veo 2 视频生成器现已向 Gemini 应用和网站推广,为付费用户提供使用谷歌号称最先进的视频模型创建短视频剪辑的机会。
Veo 2 的工作方式与其他视频生成器类似,包括 OpenAI 的 Sora——你只需输入描述视频内容的文本,谷歌数据中心便会通过处理 Token 生成动画。谷歌声称,Veo 2 的设计兼顾了对真实世界物理规律的充分理解,尤其是对人类运动方式的把握。谷歌提供的示例效果看起来不错,或许这正是其被选用的原因。
Prompt: Aerial shot of a grassy cliff onto a sandy beach where waves crash against the shore, a prominent sea stack rises from the ocean near the beach, bathed in the warm, golden light of either sunrise or sunset, capturing the serene beauty of the Pacific coastline.
Veo 2 将出现在模型下拉菜单中,但谷歌也指出,它仍在考虑如何整合此功能,因此其所在位置可能会改变。不过,目前这一功能可能还根本未上线。谷歌今天开始推出该功能,但所有 Gemini Advanced 订阅用户全面获得 Veo 2 的使用权可能需要几周时间。Gemini 的功能通常向广大用户推广时需要相当长的时间——例如,在宣布 Gemini Live 视频上线后,谷歌大约用了一个月时间才让所有用户都能使用。
当 Veo 2 在你的 Gemini 应用中出现时,你可以提供尽可能多的细节,谷歌称这将确保你对最终视频拥有精细的控制。目前,Veo 2 限制为 8 秒的 720p 视频,你可以将其下载为标准 MP4 文件。由于视频生成所需的处理量比一般的生成式 AI 功能更大,谷歌因此设置了每月限额。不过,目前尚未确认具体限额,只说明当用户接近限额时会收到通知。
Prompt: An animated shot of a tiny mouse with oversized glasses, reading a book by the light of a glowing mushroom in a cozy forest den.
如果你不想等待 Gemini 应用中的 Veo 2,也可以提前体验。谷歌的新视频生成器也已加入 Whisk,这是谷歌实验室去年底公布的一项实验项目。Whisk 允许你使用文本提示和示例图片生成图像。
从今天开始,Whisk 具有“animate”选项,利用 Veo 2 将你的静态创作转换为 8 秒的视频剪辑。有趣的是,谷歌为 Whisk 设定了每月 100 个视频的使用上限,这可能意味着在 Gemini 中 Veo 2 的使用限额也相同。即便拥有调整初始图像和风格的能力,我们对 Veo 2 的表现并没有特别惊喜。所以你可能会在不断试用中用尽这一配额,以期找到理想效果。
上面的视频原本应该展示火星上的一块神秘石碑,其渲染效果看起来还不错。但我们实际上要求观看火星卫星 Phobos 撞击石碑并将其粉碎成尘。结果,“卫星”只是从旁边跳过,并随即消失,只留下同一块石碑。至少从天体物理的角度来看,Veo 2 对物理规律的理解还需要改进。
谷歌表示,已付出巨大努力以确保 Veo 2 安全,不会生成任何非法或煽动性内容。生成的视频还会标有 SynthID 数字水印,以标明其为 AI 生成。尽管如此,目前 Veo 2 的输出还不足以被误认为真实场景。
好文章,需要你的鼓励
本文探讨了一种防范通用人工智能(AGI)和人工超级智能(ASI)存在性风险的方法:将它们置于计算机仿真世界中进行测试。虽然这种方法看似合理,但存在诸多挑战。AGI可能会隐藏恶意行为,或因被欺骗而转向恶意。此外,仿真环境可能无法完全模拟真实世界,导致测试结果不准确。构建高质量仿真系统的成本和技术难度也不容忽视。文章认为,仿真测试虽有价值,但并非万能解决方案。
这项研究关注语音中的句子强调(即说话时对特定词的重音),它能传达说话者的潜在意图。耶路撒冷希伯来大学的研究团队发现,尽管现代语音语言模型进步显著,它们在理解句子强调方面表现不佳。团队创建了StressTest基准测试和Stress-17k合成数据集,并开发了StresSLM模型,使强调理解能力大幅提升。研究表明,通过特定训练策略,可以让AI不仅理解"说了什么",还能理解"怎么说的",从而捕捉人类交流中的微妙含义。
尽管AI在围棋等复杂游戏中表现出色,但在简单的井字棋游戏中却屡屡失败。研究显示,AI代理在模拟商业环境中的表现同样令人失望,经常出现幻觉、欺骗和任务未完成等问题。游戏测试为评估AI能力提供了直观方式,帮助普通用户理解AI的真实水平。面对当前AI行业的过度宣传,通过游戏化测试揭示AI的实际局限性,对于防范AI泡沫具有重要意义。
ViStoryBench是一个全面的故事可视化评估基准,由StepFun团队打造,用于测试AI将文字故事转化为连贯图像序列的能力。它包含80个多样化故事和344个角色参考,评估包括角色一致性、提示遵循度等多个维度。研究测试了20多种方法,发现UNO在开源方法中表现最佳,而商业软件如豆包和GPT-4o在提示一致性方面表现突出。该基准为故事可视化研究提供了统一标准,推动这一领域的创新发展。