周二,腾讯发布了HunyuanWorld-Voyager,这是一款新的开放权重AI模型,能够从单张图像生成3D一致性视频序列,允许用户控制摄像机路径来"探索"虚拟场景。该模型同时生成RGB视频和深度信息,无需传统建模技术即可直接进行3D重建。不过,它暂时还无法取代视频游戏。
生成的结果并非真正的3D模型,但能达到类似效果:该AI工具生成的2D视频帧在空间上保持一致性,就像摄像机在真实3D空间中移动一样。每次生成仅产生49帧——大约两秒的视频,但根据腾讯介绍,多个片段可以串联形成持续"数分钟"的序列。当摄像机围绕物体移动时,物体保持相同的相对位置,视角变化也如真实3D环境中预期的那样正确。虽然输出的是带有深度图的视频而非真正的3D模型,但这些信息可以转换为3D点云用于重建目的。
该系统通过接受单张输入图像和用户定义的摄像机轨迹来工作。用户可以通过提供的界面指定摄像机移动,如前进、后退、左右移动或转向动作。系统将图像和深度数据与内存高效的"世界缓存"相结合,生成反映用户定义摄像机移动的视频序列。
基于Transformer架构的所有AI模型都有一个重大限制,即它们本质上是模仿训练数据中发现的模式,这限制了它们"泛化"的能力,也就是将这些模式应用到训练数据中未出现的新情况的能力。为了训练Voyager,研究人员使用了超过10万个视频片段,包括来自虚幻引擎的计算机生成场景——本质上是教模型模仿摄像机如何在3D视频游戏环境中移动。
大多数AI视频生成器,如Sora,创建的帧看起来一个接一个地合理,但不试图跟踪或保持空间一致性。值得注意的是,Voyager已被训练识别和再现空间一致性模式,但增加了几何反馈循环。在生成每一帧时,它将输出转换为3D点,然后将这些点投影回2D供未来帧参考。
这种技术迫使模型将其学习到的模式与自己先前输出的几何一致投影进行匹配。虽然这比标准视频生成器创造了更好的空间一致性,但它仍然本质上是由几何约束引导的模式匹配,而非真正的3D"理解"。这解释了为什么模型可以保持数分钟的一致性,但在完整360度旋转时会遇到困难——模式匹配中的小错误在许多帧中累积,直到几何约束无法再保持连贯性。
根据腾讯的技术报告,该系统利用两个主要部分协同工作。首先,它同时生成彩色视频和深度信息,确保它们完美匹配——当视频显示一棵树时,深度数据准确知道那棵树的距离。其次,它使用腾讯所称的"世界缓存"——从先前生成的帧创建的3D点的不断增长的集合。在生成新帧时,这个点云从新的摄像机角度投影回2D,创建显示基于先前帧应该可见内容的部分图像。模型然后使用这些投影作为一致性检查,确保新帧与已生成的内容对齐。
该发布增加了来自各家公司日益增长的世界生成模型集合。谷歌的Genie 3于2025年8月宣布,以720p分辨率和每秒24帧从文本提示生成交互式世界,允许数分钟的实时导航。Dynamics Lab的Mirage 2提供基于浏览器的世界生成,允许用户上传图像并将其转换为具有实时文本提示的可玩环境。虽然Genie 3专注于训练AI智能体且不公开可用,Mirage 2强调游戏用户生成内容,但Voyager针对视频制作和3D重建工作流程,具有RGB-深度输出能力。
Voyager建立在腾讯7月发布的早期HunyuanWorld 1.0基础上。Voyager也是腾讯更广泛"混元"生态系统的一部分,该生态系统包括用于文本到3D生成的Hunyuan3D-2模型和之前介绍过的用于视频合成的HunyuanVideo。
为了训练Voyager,研究人员开发了自动分析现有视频以处理摄像机移动并计算每帧深度的软件——消除了人类手动标记数千小时素材的需要。该系统处理了超过10万个视频片段,来自真实世界录制和上述虚幻引擎渲染。
该模型需要强大的计算能力才能运行,540p分辨率至少需要60GB GPU内存,尽管腾讯建议80GB以获得更好的结果。腾讯在Hugging Face上发布了模型权重,并包含了适用于单GPU和多GPU设置的代码。
该模型有显著的许可限制。与腾讯的其他混元模型一样,许可证禁止在欧盟、英国和韩国使用。此外,服务超过1亿月活跃用户的商业部署需要腾讯的单独许可。
在斯坦福大学研究人员开发的WorldScore基准测试中,据报告Voyager获得了77.62的最高总分,相比之下WonderWorld为72.69,CogVideoX-I2V为62.15。据报告该模型在物体控制(66.92)、风格一致性(84.89)和主观质量(71.09)方面表现出色,尽管在摄像机控制(85.95)方面排名第二,落后于WonderWorld的92.98。WorldScore跨多个标准评估世界生成方法,包括3D一致性和内容对齐。
虽然这些自报告的基准测试结果看起来很有希望,但由于涉及的计算需求,更广泛的部署仍面临挑战。对于需要更快处理的开发者,系统支持使用xDiT框架在多个GPU上进行并行推理。在八个GPU上运行的处理速度比单GPU设置快6.69倍。
考虑到所需的处理能力和生成长时间连贯"世界"的限制,我们可能还需要一段时间才能看到使用类似技术的实时交互体验。但正如我们在谷歌Genie等实验中所看到的,我们可能正在见证一种新的交互式生成艺术形式的早期步骤。
Q&A
Q1:HunyuanWorld-Voyager是什么?能做什么?
A:HunyuanWorld-Voyager是腾讯发布的开放权重AI模型,能够从单张图像生成3D一致性视频序列,允许用户控制摄像机路径来"探索"虚拟场景。它同时生成RGB视频和深度信息,无需传统建模技术即可直接进行3D重建。
Q2:Voyager生成的是真正的3D模型吗?
A:不是真正的3D模型,但能达到类似效果。它生成的2D视频帧在空间上保持一致性,就像摄像机在真实3D空间中移动一样。虽然输出的是带有深度图的视频,但这些信息可以转换为3D点云用于重建目的。
Q3:使用Voyager需要什么硬件配置?
A:该模型需要强大的计算能力,540p分辨率至少需要60GB GPU内存,腾讯建议80GB以获得更好的结果。对于需要更快处理的用户,系统支持多GPU并行推理,八个GPU的处理速度比单GPU快6.69倍。
好文章,需要你的鼓励
亚马逊发布Lens Live AI功能,用户可通过手机摄像头扫描任何物品进行实时购物。该技术利用人工智能识别用户拍摄的物品,并在亚马逊平台上匹配相关商品,提供即时购买选项。这一创新功能将大幅简化购物流程,用户只需"看到即可购买",为在线购物体验带来革命性改变。
巴黎理工学院研究团队发现了比传统深度伪造更隐蔽的"局部伪造"技术威胁。这种只修改视频局部区域的新型AI造假技术让人类检测准确率下降30%以上,AI检测系统性能下降高达43%。研究团队构建了包含25000个样本的全球首个局部伪造检测数据库FakePartsBench,揭示了现有防御体系面对精细化伪造攻击的脆弱性,为未来开发更强大的检测技术奠定重要基础。
谷歌AI研究助手NotebookLM宣布推出三种全新音频摘要格式:简要、评论和辩论模式。这一更新将为用户提供更多选择,让已经备受欢迎的音频概览功能更加丰富多样。简要模式提供1-2分钟的精简概述,评论模式对材料进行建设性反馈,辩论模式则让两个AI主持人就内容展开深入讨论。这些新格式有助于用户从不同角度理解学习材料,使NotebookLM成为更加细致入微的学习工具。
Meta等机构研究发现,让大语言模型学会使用外部工具比死记硬背所有知识更高效。研究通过数学证明和实验验证,传统的参数记忆存在严格容量限制,而工具学习能实现无限扩展且不损害原有能力。这为AI发展提供了新思路:从堆叠参数转向构建智能工具协作系统。