周二,腾讯发布了HunyuanWorld-Voyager,这是一款新的开放权重AI模型,能够从单张图像生成3D一致性视频序列,允许用户控制摄像机路径来"探索"虚拟场景。该模型同时生成RGB视频和深度信息,无需传统建模技术即可直接进行3D重建。不过,它暂时还无法取代视频游戏。
生成的结果并非真正的3D模型,但能达到类似效果:该AI工具生成的2D视频帧在空间上保持一致性,就像摄像机在真实3D空间中移动一样。每次生成仅产生49帧——大约两秒的视频,但根据腾讯介绍,多个片段可以串联形成持续"数分钟"的序列。当摄像机围绕物体移动时,物体保持相同的相对位置,视角变化也如真实3D环境中预期的那样正确。虽然输出的是带有深度图的视频而非真正的3D模型,但这些信息可以转换为3D点云用于重建目的。
该系统通过接受单张输入图像和用户定义的摄像机轨迹来工作。用户可以通过提供的界面指定摄像机移动,如前进、后退、左右移动或转向动作。系统将图像和深度数据与内存高效的"世界缓存"相结合,生成反映用户定义摄像机移动的视频序列。
基于Transformer架构的所有AI模型都有一个重大限制,即它们本质上是模仿训练数据中发现的模式,这限制了它们"泛化"的能力,也就是将这些模式应用到训练数据中未出现的新情况的能力。为了训练Voyager,研究人员使用了超过10万个视频片段,包括来自虚幻引擎的计算机生成场景——本质上是教模型模仿摄像机如何在3D视频游戏环境中移动。
大多数AI视频生成器,如Sora,创建的帧看起来一个接一个地合理,但不试图跟踪或保持空间一致性。值得注意的是,Voyager已被训练识别和再现空间一致性模式,但增加了几何反馈循环。在生成每一帧时,它将输出转换为3D点,然后将这些点投影回2D供未来帧参考。
这种技术迫使模型将其学习到的模式与自己先前输出的几何一致投影进行匹配。虽然这比标准视频生成器创造了更好的空间一致性,但它仍然本质上是由几何约束引导的模式匹配,而非真正的3D"理解"。这解释了为什么模型可以保持数分钟的一致性,但在完整360度旋转时会遇到困难——模式匹配中的小错误在许多帧中累积,直到几何约束无法再保持连贯性。
根据腾讯的技术报告,该系统利用两个主要部分协同工作。首先,它同时生成彩色视频和深度信息,确保它们完美匹配——当视频显示一棵树时,深度数据准确知道那棵树的距离。其次,它使用腾讯所称的"世界缓存"——从先前生成的帧创建的3D点的不断增长的集合。在生成新帧时,这个点云从新的摄像机角度投影回2D,创建显示基于先前帧应该可见内容的部分图像。模型然后使用这些投影作为一致性检查,确保新帧与已生成的内容对齐。
该发布增加了来自各家公司日益增长的世界生成模型集合。谷歌的Genie 3于2025年8月宣布,以720p分辨率和每秒24帧从文本提示生成交互式世界,允许数分钟的实时导航。Dynamics Lab的Mirage 2提供基于浏览器的世界生成,允许用户上传图像并将其转换为具有实时文本提示的可玩环境。虽然Genie 3专注于训练AI智能体且不公开可用,Mirage 2强调游戏用户生成内容,但Voyager针对视频制作和3D重建工作流程,具有RGB-深度输出能力。
Voyager建立在腾讯7月发布的早期HunyuanWorld 1.0基础上。Voyager也是腾讯更广泛"混元"生态系统的一部分,该生态系统包括用于文本到3D生成的Hunyuan3D-2模型和之前介绍过的用于视频合成的HunyuanVideo。
为了训练Voyager,研究人员开发了自动分析现有视频以处理摄像机移动并计算每帧深度的软件——消除了人类手动标记数千小时素材的需要。该系统处理了超过10万个视频片段,来自真实世界录制和上述虚幻引擎渲染。
该模型需要强大的计算能力才能运行,540p分辨率至少需要60GB GPU内存,尽管腾讯建议80GB以获得更好的结果。腾讯在Hugging Face上发布了模型权重,并包含了适用于单GPU和多GPU设置的代码。
该模型有显著的许可限制。与腾讯的其他混元模型一样,许可证禁止在欧盟、英国和韩国使用。此外,服务超过1亿月活跃用户的商业部署需要腾讯的单独许可。
在斯坦福大学研究人员开发的WorldScore基准测试中,据报告Voyager获得了77.62的最高总分,相比之下WonderWorld为72.69,CogVideoX-I2V为62.15。据报告该模型在物体控制(66.92)、风格一致性(84.89)和主观质量(71.09)方面表现出色,尽管在摄像机控制(85.95)方面排名第二,落后于WonderWorld的92.98。WorldScore跨多个标准评估世界生成方法,包括3D一致性和内容对齐。
虽然这些自报告的基准测试结果看起来很有希望,但由于涉及的计算需求,更广泛的部署仍面临挑战。对于需要更快处理的开发者,系统支持使用xDiT框架在多个GPU上进行并行推理。在八个GPU上运行的处理速度比单GPU设置快6.69倍。
考虑到所需的处理能力和生成长时间连贯"世界"的限制,我们可能还需要一段时间才能看到使用类似技术的实时交互体验。但正如我们在谷歌Genie等实验中所看到的,我们可能正在见证一种新的交互式生成艺术形式的早期步骤。
Q&A
Q1:HunyuanWorld-Voyager是什么?能做什么?
A:HunyuanWorld-Voyager是腾讯发布的开放权重AI模型,能够从单张图像生成3D一致性视频序列,允许用户控制摄像机路径来"探索"虚拟场景。它同时生成RGB视频和深度信息,无需传统建模技术即可直接进行3D重建。
Q2:Voyager生成的是真正的3D模型吗?
A:不是真正的3D模型,但能达到类似效果。它生成的2D视频帧在空间上保持一致性,就像摄像机在真实3D空间中移动一样。虽然输出的是带有深度图的视频,但这些信息可以转换为3D点云用于重建目的。
Q3:使用Voyager需要什么硬件配置?
A:该模型需要强大的计算能力,540p分辨率至少需要60GB GPU内存,腾讯建议80GB以获得更好的结果。对于需要更快处理的用户,系统支持多GPU并行推理,八个GPU的处理速度比单GPU快6.69倍。
好文章,需要你的鼓励
VSCO今日更新VSCO Capture应用,新增视频拍摄功能。用户现可在拍摄照片和视频时应用并调整VSCO的50多种滤镜预设,包括经典胶片到现代创作风格。新版本还推出胶片颗粒滤镜,可动态控制纹理强度、大小和色彩。用户能将颗粒滤镜叠加到Film X滤镜上,结合柯达、富士和爱克发胶片风格,保存个性化胶片配方。
瑞士ETH苏黎世联邦理工学院等机构联合开发的WUSH技术,首次从数学理论层面推导出AI大模型量化压缩的最优解。该技术能根据数据特征自适应调整压缩策略,相比传统方法减少60-70%的压缩损失,实现接近零损失的模型压缩,为大模型在普通设备上的高效部署开辟了新路径。
Instagram负责人Adam Mosseri表示,AI生成内容已经占据社交媒体主导地位,预计将超越非AI内容。他认为识别AI内容的技术效果不佳,建议转而为真实媒体建立指纹识别系统,由相机制造商在拍摄时进行加密签名。Mosseri还指出,创作者应优先发布"不完美"的原始图像来证明真实性,因为精美方形图片的时代已经结束。
弗吉尼亚大学团队创建了Refer360数据集,这是首个大规模记录真实环境中人机多模态交互的数据库,涵盖室内外场景,包含1400万交互样本。同时开发的MuRes智能模块能让机器人像人类一样理解语言、手势和眼神的组合信息,显著提升了现有AI模型的理解准确度,为未来智能机器人的广泛应用奠定了重要基础。