周二,腾讯发布了HunyuanWorld-Voyager,这是一款新的开放权重AI模型,能够从单张图像生成3D一致性视频序列,允许用户控制摄像机路径来"探索"虚拟场景。该模型同时生成RGB视频和深度信息,无需传统建模技术即可直接进行3D重建。不过,它暂时还无法取代视频游戏。
生成的结果并非真正的3D模型,但能达到类似效果:该AI工具生成的2D视频帧在空间上保持一致性,就像摄像机在真实3D空间中移动一样。每次生成仅产生49帧——大约两秒的视频,但根据腾讯介绍,多个片段可以串联形成持续"数分钟"的序列。当摄像机围绕物体移动时,物体保持相同的相对位置,视角变化也如真实3D环境中预期的那样正确。虽然输出的是带有深度图的视频而非真正的3D模型,但这些信息可以转换为3D点云用于重建目的。
该系统通过接受单张输入图像和用户定义的摄像机轨迹来工作。用户可以通过提供的界面指定摄像机移动,如前进、后退、左右移动或转向动作。系统将图像和深度数据与内存高效的"世界缓存"相结合,生成反映用户定义摄像机移动的视频序列。
基于Transformer架构的所有AI模型都有一个重大限制,即它们本质上是模仿训练数据中发现的模式,这限制了它们"泛化"的能力,也就是将这些模式应用到训练数据中未出现的新情况的能力。为了训练Voyager,研究人员使用了超过10万个视频片段,包括来自虚幻引擎的计算机生成场景——本质上是教模型模仿摄像机如何在3D视频游戏环境中移动。
大多数AI视频生成器,如Sora,创建的帧看起来一个接一个地合理,但不试图跟踪或保持空间一致性。值得注意的是,Voyager已被训练识别和再现空间一致性模式,但增加了几何反馈循环。在生成每一帧时,它将输出转换为3D点,然后将这些点投影回2D供未来帧参考。
这种技术迫使模型将其学习到的模式与自己先前输出的几何一致投影进行匹配。虽然这比标准视频生成器创造了更好的空间一致性,但它仍然本质上是由几何约束引导的模式匹配,而非真正的3D"理解"。这解释了为什么模型可以保持数分钟的一致性,但在完整360度旋转时会遇到困难——模式匹配中的小错误在许多帧中累积,直到几何约束无法再保持连贯性。
根据腾讯的技术报告,该系统利用两个主要部分协同工作。首先,它同时生成彩色视频和深度信息,确保它们完美匹配——当视频显示一棵树时,深度数据准确知道那棵树的距离。其次,它使用腾讯所称的"世界缓存"——从先前生成的帧创建的3D点的不断增长的集合。在生成新帧时,这个点云从新的摄像机角度投影回2D,创建显示基于先前帧应该可见内容的部分图像。模型然后使用这些投影作为一致性检查,确保新帧与已生成的内容对齐。
该发布增加了来自各家公司日益增长的世界生成模型集合。谷歌的Genie 3于2025年8月宣布,以720p分辨率和每秒24帧从文本提示生成交互式世界,允许数分钟的实时导航。Dynamics Lab的Mirage 2提供基于浏览器的世界生成,允许用户上传图像并将其转换为具有实时文本提示的可玩环境。虽然Genie 3专注于训练AI智能体且不公开可用,Mirage 2强调游戏用户生成内容,但Voyager针对视频制作和3D重建工作流程,具有RGB-深度输出能力。
Voyager建立在腾讯7月发布的早期HunyuanWorld 1.0基础上。Voyager也是腾讯更广泛"混元"生态系统的一部分,该生态系统包括用于文本到3D生成的Hunyuan3D-2模型和之前介绍过的用于视频合成的HunyuanVideo。
为了训练Voyager,研究人员开发了自动分析现有视频以处理摄像机移动并计算每帧深度的软件——消除了人类手动标记数千小时素材的需要。该系统处理了超过10万个视频片段,来自真实世界录制和上述虚幻引擎渲染。
该模型需要强大的计算能力才能运行,540p分辨率至少需要60GB GPU内存,尽管腾讯建议80GB以获得更好的结果。腾讯在Hugging Face上发布了模型权重,并包含了适用于单GPU和多GPU设置的代码。
该模型有显著的许可限制。与腾讯的其他混元模型一样,许可证禁止在欧盟、英国和韩国使用。此外,服务超过1亿月活跃用户的商业部署需要腾讯的单独许可。
在斯坦福大学研究人员开发的WorldScore基准测试中,据报告Voyager获得了77.62的最高总分,相比之下WonderWorld为72.69,CogVideoX-I2V为62.15。据报告该模型在物体控制(66.92)、风格一致性(84.89)和主观质量(71.09)方面表现出色,尽管在摄像机控制(85.95)方面排名第二,落后于WonderWorld的92.98。WorldScore跨多个标准评估世界生成方法,包括3D一致性和内容对齐。
虽然这些自报告的基准测试结果看起来很有希望,但由于涉及的计算需求,更广泛的部署仍面临挑战。对于需要更快处理的开发者,系统支持使用xDiT框架在多个GPU上进行并行推理。在八个GPU上运行的处理速度比单GPU设置快6.69倍。
考虑到所需的处理能力和生成长时间连贯"世界"的限制,我们可能还需要一段时间才能看到使用类似技术的实时交互体验。但正如我们在谷歌Genie等实验中所看到的,我们可能正在见证一种新的交互式生成艺术形式的早期步骤。
Q&A
Q1:HunyuanWorld-Voyager是什么?能做什么?
A:HunyuanWorld-Voyager是腾讯发布的开放权重AI模型,能够从单张图像生成3D一致性视频序列,允许用户控制摄像机路径来"探索"虚拟场景。它同时生成RGB视频和深度信息,无需传统建模技术即可直接进行3D重建。
Q2:Voyager生成的是真正的3D模型吗?
A:不是真正的3D模型,但能达到类似效果。它生成的2D视频帧在空间上保持一致性,就像摄像机在真实3D空间中移动一样。虽然输出的是带有深度图的视频,但这些信息可以转换为3D点云用于重建目的。
Q3:使用Voyager需要什么硬件配置?
A:该模型需要强大的计算能力,540p分辨率至少需要60GB GPU内存,腾讯建议80GB以获得更好的结果。对于需要更快处理的用户,系统支持多GPU并行推理,八个GPU的处理速度比单GPU快6.69倍。
好文章,需要你的鼓励
在迪拜Gitex 2025大会上,阿联酋成为全球AI领导者的雄心备受关注。微软正帮助该地区组织从AI实验阶段转向实际应用,通过三重方法提供AI助手、协同AI代理和AI战略顾问。微软已在阿联酋大举投资数据中心,去年培训了10万名政府员工,计划到2027年培训100万学习者。阿联酋任命了全球首位AI部长,各部门都配备了首席AI官。微软与政府机构和企业合作,在公民服务和金融流程等领域实现AI的实际应用,构建全面的AI生态系统。
Google DeepMind团队发布了EmbeddingGemma,这是一个仅有3.08亿参数的轻量级文本理解模型,却能达到7亿参数模型的性能水平。该模型在权威的多语言文本嵌入基准测试中排名第一,支持250多种语言,特别适合移动设备部署。研究团队通过创新的编码器-解码器初始化、三重损失函数训练和模型融合技术,实现了性能与效率的完美平衡,为AI技术普及化开辟了新路径。
苹果与俄亥俄州立大学研究人员发布名为FS-DFM的新模型,采用少步离散流匹配技术,仅需8轮快速优化即可生成完整长文本,效果媲美需要上千步骤的扩散模型。该模型通过三步训练法:处理不同优化预算、使用教师模型指导、调整迭代机制来实现突破。测试显示,参数量仅1.7亿至17亿的FS-DFM变体在困惑度和熵值指标上均优于70-80亿参数的大型扩散模型。
日本奈良先端科学技术大学等机构首次深入研究AI编程工具Claude Code在真实开源项目中的表现。通过分析567个代码贡献,发现83.8%被成功接受,54.9%无需修改直接使用。AI擅长重构、测试和文档工作,但需要人工修正bug处理、代码风格等问题。研究揭示了AI编程工具的实际能力边界和改进方向。