腾讯发布新AI模型，一张照片即可生成3D探索世界

## 腾讯发布HunyuanWorld-Voyager开源AI模型，可将单张图片生成3D一致性视频序列，用户可控制相机路径"探索"虚拟场景。该模型同时生成RGB视频和深度信息，支持直接3D重建。模型采用Transformer架构，使用超10万视频片段训练，在WorldScore基准测试中获得77.62最高分。但需要60GB以上GPU内存运行，且在欧盟等地区使用受限。

周二，腾讯发布了HunyuanWorld-Voyager，这是一款新的开放权重AI模型，能够从单张图像生成3D一致性视频序列，允许用户控制摄像机路径来"探索"虚拟场景。该模型同时生成RGB视频和深度信息，无需传统建模技术即可直接进行3D重建。不过，它暂时还无法取代视频游戏。

生成的结果并非真正的3D模型，但能达到类似效果：该AI工具生成的2D视频帧在空间上保持一致性，就像摄像机在真实3D空间中移动一样。每次生成仅产生49帧——大约两秒的视频，但根据腾讯介绍，多个片段可以串联形成持续"数分钟"的序列。当摄像机围绕物体移动时，物体保持相同的相对位置，视角变化也如真实3D环境中预期的那样正确。虽然输出的是带有深度图的视频而非真正的3D模型，但这些信息可以转换为3D点云用于重建目的。

该系统通过接受单张输入图像和用户定义的摄像机轨迹来工作。用户可以通过提供的界面指定摄像机移动，如前进、后退、左右移动或转向动作。系统将图像和深度数据与内存高效的"世界缓存"相结合，生成反映用户定义摄像机移动的视频序列。

基于Transformer架构的所有AI模型都有一个重大限制，即它们本质上是模仿训练数据中发现的模式，这限制了它们"泛化"的能力，也就是将这些模式应用到训练数据中未出现的新情况的能力。为了训练Voyager，研究人员使用了超过10万个视频片段，包括来自虚幻引擎的计算机生成场景——本质上是教模型模仿摄像机如何在3D视频游戏环境中移动。

大多数AI视频生成器，如Sora，创建的帧看起来一个接一个地合理，但不试图跟踪或保持空间一致性。值得注意的是，Voyager已被训练识别和再现空间一致性模式，但增加了几何反馈循环。在生成每一帧时，它将输出转换为3D点，然后将这些点投影回2D供未来帧参考。

这种技术迫使模型将其学习到的模式与自己先前输出的几何一致投影进行匹配。虽然这比标准视频生成器创造了更好的空间一致性，但它仍然本质上是由几何约束引导的模式匹配，而非真正的3D"理解"。这解释了为什么模型可以保持数分钟的一致性，但在完整360度旋转时会遇到困难——模式匹配中的小错误在许多帧中累积，直到几何约束无法再保持连贯性。

根据腾讯的技术报告，该系统利用两个主要部分协同工作。首先，它同时生成彩色视频和深度信息，确保它们完美匹配——当视频显示一棵树时，深度数据准确知道那棵树的距离。其次，它使用腾讯所称的"世界缓存"——从先前生成的帧创建的3D点的不断增长的集合。在生成新帧时，这个点云从新的摄像机角度投影回2D，创建显示基于先前帧应该可见内容的部分图像。模型然后使用这些投影作为一致性检查，确保新帧与已生成的内容对齐。

该发布增加了来自各家公司日益增长的世界生成模型集合。谷歌的Genie 3于2025年8月宣布，以720p分辨率和每秒24帧从文本提示生成交互式世界，允许数分钟的实时导航。Dynamics Lab的Mirage 2提供基于浏览器的世界生成，允许用户上传图像并将其转换为具有实时文本提示的可玩环境。虽然Genie 3专注于训练AI智能体且不公开可用，Mirage 2强调游戏用户生成内容，但Voyager针对视频制作和3D重建工作流程，具有RGB-深度输出能力。

Voyager建立在腾讯7月发布的早期HunyuanWorld 1.0基础上。Voyager也是腾讯更广泛"混元"生态系统的一部分，该生态系统包括用于文本到3D生成的Hunyuan3D-2模型和之前介绍过的用于视频合成的HunyuanVideo。

为了训练Voyager，研究人员开发了自动分析现有视频以处理摄像机移动并计算每帧深度的软件——消除了人类手动标记数千小时素材的需要。该系统处理了超过10万个视频片段，来自真实世界录制和上述虚幻引擎渲染。

该模型需要强大的计算能力才能运行，540p分辨率至少需要60GB GPU内存，尽管腾讯建议80GB以获得更好的结果。腾讯在Hugging Face上发布了模型权重，并包含了适用于单GPU和多GPU设置的代码。

该模型有显著的许可限制。与腾讯的其他混元模型一样，许可证禁止在欧盟、英国和韩国使用。此外，服务超过1亿月活跃用户的商业部署需要腾讯的单独许可。

在斯坦福大学研究人员开发的WorldScore基准测试中，据报告Voyager获得了77.62的最高总分，相比之下WonderWorld为72.69，CogVideoX-I2V为62.15。据报告该模型在物体控制（66.92）、风格一致性（84.89）和主观质量（71.09）方面表现出色，尽管在摄像机控制（85.95）方面排名第二，落后于WonderWorld的92.98。WorldScore跨多个标准评估世界生成方法，包括3D一致性和内容对齐。

虽然这些自报告的基准测试结果看起来很有希望，但由于涉及的计算需求，更广泛的部署仍面临挑战。对于需要更快处理的开发者，系统支持使用xDiT框架在多个GPU上进行并行推理。在八个GPU上运行的处理速度比单GPU设置快6.69倍。

考虑到所需的处理能力和生成长时间连贯"世界"的限制，我们可能还需要一段时间才能看到使用类似技术的实时交互体验。但正如我们在谷歌Genie等实验中所看到的，我们可能正在见证一种新的交互式生成艺术形式的早期步骤。

Q&A

Q1：HunyuanWorld-Voyager是什么？能做什么？

A：HunyuanWorld-Voyager是腾讯发布的开放权重AI模型，能够从单张图像生成3D一致性视频序列，允许用户控制摄像机路径来"探索"虚拟场景。它同时生成RGB视频和深度信息，无需传统建模技术即可直接进行3D重建。

Q2：Voyager生成的是真正的3D模型吗？

A：不是真正的3D模型，但能达到类似效果。它生成的2D视频帧在空间上保持一致性，就像摄像机在真实3D空间中移动一样。虽然输出的是带有深度图的视频，但这些信息可以转换为3D点云用于重建目的。

Q3：使用Voyager需要什么硬件配置？

A：该模型需要强大的计算能力，540p分辨率至少需要60GB GPU内存，腾讯建议80GB以获得更好的结果。对于需要更快处理的用户，系统支持多GPU并行推理，八个GPU的处理速度比单GPU快6.69倍。

来源：Arstechnica

0赞

好文章，需要你的鼓励

腾讯发布新AI模型，一张照片即可生成3D探索世界

来源：Arstechnica

2025

09/04

07:50

分享

点赞

AI赋能农业：科技如何改造传统乡村世界

Disrupt创业大赛六大媒体娱乐初创企业盘点

OpenAI计划第一季度推出全新音频生成模型

Fizz社交应用CEO谈论匿名社交为何有效

Apple Health应用的强大功能及使用技巧大揭秘

VSCO Capture新增视频拍摄功能迎接新年到来

Instagram负责人：AI内容泛滥，为真实媒体加指纹比识别虚假内容更实用

大学辍学成为初创企业创始人最抢手标签

微软如何满足客户需求：安排比尔·盖茨接见的巧妙方法

路创Aurora调光器完美解决飞利浦Hue智能灯泡最大痛点

Fizz CEO解析匿名社交如何俘获Z世代用户

教育科技创业者分享社群构建与用户留存策略

重新构想智能体AI时代的IT组织架构

IT领导者应对通用人工智能的策略与挑战

OpenAI为ChatGPT预览新安全功能

英伟达财报揭示超大规模云服务商主导AI基础设施变革

五步防护方案阻止恶意提示攻击智能家居AI设备

Denodo声称DeepQuery能超越生成式AI的表面洞察

d-Matrix声称3D堆叠内存将突破AI推理瓶颈

高盛警告：AI泡沫可能冲击数据中心繁荣

网络安全专业人员需具备AI技能需求激增

阿里、百度、360等AI负责人、跨界艺术家、具身智能天团齐聚，PEC 2025 暨第二届AI创新者大会议程重磅公布

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: