一张ImageNet图像构建3D对象!华为诺亚提出3D生成新方法G3DR!

数源AI推荐的论文《G3DR: Generative 3D Reconstruction in ImageNet》介绍了一种新的3D生成方法G3DR,能从单个图像生成多种高质量3D对象。G3DR利用深度正则化技术和预训练的语言视觉模型CLIP,

数源AI 最新论文解读系列

一张ImageNet图像构建3D对象!华为诺亚提出3D生成新方法G3DR!

 

论文名:G3DR: Generative 3D Reconstruction in ImageNet

论文链接:https://arxiv.org/pdf/2403.00939.pdf

开源代码:https://github.com/ preddy5/G3DR

一张ImageNet图像构建3D对象!华为诺亚提出3D生成新方法G3DR!

 

引言

生 成 3D资 产 对 于 VR/AR、 电 影 制 作 和 视 频 游 戏 等 应 用 程 序 越 来 越 重 要 。传 统 上 , 3D建 模 是 由 专 注 的 艺 术 家 和 内 容 创 作 者 完 成 的 , 然 而 , 现 在 更 希 望 使 用 机 器 学 习 解 决 方 案 来 自 动 化 这 个 过 程 。NeRF的 开 创 性 工 作 在 3D新 视 图 合 成 方 面 迈 出 了 一 大 步 , 提 出 了 仅 从 校 准 图 像 中 学 习 隐 式 辐 射 场 的 问 题 。然 而 , 该 方 法 需 要 使 用 已 知 相 机 变 换 的 相 同 物 体 /场 景 的 许 多 不 同 视 图 来 执 行 精 确 重 建 。此 外 , NeRF只 能 重 建 一 个 场 景 , 但 不 能 产 生 看 似 相 似 的 场 景 。

 

简介

我 们 介 绍 了 一 种 新 的 3D生 成 方 法 , ImageNet中 的 生 成 3D重 建 (G3DR), 能 够 从 单 个 图 像 生 成 多 种 高 质 量 的 3D 对 象 , 解 决 了 现 有 方 法 的 局 限 性 。所 提 出 框 架 的 核 心 是 一 种 新 的 深 度 正 则 化 技 术 , 能 够 生 成 具 有 高 几 何 保 真 度 的 场 景 。G3DR还 利 用 预 先 训 练 的 语 言 视 觉 模 型 (如 CLIP), 以 实 现 新 视 图 的 重 建 , 并 提 高 几 代 人 的 视 觉 真 实 感 。此 外 , G3DR设 计 了 一 个 简 单 而 有 效 的 采 样 程 序 , 以 进 一 步 提 高 世 代 的 质 量 。G3DR提 供 基 于 类 或 文 本 条 件 的 多 样 化 和 高 效 的 3D资 产 生 成 。尽 管 它 很 简 单 , 但 G3DR能 够 击 败 最 先 进 的 方 法 , 在 概 念 指 标 上 提 高 22%, 几 何 分 数 提 高 90%, 而 只 需 要 一 半 的 训 练 时 间 。

 

方法与模型

我 们 在 3.1节 中 描 述 了 我 们 的 问 题 公 式 。我 们 观 察 到 , 朴 素 地 训 练 网 络 是 一 个 过 度 参 数 化 的 问 题 , 会 导 致 退 化 的 解 决 方 案 。因 此 , 为 了 解 决 这 个 问 题 , 在 3.2节 中 , 我 们 提 出 了 一 个 新 的 深 度 正 则 化 模 块 。我 们 在 3.3 节 中 描 述 了 我 们 的 多 分 辨 率 采 样 。我 们 在 3.4节 中 给 出 了 我 们 的 训 练 程 序 和 损 失 , 我 们 通 过 解 释 3.5节 中 的 生 成 过 程 来 总 结 这 一 部 分 。我 们 在 图 2a中 展 示 了 我 们 框 架 的 可 视 化 。

1

问 题 公 式 化

给 定 一 个 潜 在 的 ck, 它 可 以 是 一 个 类 、 图 像 、 文 本 或 其 他 表 示 , 我 们 的 目 标 是 通 过 神 经 网 络 从 潜 在 的 ck生 成 一 个 3D表 示 Ik。我 们 使 用 潜 在 扩 散 模 型 frgbd来 生 成 具 有 深 度 的 图 像 rgbdk。然 后 我 们 使 用 三 平 面 生 成 器 ftrigen来 完 成 rgbdk, 随 后 使 用 fdec对 生 成 的 三 平 面 进 行 体 渲 染 。训 练 ftrigen模 型 来 使 用 每 个 场 景 只 包 含 单 一 视 图 的 非 对 齐 数 据 集 来 生 成 3D场 景 仍 然 是 一 个 不 适 定 的 问 题 , 存 在 许 多 可 能 的 朴 素 解 决 方 案 。这 种 极 端 的 训 练 场 景 导 致 ftrigen导 致 估 计 3D模 型 中 的 体 积 坍 缩 , 其 中 表 面 使 用 一 些 不 相 连 的 半 透 明 内 容 云 区 域 错 误 建 模 , 这 些 内 容 云 解 释 了 输 入 视 图 , 但 从 另 一 个 角 度 观 看 时 , 会 导 致 模 糊 或 倾 斜 的 输 入 图 像 。我 们 通 过 在 训 练 过 程 中 调 整 NeRF体 渲 染 函 数 的 梯 度 , 提 出 了 一 种 新 的 深 度 正 则 化 方 法 来 解 决 这 个 问 题 。通 过 采 用 多 分 辨 率 三 平 面 采 样 策 略 , 增 强 了 生 成 的 3D场 景 的 纹 理 质 量 , 在 不 增 加 模 型 权 重 数 量 的 情 况 下 提 高 了 模 型 性 能 。一张ImageNet图像构建3D对象!华为诺亚提出3D生成新方法G3DR!

2

深 度 正 规 化

本 文 提 出 一 种 新 的 深 度 正 则 化 技 术 , 用 于 有 效 训 练 ftrigen, 能 够 生 成 具 有 高 保 真 几 何 形 状 的 场 景 , 同 时 防 止 体 坍 缩 。我 们 提 出 的 深 度 正 则 化 技 术 在 理 论 上 与 大 多 数 NeRF实 现 兼 容 , 并 且 在 训 练 时 不 会 产 生 任 何 显 着 的 开 销 。设 o和 d表 示 射 线 原 点 和 射 线 方 向 , 设 t为 沿 射 线 的 采 样 距 离 。我 们 使 用 体 渲 染 沿 着 射 线 r(t) = o + td渲 染 一 个 三 面 场 景 G。我 们 通 过 将 r(t)投 影 到 特 征 平 面 [5]上 , 从 G的 轴 对 齐 正 交 特 征 平 面 中 采 样 潜 值 gi。然 后 , 我 们 使 用 隐 函 数 fdec来 估 计 以 gi和 d为 条 件 的 颜 色 c和 密 度 σ 。使 用 这 些 c和 σ 值 , 我 们 进 行 近 似沿着 光 线 的 体 绘 制 积 分 :一张ImageNet图像构建3D对象!华为诺亚提出3D生成新方法G3DR!

其 中 δ i=ti+1– ti。理 想 情 况 下 , σ 值 在 真 实 表 面 附 近 应 该 很 高 , 即 如 果 表 面 与 射 线 源 的 距 离 为 xi, 那 么 σ 应 该 很 高 xi≈ ti。然 而 , 当 使 用 基 于 透 视 相 机 投 影 的 光 线 投 射 设 置 而 没 有 任 何 充 分 的 多 视 图 监 督 时 , 靠 近 相 机 时 代 的 r(t)(即 较 低 的 值 ) 接 收 到 比 远 点 更 高 的 梯 度 , 从 而 导 致 伪 影 和 不 期 望 的 几 何 [34]。为 了 解 决 这 个 问 题 , 我 们 使 用 我 们 的 正 则 化 来 鼓 励 高 σ 值 更 接 近 预 期 的 表 面 , 同 时 阻 止 σ 值 远 离 表 面 。我 们 提 出 的 深 度 正 则 化 通 过 重 新 缩 放 密 度 和 颜 色 值 w.r.t的 梯 度 到 损 失 函 数 , 基 于 r(t)和 表 面 之 间 的 距 离 , 使 用 以 下 公 式 :一张ImageNet图像构建3D对象!华为诺亚提出3D生成新方法G3DR!

我 们 将 k(x, ti )定 义 为 一 个 核 :一张ImageNet图像构建3D对象!华为诺亚提出3D生成新方法G3DR!

其 中 cmin、 cmax、 s1和 s2是 超 参 数 , x是 像 素 的 深 度 (表 面 到 光 线 原 点 的 距 离 )。核 值 高 的 地 方 ti接 近 表 面 , 即 ti和 xi之 间 的 绝 对 差 是 低 的 , 并 随 着 绝 对 差 的 增 加 平 滑 地 减 小 。cmin和 cmax的 值 来 确 定 内 核 的 最 大 值 和 最 小 值 。cmin值 需 要 是 一 个 正 的 非 零 值 , 以 便 在 训 练 过 程 中 远 离 表 面 的 密 度 与 它 们 的 默 认 初 始 化 值 减 少 。超 参 数 s1和 s2控 制 正 则 化 核 在 表 面 周 围 的 扩 散 。很 高 的 s2会 抵 消 正 则 化 的 效 果 , 很 低 的 s2会 导 致 梯 度 消 失 。我 们 根 据 经 验 观 察 , 根 据 射 线 采 样 密 度 选 择 s2值 给 出 了 最 好 的 结 果 , 并 启 发 式 地 将 其 设 置 为 粗 射 线 样 本 之 间 距 离 的 一 半 。在 图 2b中 , 我 们 展 示 了 如 何 根 据 深 度 图 的 2D横 截 面 对 梯 度 进 行 缩 放 的 说 明 。

 

3

多 分 辨 率 抽 样

我 们 采 用 多 分 辨 率 三 平 面 采 样 策 略 来 提 高 生 成 模 型 的 性 能 。给 定 一 个 三 平 面 G我 们 创 建 了 一 组 具 有 不 同 分 辨 率 的 三 平 面 L l=1, 其 中 L表 示 层 次 的 总 数 。每 一 层 Gl是 通 过 将 前 一 层 Gl– 1重 采 样 到 一 半 的 分 辨 率 来 构 建 的 。在 我 们 的 实 验 中 , 我 们 构 建 了 3个 水 平 。所 有 水 平 都 进 行 了 反 走 样 重 采 样 , 以 尽 量 减 少 不 良 的 失 真 伪 影 。对 于 每 个 Gl, 我 们 通 过 将 r(t)投 影 到 每 个 正 交 的 特 征 平 面 上 , 并 使 用 双 线 性 插 值 检 索 它 们 对 应 的 特 征 向 量 , 对 r(t)对 应 的 潜 值 进 行 采 样 。然 后 , 我 们 使 用 均 值 操 作 聚 合 来 自 各 个 平 面 的 特 征 向 量 , 并 使 用 求 和 [5,53]对 来 自 不 同 Gl的 特 征 向 量 进 行 排 序 。请 注 意 , 我 们 的 采 样 策 略 与 [18,41,68]等 方 法 中 使 用 的 多 分 辨 率 三 平 面 策 略 不 同 , 在 这 些 方 法 中 , 在 不 同 的 分 辨 率 下 学 习 单 独 的 三 平 面 潜 。这 种 多 分 辨 率 采 样 风 格 在 不 增 加 模 型 参 数 数 量 的 情 况 下 提 高 了 模 型 性 能 。然 后 我 们 将 最 终 的 特 征 向 量 传 递 给 fdec以 生 成 图 像 的 3D特 征 , 然 后 通 过 神 经 体 渲 染 进 行 渲 染 。在 图 3中 , 我 们 展 示 了 如 果 我 们 只 从 最 粗 的 层 次 开 始 采 样 , 然 后 从 更 细 的 层 次 添 加 样 本 , 纹 理 和 几 何 是 如 何 受 到 影 响 的 。一张ImageNet图像构建3D对象!华为诺亚提出3D生成新方法G3DR!

我 们 的 多 分 辨 率 采 样 示 意 图

4

Training

在 本 节 中 , 我 们 将 描 述 在 我 们 的 框 架 中 使 用 的 不 同 损 失 。我 们 区 分 了 规 范 视 图 的 训 练 和 新 视 图 的 训 练 。规 范 的 观 点 。沿 着 规 范 视 图 , 我 们 训 练 网 络 以 准 确 重 建 具 有 良 好 几 何 形 状 的 地 面 真 值 。在 我 们 的 实 验 中 , 所 有 数 据 集 的 地 面 真 值 相 机 外 部 参 数 都 是 未 知 的 , 没 有 准 确 的 模 型 来 估 计 这 些 参 数 。因 此 , 我 们 选 择 了 一 组 合 理 的 相 机 参 数 , 并 将 它 们 用 作 所 有 图 像 的 规 范 视 图 参 数 。我 们 遵 循 标 准 公 式 , 并 定 义 重 建 损 失 Lreconas渲 染 和 真 实 像 素 值 之 间 的 总 平 方 误 差 。我 们 还 使 用 深 度 损 失 LD定 义 为 L1之 间 的 损 失 伪 地 面 真 值 深 度 图 , 我 们 估 算 渲 染 图 像 的 累 计 深 度 值 :一张ImageNet图像构建3D对象!华为诺亚提出3D生成新方法G3DR!

其 中 ε is一 个 为 训 练 稳 定 性 引 入 的 超 参 数 。对 于 不 同 的 Ni=1值 , 这 种 近 似 深 度 可 以 导 致 相 同 的 D值 , 其 中 许 多 值 是 退 化 的 , 导 致 体 积 坍 缩 。我 们 通 过 在 反 向 传 播 过 程 中 操 作 3.2节 中 解 释 的 梯 度 来 解 决 这 个 问 题 。为 了 进 一 步 提 高 视 觉 性 能 , 我 们 添 加 了 感 知 损 失 LVGG[63]。我 们 将 canonical视 图 的 损 失 定 义 为 上 述 损 失 的 加 权 和 :一张ImageNet图像构建3D对象!华为诺亚提出3D生成新方法G3DR!

其 中 λ 1, λ 2, λ 3是 缩 放 损 失 的 超 参 数 。新 颖 的 观 点 。从 单 一 视 图 生 成 新 视 图 的 一 个 主 要 挑 战 是 新 视 图 中 的 损 失 监 督 。其 他 工 作 通 过 使 用 对 抗 性 训 练 [42,49]或 3d感 知 修 复 [57]来 实 现 这 一 点 。相 反 , 我 们 设 计 了 我 们 的 新 框 架 , 使 用 基 于 新 视 图 和 真 实 值 之 间 特 征 差 异 的 损 失 LCLIP, 使 用 视 觉 语 言 模 型 [36]。我 们 的 直 觉 是 , 尽 管 有 相 机 的 运 动 , 图 像 的 语 义 应 该 与 地 面 真 实 图 像 的 语 义 相 同 。我 们 证 明 了 这 个 解 决 方 案 , 尽 管 非 常 简 单 , 但 足 够 强 大 , 通 过 使 用 它 , 网 络 获 得 了 对 新 观 点 所 需 的 监 督 。此 外 , 由 于 它 没 有 对 抗 性 训 练 , 它 的 收 敛 相 对 于 其 他 方 法 更 稳 定 。对 于 几 何 监 督 , 我 们 在 累 积 深 度 上 使 用 TV-loss(LTV)[31]来 鼓 励 平 滑 的 几 何 , 而 对 于 真 实 感 , 我 们 使 用 感 知 损 失 。我 们 将 新 视 图 的 损 失 定 义 为 上 述 损 失 的 加 权 和 :一张ImageNet图像构建3D对象!华为诺亚提出3D生成新方法G3DR!

对 于 LVGG2, 不 像 在 canonical view中 我 们 使 用 来 自 五 个 级 别 的 特 征 , 在 novel view中 , 我 们 只 使 用 来 自 最 后 两 个 级 别 的 特 征 。这 是 因 为 虽 然 我 们 期 望 新 视 图 中 的 图 像 语 义 与 输 入 图 像 相 同 , 但 其 底 层 特 征 并 不 一 定 相 同 , 因 此 使 用 所 有 五 个 特 征 会 导 致 图 像 模 糊 。为 了 补 偿 使 用 较 少 的 特 征 , 我 们 将 λ 6设 置 为 λ 3值 的 两 倍 。在 新 颖 视 图 和 规 范 视 图 之 间 交 替 。我 们 在 训 练 期 间 在 规 范 视 图 和 新 视 图 之 间 随 机 采 样 。我 们 设 计 了 一 个 启 发 式 的 概 率 采 样 , 我 们 最 初 以 更 高 的 概 率 为 规 范 视 图 进 行 采 样 。通 过 这 种 方 式 , 网 络 快 速 学 习 更 容 易 的 图 像 重 建 任 务 。我 们 在 训 练 过 程 中 线 性 增 加 对 新 视 图 进 行 采 样 的 概 率 , 但 对 新 视 图 进 行 采 样 的 概 率 永 远 不 会 高 于 对 规 范 视 图 进 行 采 样 的 概 率 。我 们 在 图 2c中 展 示 了 我 们 损 失 的 可 视 化 , 并 在 补 充 材 料 中 给 出 了 更 多 的 细 节 。

5

Generation

到 目 前 为 止 , 我 们 描 述 的 网 络 将 强 大 地 进 行 rgbd图 像 的 3D生 成 重 建 , 这 一 任 务 对 AR/VR可 能 很 重 要 。然 而 , 在 这 项 工 作 中 , 我 们 专 注 于 无 条 件 或 类 条 件 的 生 成 建 模 , 以 多 样 化 地 生 成 3D场 景 。因 此 , 我 们 首 先 在 ImageNet中 训 练 一 个 扩 散 模 型 , 它 能 够 生 成 逼 真 的 单 视 图 rgbd图 像 。 

我 们 使 用 我 们 的 扩 散 模 型 来 无 条 件 或 有 类 条 件 地 生 成 rgbd图 像 。然 后 , 我 们 将 生 成 的 图 像 输 入 到 3.4节 中 训 练 的 模 型 中 , 该 模 型 通 过 生 成 3D三 平 面 来 完 成 rgbd 图 像 。有 趣 的 是 , 在 我 们 的 实 验 部 分 , 我 们 展 示 了 我 们 的 模 型 不 仅 适 用 于 以 类 为 条 件 的 imagenet类 图 像 , 也 适 用 于 以 其 他 形 式 (如 文 本 )为 条 件 的 图 像 。为 此 , 我 们 从 一 个 文 本 到 图 像 的 潜 在 扩 散 模 型 中 采 样 , 然 后 将 这 些 图 像 输 入 到 我 们 的 模 型 中 以 获 得 它 们 的 3D表 示 。也 许 令 人 惊 讶 的 是 , 我 们 展 示 了 我 们 的 模 型 即 使 对 于 域 外 样 本 也 能 很 好 地 工 作 , 例 如 卡 通 。 

最 后 , 训 练 一 个 生 成 高 分 辨 率 3D图 像 的 模 型 是 昂 贵 的 。相 反 , 我 们 训 练 我 们 的 模 型 来 生 成 中 等 分 辨 率 的 图 像 (例 如 128x128)。然 后 , 我 们 使 用 超 分 辨 率 网 络 [66], 将 图 像 上 采 样 到 所 需 的 分 辨 率 (例 如 , 256x256)。我 们 在 训 练 和 采 样 过 程 中 执 行 这 种 上 采 样 。

 

 

实验与结果

 

ImageNet上 的 结 果 。我 们 在 表 1中 展 示 了 ImageNet数 据 集 中 的 结 果 。如 图 所 示 , 我 们 的 方 法 显 著 优 于 其 他 3D 方 法 。EG3D可 以 被 认 为 是 基 线 3D方 法 , FID评 分 为 25.6。其 他 方 法 在 此 基 础 上 有 所 改 进 , 最 近 的 方 法 , 3DGP和 VQ3D达 到 了 19.7和 16.8的 FID分 数 。G3DR提 高 了 FID分 数 , 达 到 了 13.1, 相 对 提 高 了 22%以 上 , 创 下 了 新 的 水 平 。注 意 , IVID在 128x中 进 行 了 评 估 , 达 到 了 14.1, 比 我 们 在 该 分 辨 率 下 的 结 果 差 1.1个 百 分 点 (pp)。同 样 , 我 们 在 《 盗 梦 空 间 》 中 大 幅 提 高 了 最 先 进 的 技 术 , 达 到 了 151.7, 比 3DGP 相 对 提 高 了 21.5%。2D 方 法 , 如 BigGAN、 StyleGAN-XL或 ADM, 达 到 了 更 好 的 视 觉 质 量 分 数 , 但 它 们 没 有 任 何 对 图 像 几 何 形 状 的 考 虑 , 因 此 无 法 与 我 们 的 方 法 相 提 并 论 。

我 们 方 法 的 定 性 结 果

 

一张ImageNet图像构建3D对象!华为诺亚提出3D生成新方法G3DR!

 

ImageNet 256- 2上 不 同 生 成 器 的 比 较 。3D-a意 味 着 3D感 知 ,

2.5D 意 味 着 自 回 归 2D模 型 , 可 以 提 供 涌 现 3D属 性 。

 

一张ImageNet图像构建3D对象!华为诺亚提出3D生成新方法G3DR!

 

对 我 们 的 方 法 和 替 代 深 度 监 督 方 法 的 定 性 评 价

 

一张ImageNet图像构建3D对象!华为诺亚提出3D生成新方法G3DR!

 

我 们 的 方 法 与 两 种 最 先 进 的 方 法 之 间 的 几 何 比 较

 

一张ImageNet图像构建3D对象!华为诺亚提出3D生成新方法G3DR!

 

细 粒 度 数 据 集 的 结 果

一张ImageNet图像构建3D对象!华为诺亚提出3D生成新方法G3DR!

文 本 到 3D的 结 果 , 包 括 完 全 脱 离 领 域 的 例 子 (中 图 )

 

一张ImageNet图像构建3D对象!华为诺亚提出3D生成新方法G3DR!

我 们 框 架 中 每 个 区 块 的 效 果

 

一张ImageNet图像构建3D对象!华为诺亚提出3D生成新方法G3DR!

我 们 的 模 型 与 不 使 用 深 度 监 督 和 使 用 替 代 深 度 监 督 的 方 法 的 比 较

一张ImageNet图像构建3D对象!华为诺亚提出3D生成新方法G3DR!

我 们 通 过 在 不 同 范 围 内 均 匀 采 样 偏 航 相 机 参 数 来 呈 现

FID, IS和 NFS指 标

一张ImageNet图像构建3D对象!华为诺亚提出3D生成新方法G3DR!

 

来源:数源AI

0赞

好文章,需要你的鼓励

2024

03/06

19:04

分享

点赞

数源AI

AI源于数据,数源AI专注于AI领域入门及提升,让大家能够更加快速高效的完成相关专业知识的学习!学AI就来数源!

最近文章 :