我们推出了一种全新的图像编辑方法,该方法现已作为 Google 相册"自动取景"功能的一部分正式上线,允许用户在拍摄完成后,从全新的视角重新构想照片。
你是否曾翻看相册时,暗自希望当时能换个角度拍摄?也许你希望多捕捉到面孔的某一侧,或者将相机稍微放低一点以获得完美构图。又或者,那是一张笑容灿烂的自拍,却因广角镜头的畸变让人看起来有些陌生。通常,这些"差一点就完美"的照片是我们不得不接受的结果,因为那个瞬间已经过去,无法重来。
裁剪和缩放或许能有所帮助,但传统图像编辑工具无法解决根本问题:图像依然是从一个固定的、并不理想的视角呈现场景的。放大并不能改变视差,裁剪也无法展示画框之外的内容。
今天,我们宣布推出一种在拍摄完成后修正场景构图的全新方法。这一方法现已集成于 Google 相册的"自动取景"功能中,它利用机器学习模型理解场景及其空间布局,并借助生成式 AI 从新视角重新呈现照片。与传统图像编辑不同,我们的方法将照片解读为一个三维场景——就像时间定格的真实瞬间——并在这个空间中自动调整相机位置。为此,该方法在保留原本可见内容的同时,智能地生成原本被遮挡的内容,从而形成对原始场景的真实新视角。
全新的"自动取景"功能将普通的二维照片解读为三维场景。通过从图像的空间布局中推断原始相机位置,它能自动调整拍摄角度,呈现这一定格瞬间的全新真实视角。
与其他生成式图像编辑方案不同,我们的方法分为两个阶段:第一阶段是三维场景与相机参数估计,第二阶段是生成式修复与润色。通过将三维估计与图像生成解耦,我们可以在三维空间中精准操控场景,并同时调整相机的内参与外参。此外,我们还利用机器学习模型理解场景内容,并自动推荐新的相机参数。
在第一步中,我们使用内部研发的三维点云估计模型,该模型经过专门配置,能够忠实地重建人体与面部,从而将可能损害人物识别度的重建伪影降至最低。对于原始图像中的每一个像素,该模型都会估计一个代表可见表面的三维点,并额外估算原始相机的焦距。
接下来,我们使用经典的三维渲染技术,生成以调整后的相机参数拍摄时图像的估算结果。值得注意的是,我们可以同时修改相机的位姿(位置与朝向)和焦距,从而对图像生成过程拥有完全的掌控。
然而,仅靠渲染三维点云是不够的:当虚拟相机"绕着"物体移动时,会露出原始镜头从未捕捉到的背景区域。本质上,三维点云是场景的不完整表示,从新视角渲染时必然会产生"空洞"。为填补这些区域,我们使用生成式潜在扩散模型对渲染结果进行补全与修正。该模型专为此任务训练,使用的是一个包含已知相机参数图像对的内部数据集。在训练过程中,我们估计一张图像的三维点云并将其投影到第二张图像的相机视角下,模型随后学习从重新渲染的第一张图像中重建第二张图像。在推理阶段,我们采用带有区域缩放的分类器引导,在忠实保留原始内容的同时,赋予模型足够的创作自由度来填补空白区域。
我们的两阶段编辑方法概览:首先,三维点云估计模型通过单目深度生成三维点云来估算场景几何结构,并利用二维语义信息推断目标相机参数;其次,生成式潜在扩散模型通过填补被遮挡的背景区域,并对新相机角度所呈现的新视角进行最终调整,从而完成构图补全。
为支持全自动编辑,我们利用机器学习模型检测主体面部的位置与三维朝向。结合三维点云,这些语义信息使我们能够计算出理想构图所需的相机参数,这对人像拍摄尤为实用。此外,使用广角前置摄像头拍摄的照片往往存在明显的透视畸变,会使离镜头最近的面部特征显得不自然地放大。为此,我们的方法能够自动检测这些畸变,并调整虚拟相机的内参以恢复自然、和谐的比例,相当于在拍摄完成后"后退一步"重新审视被摄对象。
这一全自动解决方案现已作为"自动取景"功能的一部分在 Google 相册上线。它利用我们具备三维感知能力的图像编辑工具,无缝处理包含人物的合适照片,从而提升人像质量。用户可以在"自动取景"候选结果中,将自动调整了相机视角的重新构图版本作为第二个渲染选项进行访问,只需一步操作即可完成照片优化。
现已在 Google 相册上线,用户可通过"自动取景"功能,以一步操作的方式轻松获取自动重新构图的图像。
此功能是 Google DeepMind 与 Google 平台及设备团队合作的成果。主要贡献者包括:Thiemo Alldieck、Marcos Seefelder、Hannah Woods、Pedro Velez、Michael Milne、Bert Le、Navin Sarma、Jasmin Repenning 和 Selena Shang。顾问包括:Steven Hickson、Claudio Martella、Irfan Essa 和 Alex Rav Acha。特别感谢:Mike Krainin、Jan Stria、Neal Wadhwa、Amit Raj、Mauro Rego、Kita Boice、Dennis Shtatnov、Yuan Qi、Julian Iseringhausen、Peter Zhizhin、Jiaping Zhao、Andre Araujo、Jana Ehmann、Keng-Sheng Lin、Isalo Montacute、Brandon Ruffin、Reginald Ballesteros 和 Andy Radin。
Q&A
Q1:Google 相册的"自动取景"功能是什么?它能解决哪些问题?
A:Google 相册的"自动取景"功能是一种基于机器学习与生成式 AI 的图像编辑工具,能在照片拍摄完成后重新调整构图视角。它能解决传统编辑工具无法处理的问题,例如视角固定、广角畸变导致面部比例失调,以及画面外内容无法补全等,让"差一点就完美"的照片获得全新的理想构图。
Q2:"自动取景"功能中的两阶段编辑方法是如何工作的?
A:第一阶段是三维场景与相机参数估计:模型对图像中每个像素估计三维点,并推算原始相机焦距,构建场景的三维点云;随后通过经典三维渲染生成新视角的初步图像。第二阶段是生成式修复:利用潜在扩散模型填补因视角变化而出现的"空洞"区域,并在保留原始内容的前提下,智能生成原本被遮挡的背景,最终形成自然、真实的新视角图像。
Q3:"自动取景"功能如何处理广角自拍的面部畸变问题?
A:"自动取景"功能通过自动检测广角镜头拍摄时产生的透视畸变,识别离镜头过近而导致的面部特征不自然放大现象,并通过调整虚拟相机的内参来恢复自然、和谐的面部比例。这一过程相当于在拍摄完成后"后退一步"重新审视人物,无需重新拍摄即可获得更自然的人像效果。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。