LLM指导3D说话面部生成！百度提出AVI-Talking！

数源AI推荐了一篇论文AVI-Talking，该论文提出了一种基于音频-视觉指令的系统，用于生成表现力丰富的3D说话人脸。系统通过大型语言模型理解音频信息，并生成指令来指导基于扩散的生成网络合成逼真的3D面部动画。

论文名：AVI-Talking: Learning Audio-Visual Instructions for Expressive 3D Talking Face Generation

论文链接：https://arxiv.org/pdf/2402.15391.pdf

LLM指导3D说话面部生成！百度提出AVI-Talking！

引言

生成逼真的人脸三维动画对于许多娱乐应用至关重要，包括数字人类动画、电影视觉配音以及虚拟头像的创建。为了合成表现力丰富的基于语音驱动的3D说话人脸，先前的工作要么1）模拟动态头部姿态与音频节奏之间的关联，要么2）借用外部表示，如情感标签或视频剪辑作为生成过程中的风格参考。然而，头部动态具有有限的表现能力，因此只能产生粗略对齐，忽略了音频内容中存在的情感细微差别。后者的研究需要用户手动选择风格来源，导致应用不自然。在本文中，我们探索了更自然的情景，旨在直接利用语音传达的基础风格信息，生成与说话状态一致的富有表现力的说话人脸。

简介

在本文中，我们提出AVI-Talking，一种用于生成表现力丰富说话面的Audio-Visual Instruction系统。该系统利用大型语言模型（LLMs）提供的强大上下文推理和幻觉能力来指导3D说话面的逼真合成。我们的两阶段策略不同于直接从人类语音中学习面部运动，而是首先让LLMs理解音频信息并生成暗示与语音无缝对应的表现力丰富面部细节的指令。随后，一个基于扩散的生成网络执行这些指令。这一两阶段过程结合LLMs的整合增强了模型可解释性，并为用户提供了理解指令并指定所需操作或修改的灵活性。广泛的实验展示了我们的方法在生成生动的说话面、具有表现力的面部运动和一致的情感状态方面的有效性。

方法与模型

给定一个音频剪辑，我们的目标是用同步的嘴唇运动和一致的面部表情来为一个模板网格添加动画。我们提议不直接从语音学习合成一个说话的脸，而是将大型语言模型（LLMs）整合到合成过程中进行指导。如图.2所示，我们的框架AVI-Talking包括两个主要阶段：一个音频-视觉指导阶段和一个连接详细面部表情描述的说话脸合成阶段。形式上，我们的系统接受输入语音A1:Ta=Ta i=1，旨在生成一系列3D参数系数ξ1:Ta=Ta i=1。

LLM指导3D说话面部生成！百度提出AVI-Talking！

Audio-Visual Instruction via LLMs

音视频指导模块以演讲者音频片段的时间序列作为输入，旨在生成描述详细面部运动并传达个体言语状态的指导语句。关键在于开发一种提示策略,以有效利用LLMs中固有的丰富上下文先验知识。

具体来说，我们利用预训练的LLaMA作为基础文本生成模型。为了理解存在于音频模态中的演讲者言语状态，音频信号需要投影到语言模型的文本嵌入中。由于像HuBERT[18]在语音情感识别(SER) 任务上取得成功，我们利用HuBERT对音频信号进行编码。随后，采用经典的Q-Former架构来聚合和提取言语风格信息，弥合声学特征和视觉面部描述之间的差距。然后学习线性投影层，将对齐特征映射到语言模型的输入空间。将“BOS”（序列开头）令牌与指导语句嵌入相结合，音频提示嵌入被馈送到LLaMA以提示与演讲者状态一致的可能具有表现力的面部运动。请注意，指导语句嵌入是通过对预定义指导模板进行标记化获得的。在我们的实验中，我们使用诸如分析音频片段中传达的情感,进一步阐述面部表情之类的指导语句。我们手动编写了10个意思相似的句子，并在训练阶段随机抽取其中一个。

(1) Speech Feature Compression via Learnable Queries

从HuBERT提取的音频特征包含复杂信息，包括语音内容、情绪状态和声学细节。为了有效地促进语言模型，首先需要理解并从语音中提取相关的面部运动信息。在这里，我们采用Q-Former架构[26, 1]来完成这项任务。

LLM指导3D说话面部生成！百度提出AVI-Talking！

使用固定长度的可学习查询通过交叉注意力聚合和压缩语音信息。值得注意的是，这种做法导致一个与查询长度qa尺寸相同的音频嵌入Fa si∈Rqa×l。这一设计选择简化了学习过程，并增强了处理不同长度语音输入时的泛化性能。随后，音频嵌入被馈送到一个投影模块，以在语言模型空间中进行提示嵌入。为实现这一点，我们通过领域适应微调输入投影层中的少量参数。

（2）Contrastive Audio-Visual Instruction Alignment

为了消除不必要的信息，如语音内容、环境噪音，并着重于提取与面部动作相关的特征，我们采用对比学习协议来约束学习查询的输出Fa si ∈ Rqa×l。对比学习范式将音频嵌入和指令特征进行对齐，以最大化它们的互信息。通过增强正对样本的音频-指令相似性来实现这一点，其优于负对样本的相似性。具体来说，我们将相应的指令通过文本转换器传入，并获得一个指令嵌入，如图3右侧所示。其[CLS]令牌的输出嵌入为Fi si∈Rl。由于有qa个查询嵌入，我们对所有查询的Fa si进行平均以获得 ? Fa si∈Rl，并按以下方式应用对比学习：

LLM指导3D说话面部生成！百度提出AVI-Talking！

配对的批内样本被视为正样本(? Fa si,Fi si)，而不配对的N–样本被视为负样本(? Fa si,Fi– si(j))。在这里，我们选择余弦距离D(F1,F2)= FT 1*F2 |F1|·|F2| 作为特征距离度量。

（3）Instruction Generation via Projection Layer Finetuning

在将Q-Former预先训练以对齐声学特征与视觉面部描述之后。随后，我们冻结Q-Former，并微调 LLaMA-7b的输入线性投影层，以实现视觉指导预测。具体来说，我们遵循一般文本生成训练范式来学习这个投影层。

Instruction-Following Talking Face Synthesis

通过获得的面部指令，一个语音合成网络旨在使用同步唇部动作和表情来激活一个网格模板。唇部运动和面部表情表现出很高的相关性。例如，特定的发音通常传达相关的情感。为了解决这种相关性和潜在的交织，我们首先提出训练一个解耦的语音先验，其中区分了语音内容空间和与内容无关的空间。随后，提出了扩散先验模块），以在识别的内容无关空间内弥合指令文本和语音风格之间的差距。

LLM指导3D说话面部生成！百度提出AVI-Talking！

（1）Disentangled Expressive Motion Prior

我们旨在建立一个解耦的潜空间，其中与语音内容相关的唇部运动和与说话状态相关的面部表情在“语音内容”空间和“内容无关”空间中分别被明显表示。

具体来说，在语音内容空间中，我们使用预训练的ASR网络，Wav2Vec2.0对说话者音频A1:Ta 进行编码。这些提取的语音特征捕获了语义内容信息，随后被口型生成器用于音节发音。为了编码额外的说话风格信息，我们指出存在着用于表示内容排斥信息的“内容无关”空间，例如说话风格、姿势和说话者身份。

为了学习“内容无关”空间，我们采用了基于transformer的风格编码器[33]，旨在捕获内容排斥信息。对于给定的说话视频，我们随机选择 S个参考帧作为说话状态的源。然后，这些帧经过FLAME模型处理，得到系数S s=1，其中在时刻t的系数被排除。随后，这些系数被馈送到风格编码器中，以提取视频的全面说话状态表示。为了成功预测当前时刻的系数，我们依赖于 “语音内容”空间中的语音特征At和“内容无关” 空间中提取的风格信息。这些属性的互补性自然有助于学习解耦的空间。

（2）Contrastive Instruction-Style Alignmentand Diffusion

LLM指导3D说话面部生成！百度提出AVI-Talking！

一旦确定了内容无关空间，跨模态生成的自然方式是将视觉指导映射到此空间内的表示[32]。如图5所示，首先衍生出一个多层感知器（MLP）网络，以便将潜在指导表示与风格嵌入进行对齐。采用了典型的对比损失Li2s cont，遵循标准的CLIP训练过程[43]，我们在此不进行详述。然而，由于这种多模态对比学习策略仅推动指导嵌入与其关联的风格图像特征保持紧密方向，由于存在模态差距的存在，容易导致不连续的嵌入[29]。为了进一步激活期望视觉风格嵌入的运动先验，我们引入一个扩散先验网络来通过映射到它们的分布来弥合模态差距。

对于扩散先验网络Fθ，我们利用典型的仅解码器Transformers架构来迭代地预测以上表示c为条件的去噪风格嵌入zt。与施加错误预测公式不同[17]，我们直接训练网络从在时间步长t采样的带噪音的嵌入zt，预测无噪音的风格嵌入z。形式上说， LLM指导3D说话面部生成！百度提出AVI-Talking！

我们应用朴素均方误差（MSE）来评估预测结果。

因此，视觉指导语音风格生成的总体学习目标可以表述为：

LLM指导3D说话面部生成！百度提出AVI-Talking！

实验与结果

我们在MeadText 数据集上训练了音视频指导模块和说话人脸指导网络。评估在RAVEDESS 和 MeadText 的测试集上进行。由于这两个数据集均由RGB视频组成，我们通过Emoca获得重建结果，并渲染面部网格作为GT视频进行对比。

我们将我们的方法与支持语音条件3D说话面部生成的最先进基于模板的模型进行比较，包括MeshTalk， FaceFormer， CodeTalker和EmoTalk。

对MeadText和RAVEDESS的定量结果

LLM指导3D说话面部生成！百度提出AVI-Talking！

定性结果 LLM指导3D说话面部生成！百度提出AVI-Talking！

关于口型合成，我们的研究报告了 MeadText和RAVEDESS的定量结果。值得注意的是，我们的方法在这两个数据集上的大多数指标表现出色。然而，与其他方法相比，我们的方法在口型同步性能方面可能表现较弱，特别是在 LSE-D方面。我们将这种差异部分归因于SyncNet 对中性表情的强烈偏好，它是在主要由无表情视频预训练的。与这些方法不同，我们的合成结果包含表情丰富的面部细节，这可能导致较低的评分。此外，我们的方法实现了与这两个数据集上的真实视频接近的LSE-D得分，表明我们可以稳健地生成精确的口型同步视频。