NVIDIA提出多模态大模型Omni-RGPT！Token Mark实现区域级理解！

为了实现图像中的交互式区域特定理解，最近的方法采用了各种策略来表示目标区域：在文本标记中编码文本框坐标，利用视觉 RoI 特征，或应用视觉标记。将这些能力扩展到视频领域，一些方法将初始帧的边界框坐标作为文本形式用于区域级视频理解任务。然而，一种能够有效解决图像和视频中区域特定任务的通用方法仍然是一个开放的挑战。

数源AI 最新论文解读系列

NVIDIA提出多模态大模型Omni-RGPT！Token Mark实现区域级理解！

论文名：Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

论文链接：https://arxiv.org/pdf/2501.08326

开源代码：https://miranheo.github.io/omni-rgpt

导读

多模态大型语言模型（MLLMs）已经发展到能够解释视觉元素，从用于整体图像理解的文本提示发展到用于区域级理解的复杂方法。为了实现图像中的交互式区域特定理解，最近的方法采用了各种策略来表示目标区域：在文本标记中编码文本框坐标，利用视觉 RoI 特征，或应用视觉标记。将这些能力扩展到视频领域，一些方法将初始帧的边界框坐标作为文本形式用于区域级视频理解任务。然而，一种能够有效解决图像和视频中区域特定任务的通用方法仍然是一个开放的挑战。

简介

我们提出了 Omni-RGPT，一种多模态大型语言模型，旨在促进图像和视频的区域级理解。为了实现跨时空维度的一致区域表示，我们引入了 Token Mark，这是一组在视觉特征空间中突出显示目标区域的标记。这些标记通过区域提示（例如，框或掩码）直接嵌入到空间区域中，并同时纳入文本提示中以指定目标，从而在视觉和文本标记之间建立直接连接。为了进一步支持无需轨迹的稳健视频理解，我们引入了一个辅助任务，通过利用标记的一致性来指导 Token Mark，从而实现跨视频的稳定区域解释。此外，我们引入了一个大规模的区域级视频指令数据集（RegVID-300k）。Omni-RGPT 在基于图像和视频的常识推理基准测试中取得了最先进的结果，同时在字幕生成和指代表达理解任务中表现出色。

方法与模型

我们在图3中可视化了我们的架构。我们基于LLaVA [37] 的核心设计，其中输入图像或视频（对于图像为）由视觉编码器处理，生成视觉特征。通过投影层，这些视觉特征被投影为视觉标记，其中是大型语言模型的输入维度。然后，视觉标记由大型语言模型处理，跨文本和视觉模态进行推理。

我们的目标是通过引入输入区域提示来使模型能够理解特定的视觉元素，以响应输入文本提示，其中每个定义一个目标区域（例如，边界框或掩码）。这些区域提示对应于文本提示中的特殊标记作为占位符，用于识别和推断跨时空维度的指定区域。

在高层次上，我们有一组标记（Token Mark），可以将其视为调色板上的不同颜色。我们随机选择一种颜色来表示区域提示指定的每个目标。在图3（a）中，选择了两个标记分别表示“人”和“考拉”。然后将这种颜色应用于视觉和文本标记提示。对于视觉标记，我们创建一个空白画布，并将所选颜色应用于指定区域，将此彩色画布叠加到视觉标记上。对于文本标记，我们用分配的标记替换目标占位符（例如，）。通过这个过程，模型通过内化预定义的调色板来学习在训练期间“看哪里”。在第3.1节中，我们提供了Token Mark的具体公式，并在第3.2节中介绍了专门为视频输入设计的辅助头（图3（b））。

1. Token Mark

我们将Token Mark定义为一组标记，其中是标记的总数，表示特征维度。为了使用Token Mark表示一个区域，我们从中均匀采样个索引而不替换，得到标记集。然后，每个采样的标记与相应的区域提示一一匹配，使得第个Token Mark与第个区域提示对齐。这些标记作为时空区域指示器，并注入到与相关视觉内容相关的语言侧输入中。具体来说，我们使用线性层将Token Mark直接投影到词嵌入空间：。

为了将采样的Token Mark 与其对应的区域关联起来，我们将标记嵌入到由区域提示定义的相关像素中。具体来说，每个像素位置 (h,w) 的空间Token Mark 计算如下：

其中是一个小的正常数，用于防止在位置 (h,w) 没有激活掩码时除以零。

接下来，我们通过应用自适应平均池化将下采样以匹配视觉标记的形状，从而得到更新的空间Token Mark 。然后，我们使用共享投影层将其投影到与相同的特征空间，得到。最后，我们将空间区域特定信息集成到视觉标记中：。

所提出的方法提供了几个关键优势。i) 防止时间漂移：通过将目标区域编码为跨帧共享的唯一表示，我们的方法确保了视频序列中区域分配的一致性。这种一致性将我们的方法与基于RoI的方法区分开来，后者中目标对象的表示通常在不同帧之间变化。ii) 直接区域-语言连接：将Token Mark直接投影到词嵌入空间中，能够高效地建模区域-语言关系。与依赖每个区域的文本描述的方法不同，我们的方法无需为区域提供额外的文本输入，即可实现无缝的用户交互。iii) 保持视觉-语言全局对齐：通过将区域信息作为残差特征纳入，我们的架构保留了与基础图像-文本对多模态框架（例如LLaVA）的对齐。在没有区域提示的情况下，模型的功能与基础架构完全相同。

2. 时间区域引导头

对于视频输入，在训练期间引入了一个辅助头（图3(b)），以增强跨帧的区域一致性，确保即使仅在第一帧提供区域提示时，也能准确表示区域。该辅助头对每个视觉标记的相应Token Mark进行分类，隐式地引导模型理解目标区域，而无需依赖来自轨迹的显式视频对象对应关系。

设表示第帧的视觉标记，形成整个视频的视觉标记序列，记为，其中包含目标区域信息。然后，语言模型处理序列，旨在为整个视频序列生成区域感知的预测。

辅助分类头执行如下操作：

其中是分类类别（ Token Mark和背景）。

由于视觉标记是从原始输入分辨率下采样的，单个视觉标记内可能存在多个标记标记。为了解决这个问题，我们应用软标签分类，为每个标记分配一个在类别上的软标签分布，以反映每个标记属于多个区域或背景的比例。

损失函数。最终损失定义为

，其中平衡了辅助分类损失的贡献。语言模型损失计算为预测标记与真实标记之间的交叉熵损失。同时，辅助分类损失定义为每个视觉标记的预测软标签分布与真实软标签分布之间的交叉熵损失。该区域引导头仅在训练期间使用，在推理过程中不会引入额外的延迟。

3. 区域级视频指令数据集

概述。由于目前没有现成的区域级视频指令数据集，我们提出了 RegVID-300k 来增强多模态大语言模型的对话能力，并获取关于视频中区域的准确响应（图 4）。受 GPT4V 辅助的详细字幕和字幕引导的指令数据集的启发，我们的方法包括三个步骤：i) GPT4o 辅助的区域级详细字幕生成，ii) 视觉幻觉缓解，以及 iii) 字幕引导的区域级指令样本生成。详细信息（例如，完整的视频来源和 GPT4o 文本提示）见补充材料。

关键特征。我们的数据集统计数据以及与现有区域级视频字幕 [33, 56, 62, 63, 88] 和常见视频指令数据集的比较总结在表 1 中。例如，尽管 Elysium [63] 包含视频，但区域字幕仅为单个或少数单词（例如，名词、短语），并且视频仅从 WebVid [2] 收集。我们数据集的关键特征是：i) 大规模：我们的数据集由个独特视频、214k 个轨迹或掩码轨迹以及 294k 条指令组成，例如区域级详细字幕、对话；ii) 多样化：视频从用于不同任务的 10 个公共数据集中收集；iii) 细粒度问答：每个区域用大约 60 个词描述，包括区域的上下文和时间信息，从而生成多样化的指令样本；iv) 高保真度：详细字幕中的视觉幻觉得到了缓解。

数据收集。视频从 10 个公共数据集中收集，这些数据集包含带注释的区域（例如，掩码轨迹、轨迹或单帧边界框）以及名词。

（1）GPT4o 辅助的区域级字幕

从配对的视频和区域掩码中，我们采用了 SoM [75] 的视觉提示技术，将对象掩码与区域索引叠加在视频每一帧的每个掩码中心。然后，我们将经过 SoM 处理的视频输入到 GPT4o [47]，要求通过文本提示中的名词包含每个掩码的上下文和时间信息来生成丰富的描述，例如“生成 [0]: 猫, [1]: 猫, [2]: 手的详细描述”。

（2）视觉幻觉缓解

我们缓解生成描述中的视觉幻觉以提高保真度。尽管 GPT4o 生成的区域级描述包含细粒度信息，但合成生成的详细描述包含视觉幻觉 [21, 22]，缓解这些幻觉对于生成高保真度的指令样本至关重要。

对于仅包含轨迹或单个边界框的数据集，我们应用 SAM [24] 或 SAM2 [52] 来生成掩码。

受 VFC [17] 启发，我们使用大型语言模型和多模态大型语言模型进行多阶段视觉幻觉缓解。首先，我们将详细的区域级描述分解为多个封闭式问题，使用大型语言模型询问描述中的内容。然后，我们将这些问题与视频一起输入多模态大型语言模型，以验证内容是否正确。在第三阶段，我们收集上一步未验证的问题，并要求大型语言模型删除原始描述中未验证的内容并重新生成它们。

（3）GPT 辅助的区域级指令数据

在最后一步中，基于描述引导的指令调优数据构建的概念 [37, 41, 42, 92]，我们进一步处理描述以生成区域级视频指令。我们利用纯文本 GPT4 [46] 从详细描述中创建特定区域的问题-答案对，涵盖描述的各个方面。样本包括特定区域的详细描述、摘要和一般问答。我们提供了一些上下文示例以提高样本生成的质量。生成的指令涵盖了上下文（例如颜色、空间位置）和时间方面（例如运动、动作）。

实验与结果

5.1. 实现细节

我们利用 VILA 框架 [36]，将 Llama-2 [59] 作为语言模型，CLIP-ViT-L [50] 作为视觉编码器，并使用两层 MLP 作为投影层。对于 Token Mark 生成，我们将 Token Mark 的数量设置为 100，并使用单个线性层作为投影层。输入图像的大小调整为。为了将空间 Token Mark 嵌入到与图像 token 相同的分辨率，我们应用了窗口大小为 24 的自适应平均池化。此外，辅助分类器使用单个线性层，系数设置为 0.05。对于视频数据，我们均匀采样四帧。图像预训练。我们采用了 RegionGPT [19] 的预训练方案，该方案结合了全局图像-文本配对数据集和图像区域数据集。

联合微调。在微调过程中，我们采用了联合图像-视频训练策略。我们包含了图像-文本配对数据集 [10, 37] 和图像区域级数据集 [19]。此外，我们还引入了视觉常识推理 (VCR) [83]，它通过多项选择题 (QA) 格式结合了对复杂场景的识别和认知层面的理解。

对于区域级视频数据集，我们重新制定了来自公开数据集的注释，包括 Vid-STG [88]、Causal-VidQA [29] 和 ReVOS [74]。我们使用与 Vid-STG 和 ReVOS 中的区域配对的字幕来创建区域级视频字幕和 Referring Expression Comprehension (REC) 风格的提示。我们的 RegVID- 也被包含在内，以增强模型生成丰富、详细对象字幕的能力。在此阶段，我们训练模型一个 epoch，仅冻结视觉编码器，同时允许更新所有其他参数。

5.2. 定量评估

我们报告了我们的方法在图像和视频领域的性能。除非另有说明，所有结果均使用语言模型和联合图像-视频训练的权重进行评估。

区域级视频问答。在表 2 中，我们展示了在 Causal-VidQA [29] 基准上的表现，该基准旨在评估视频问答，重点关注跨时间和空间维度的因果推理。Causal-VidQA 包含与问题配对的视频片段，这些问题评估模型解释事件、交互和对象关系的能力，不仅需要帧级识别，还需要跨序列的时间推理。

我们的方法在所有子任务中均以显著优势实现了最先进的性能，展示了强大的区域级视频推理能力。特别是在预测（P）任务中，我们的方法取得了显著的性能优势，强调了先进的时间推理能力。此外，我们在“AR”准确性方面观察到了显著的改进，这需要对答案和原因选择进行准确的推理，强调了其连贯地证明其选择的能力。与依赖于每帧的帧级提议和迭代场景图编码过程的 MotionEpic [15] 相比，我们的方法在不需完整轨迹输入或复杂关系编码模块的情况下实现了强大的性能。值得注意的是，我们没有使用区域的类别作为输入，进一步强调了 - 矩形区域-语言连接的有效性。

区域级视频字幕生成。我们在表 3 中评估了区域级视频字幕生成能力。为了进行比较，我们包括了基于图像的多模态大语言模型 [5, 19, 27, 41] 的零样本性能，仅使用第一帧作为输入。由于公共基准（Vid-STG [88] 和 Elysium [63]）提供的描述简短且时间上下文有限（见表 1），我们使用 GPT-4o [47] 在 Elysium 上生成了详细的区域级字幕（扩展版 Elysium）。此外，为了评估零样本字幕生成性能，我们使用了 BenSMOT 数据集 [33]，该数据集包含相对详细的区域级视频字幕（40 个词）。我们的方法在除 Elysium 之外的数据集上表现出色。我们将此归因于 Elysium 字幕的性质，这些字幕通常是简短的名词，不包含与运动相关的信息，因此更倾向于微调 [63] 或专门针对图像的方法 [5, 19, 27, 41]。

区域级图像问答。我们在视觉常识推理（VCR）[83] 验证集上报告了我们模型的性能（表 4）。VCR 旨在评估模型在视觉上下文中的常识推理能力，每个样本由问题（Q）和答案（A）及理由（R）的多项选择选项组成。每个问题要求模型选择正确答案并提供支持该答案的理由。遵循 GPT4RoI [85] 和 ViP-LLaVA [5] 的协议，模型在 VCR 上进行了微调。

我们的方法在所有指标上均达到了最先进的性能，优于专门为基于图像的任务设计的方法。这突显了我们的方法在使用统一架构的图像和视频上下文中的有效性。此外，提出的 Token Mark 促进了文本提示与视觉上下文之间的强大区域级连接，使得能够对复杂的多区域关系进行推理。

区域级图像描述。我们在 RefCOCOg [80] 和 Visual Genome [25] 上评估了我们的区域级图像描述性能（表 5）。遵循先前的工作，我们报告了 METEOR [3] 和 CIDEr [60] 分数来衡量描述质量。请注意，Groma [41] 报告了 Visual Genome 验证集子集的结果；因此，我们在完整集上重新评估了结果，以确保与先前研究的一致性。在两个数据集上，我们的方法达到了与专门为图像领域设计的方法相当的分数，证明了其在区域级描述中的有效性。

图像 REC。为了评估区域级自然语言指代能力，我们采用了 RegionGPT [19] 的 REC 评估协议。为了进行具体比较，我们使用相同的区域提议 [19] 评估了 GPT4o [47]、Groma [41] 和我们的方法。如表 6 所示，我们的方法以显著优势取得了强劲的性能。结果表明，我们的方法通过将 Token Mark 直接投影到视觉特征中以指示区域，建立了强大而精确的区域-语言连接。

5.3. 可视化分析

在图5中，我们分析了时间区域引导头在图1所示的示例上，该示例来源于[44]。第一行显示了输入视频帧，区域提示和相应的数字叠加在初始帧上以供参考。然后，我们在第一帧中为每个区域提示（鹿和手）分配随机采样的标记。在第二和第三行中，我们将区域引导头分配的标记的输出概率可视化为热图。在第一帧中，区域作为掩码输入，输出准确地预测了区域提示。在后续帧中，即使没有区域提示，模型通过利用帧间的视觉相关性，成功预测了相应的区域。

总结

我们提出了 Omni-RGPT，这是一种具有区域特定理解能力的多模态大语言模型，适用于图像和视频。其主要思想是使用 Token Mark，这是一组在区域级别连接语言和时空视觉标记的标记。为了在视频中实现稳健的区域理解，我们引入了一个专门为视频输入设计的辅助任务。为了进一步增强视频中的详细区域描述能力，我们引入了 RegVID-300k，这是一个在公开来源视频上使用 GPT-4o 重新注释的新数据集。凭借其直观的设计，Omni-RGPT 在基于图像的视觉常识推理基准（VCR）和基于视频的因果视频问答（Causal-VidQA）任务中超越了现有方法。此外，它在多样化的区域级别理解任务中表现出色，包括字幕生成和指代表达理解。