SAM+多模态大模型实现开集分割！清华联合美团提出LaSagnA！

最近进展使大型视觉语言模型 (Large Language Models for Vision，vLLMs) 能够生成详细的感知输出，包括边界框和掩码。然而，限制这些 vLLMs 进一步应用的两个约束是：每个查询无法处理多个目标，以及无法识别图像中查询对象不存在。

数源AI 最新论文解读系列

论文名：LaSagnA: Language-based Segmentation Assistant for Complex Queries

论文链接：https://arxiv.org/pdf/2404.08506.pdf

开源代码：https: //github.com/congvvc/LaSagnA

引言

在大型语言模型（LLMs）快速发展的推动下，用于视觉的 LLMs (vLLMs) 已经成为一项重大进步 [1-4]。通过引入视觉编码器和相应的模式适配器，可以将预训练的 LLM 转换为功能强大的 vLLM，能够根据输入图像生成文本响应。最近的研究 [5-8] 在基于指令和视觉语境生成详细的感知结果（例如边界框或掩码）方面取得了进一步进展。这些发展对于复杂的视觉理解、交互式实体化代理和本地化内容操作等高级应用至关重要。

简介

最近进展使大型视觉语言模型 (Large Language Models for Vision，vLLMs) 能够生成详细的感知输出，包括边界框和掩码。然而，限制这些 vLLMs 进一步应用的两个约束是：每个查询无法处理多个目标，以及无法识别图像中查询对象不存在。在本研究中，我们认识到这些问题的主要原因是训练查询的复杂性不足。因此，我们定义了复杂查询的一般序列格式。然后，我们在当前的管道中集成了一个语义分割任务，以满足训练数据的要求。此外，我们提出了三种新策略来有效处理直接集成所提出格式带来的挑战。通过在封闭集和开放集语义分割数据集上与传统方法获得的可比结果，验证了我们的模型在处理复杂查询方面的有效性。此外，我们在推理和指代分割方面超越了一系列 vLLMs，展示了我们的模型的出色能力。

方法与模型

在本节中，我们在 Sec. 3.1 中提供了基于 vLLM 的分段助手的概述。然后，我们在 Sec. 3.2 中检查以前方法中的局限性。接下来，我们重点讨论 Sec. 3.3 中的输入序列格式。最后，在 Sec. 3.4 中详细介绍了我们提出的训练策略的综合说明。

SAM+多模态大模型实现开集分割！清华联合美团提出LaSagnA！

概述LaSagnA

vLLM-based Segmentation Assistants

整体架构。由于本工作的主要重点不是网络架构的设计，我们根据 LISA[19] 构建了 LaSagnA ，如 Fig. 3 所示。vLLM（vision-language large model，视觉语言大模型）负责根据指令文本和输入图像生成文本响应。视觉编码器和解码器遵循标准 SAM[16] 架构，它以图像作为输入，并根据输入的提示生成掩码。在我们的案例中，提示是指来自 vLLM 的文本特征。

训练目标。由于所有任务都被建模为语言指令，因此可以使用统一的损失函数对模型进行多任务联合训练。我们采用自动回归跨熵损失用于下一个令牌预测、基于每个像素的二元交叉熵损失以及用于掩码监督的 DICE 损失。整体目标由这些损失的加权和构成，并由 λbce 和 λdice 校准：

SAM+多模态大模型实现开集分割！清华联合美团提出LaSagnA！

基于 vLLM 的分段助手的优点。与 UpperNet [45] 和 Mask2Former [8] 等传统分段方法相比，后者仅采用分类器进行分类，vLLM 能够理解抽象的自然语言指令。因此，vLLM 在一般的引用或推理分段任务中表现良好，因为它们能够解析查询句子的含义并相应地定位目标对象/类别。

Limitations of vLLM-based Assistants

我们认为当前视觉大语言模型（visual LLM, vLLM）的亚优表现可以归因于其训练过程中所隐含的强先验，其中所有训练查询仅由图像中已存在的单个目标组成。具体来说，训练分割数据集包括引用分割数据集（refCOCO 系列 [[52]]）、推理分割数据集 [[19]] 以及语义分割数据集（ADE20K [[58]] 和 COCO-stuff [[4]]）。前两个数据集专门用于在图像中查询单个目标，而语义数据集也以类似的方式被利用。随机选择一个现存类别来构建训练查询，并使用相应的二进制分割掩码作为地面真值来提供掩码损失监督。在这些设置下，期望模型能有效处理涉及多个目标和不存在类别的复杂查询是不合理的。

Learning with Complex Sequence

我们提出的序列格式:

复杂查询具有多个目标以及图像中不存在的类别的特征。为了满足这一要求，本能的解决方法是在训练查询中包含更多类别，并提示模型在响应中返回存在的类别。因此，我们可以定义以下模板：

USER: 你能否在这张图中划分出？助理：，...，

此处，表示图像补丁标记的占位符。表示数据集的类别列表。4是一个新引入的标记，用于根据 LISA 设计解码正类掩码。表示图像中存在的类别名称。”” 的组合数量与训练图像中存在的类别数量相匹配。

**结合语义分割任务**。然后，需要相关的训练数据来支持复杂查询。给定一个预定义的类别列表，典型的语义分割任务涉及识别图像中的类别及其相应的像素，这自然与我们对多个目标和不存在类别的需求相一致。因此，为了提高 vLLM 处理复杂查询的能力，我们选择将语义分割任务纳入训练范式和评估中。

**在语义分割数据集上训练的问题**。尽管当前用于 LaSagnA的训练管道可以将语义分割任务与拟议的序列构建框架无缝集成，但使用此格式直接训练模型会产生次优性能。如 Fig. 2 所示，这种意外结果源于三个主要问题：不完整的预测、过长的输入序列以及查询和响应之间的类别名称不一致。我们将详细讨论如下。

1）**不完整的预测**。在实践中，人们发现该模型经常无法预测所有类别，从而对其召回率产生重大影响。这种缺陷可归因于识别图像中某些类别的不确定性。此外，纳入不同长度的训练序列进一步增加了模型优化的复杂性。

2）**过长的输入序列**。输入序列的长度受到类别数量的强烈影响，因为我们在查询中包括了采样数据集的所有类别。更长的类别名称列表消耗更多的标记，从而限制了生成新标记的能力，并影响语义分割预测的召回率。此外，更长的训练序列需要更多的 GPU 内存并延长训练时间。事实上，许多类别在图像中不存在，因此没有必要包含过多的类别。

3）**不一致的类别名称**。该模型旨在根据查询中指定的目标列表生成预测。然而，在开放式分割场景中，我们观察到该模型经常产生训练数据中的类别名称，而不是指定的名称。

Training Recipe on Complex Queries

为了减轻上述问题，我们提出了一种训练方法，该方法通过提高语义分割数据集上的训练质量来显着提高分割性能。该方法包含以下三个策略：

序列增强 (Sequence Augmentation) 为了提高不完整预测影响的召回率，一种解决不完整预测的方法是人为降低采样 EOS 令牌的概率并扩展响应的长度。然而，该方法通常会导致嘈杂和重复的预测，并可能对其他任务产生副作用。为了克服这些挑战，我们通过纳入提供的类列表中的负面类来增强训练序列中的响应。响应中预测的类名与查询中的类名相匹配。模型预测查询中提到的所有类，用特殊令牌表示正预测，用表示负预测。这种修改提供了三个主要优势。首先，它鼓励生成包含更多类的更长序列。其次，它明确指示模型识别负面类。最后但同样重要的是，它将响应标准化为相对固定的长度，方便模型学习。

随机类列表 (Random Classes List) 为了解决序列过长的问题，我们建议对查询中的类列表进行随机采样。具体来说，我们从完整的类名称列表中随机选择若干目标，而不考虑它们是否包括图像中存在的所有对象。通过在训练过程中维护一个动态列表，我们的模型能够熟练地处理推理查询中指定的各种目标，从而实现开放世界分割。此外，这种方法方便了分块推理，其中可以将长度较长的目标列表划分为较小的查询，以并行执行。

目标顺序一致性 (Target Order Consistency) 为了增强查询和响应之间的类一致性，我们确保响应中目标类别的顺序与问题中的顺序一致。训练数据集中问题和答案之间的相似性鼓励模型生成更多依赖于查询上下文的响应。

根据上述策略，语义分割任务的最终输入格式如下：

USER: 你能分割图像中的吗？

助手：，， ...，，。

这里，表示样本类列表，它由训练数据中随机选择的类组成。新引入的令牌（token）用于解码正类掩码，而作为表示负类的令牌。和分别用于表示现有类和不存在类的名称。响应中的总类数对应于查询中列出的类。在我们的实现中，我们使用了上述格式构造了各种模板。我们使用的模板将在附录中进一步详细说明。

实验与结果

**架构。** LaSagnA 由一个视觉大型语言模型（vision Large Language Model, vLLM）和一个通用的分割模型组成。为了实现高效的训练，我们采用了一个预训练的 LLaVA-7B[29] 作为视觉大型语言模型。作为独立的分割模型，我们采用了 SAM[16]，并使用了 ViT-H 作为其骨干网络（backbone）。在训练阶段，我们采用 LoRA[13] 来对大型语言模型进行高效的微调。此外，我们还训练了 SAM 中的掩码解码器（mask decoder），同时冻结其他所有参数，以保持其原始能力。

在多个高阶理解任务上的定量结果（cIoU），包括三个传统的指代分割基准（refCOCO 系列）和 LISA[19] 提出的推理分割数据集。