全景有什么特征（全景分割（Panoptic Segmentation）（CVPR 2019））

时间2025-07-30 22:34:14分类IT科技浏览6242

导读：声明：此翻译仅为个人学习记录...

声明：此翻译仅为个人学习记录

文章信息

标题：Panoptic Segmentation (CVPR 2019) 作者：Alexander Kirillov 、Kaiming He 、Ross Girshick、Carsten Rother 、Piotr Dollár 文章链接：https://arxiv.org/pdf/1801.00868.pdf

摘要

我们提出并研究了一个称为全景分割（PS）的任务。全景分割统一了语义分割（为每个像素分配类标签）和实例分割（检测和分割每个对象实例）的典型不同任务。提出的任务需要生成丰富和完整的相干场景分割，这是迈向真实世界视觉系统的重要一步。虽然计算机视觉的早期工作涉及相关的图像/场景解析任务，但这些任务目前并不流行，可能是由于缺乏适当的度量或相关的识别挑战。为了解决这个问题，我们提出了一种新的全景质量（PQ）度量，它以可解释和统一的方式捕获所有类（stuff和things）的性能。使用提出的度量，我们在三个现有数据集上对PS的人和机器性能进行了严格研究，揭示了关于任务的有趣见解。我们工作的目的是在更统一的图像分割视图中恢复社区的兴趣。有关更多分析和最新结果，请查看本文的arXiv版本：https://arxiv.org/abs/1801.00868

1. 导言

在计算机视觉的早期，things（事物）——人、动物、工具等可数物体——受到了主要的关注。Adelson[1]质疑这一趋势是否明智，并强调了研究识别stuff（物体）——具有类似纹理或材料的无定形区域，如草地、天空和道路——的系统的重要性。stuff和things之间的这种二分法一直持续到今天，这反映在视觉识别任务的划分以及为stuff和thing任务开发的专门算法中。

研究stuff通常被描述为一项称为语义分割的任务，见图1b 。由于stuff是无定形且不可数的，所以这个任务被定义为简单地为图像中的每个像素分配一个类标签（请注意，语义分割将thing类视为stuff）。相反，研究things通常被表述为目标检测或实例分割的任务，其目标是检测每个目标，并分别用边界框或分割掩码对其进行描绘，见图1c。这两个视觉识别任务的数据集、细节和度量虽然看似相关，但差异很大。

语义和实例分割之间的分裂导致了这些任务的方法上的平行裂痕。stuff分类器通常建立在具有扩张[51 ，5]的完全卷积网络[30]上，而目标检测器通常使用目标提议[15] ，并且基于区域[37 ，14]。在过去十年中，这些任务的整体算法进展令人难以置信，然而，孤立地关注这些任务可能会忽略一些重要的事情。

一个自然而然的问题出现了：stuff和things之间是否能够调和？生成丰富和连贯的场景分割的统一视觉系统的最有效设计是什么？考虑到这些问题在现实应用中的相关性，如自动驾驶或增强现实，这些问题尤为重要。

图1：对于给定的（a）图像，我们展示了真值：（b）语义分割（每像素类标签），（c）实例分割（每对象掩码和类标签），以及（d）提出的全景分割任务（每像素类别+实例标签）。PS任务：（1）包含stuff和thing类，（2）使用简单但通用的格式，以及（3）为所有类引入统一的评估度量。全景分割概括了语义和实例分割，我们预计统一任务将带来新的挑战，并支持创新的新方法。

有趣的是，虽然语义和实例分割主导了当前的工作，但在前深度学习时代，人们对使用各种名称描述的联合任务感兴趣，如场景解析[42] 、图像解析[43]或整体场景理解[50] 。尽管这一总体方向具有实际意义，但目前并不流行，可能是由于缺乏适当的度量或识别挑战。

在我们的工作中，我们的目标是恢复这一方向。我们提出了一个任务：（1）包含stuff和thing类，（2）使用简单但通用的输出格式，以及（3）引入统一的评估度量。为了清楚地消除先前工作的歧义，我们将生成的任务称为全景分割（PS）。“全景 ”的定义是“包括在一个视图中可见的一切 ” ，在我们的上下文中，“全景 ”指的是一个统一的全局分割视图。

我们用于全景分割的任务格式很简单：必须为图像的每个像素分配语义标签和实例id 。具有相同标签和id的像素属于同一对象；对于stuff标签，实例id将被忽略。如图1d所示。这种格式以前已经被采用，特别是通过产生非重叠实例分割的方法[18 、28 、2] 。我们把它用于我们的联合任务，包括stuff和things。

全景分割的一个基本方面是用于评估的任务度量。虽然许多现有的度量对于语义或实例分割都很流行，但这些度量最适合分别用于stuff或things ，而不是两者。我们认为，不相交度量的使用是社区通常孤立地研究stuff和thing分割的主要原因之一。为了解决这一问题，我们在§4中引入了全景质量（PQ）度量。PQ简单且信息丰富，最重要的是，可用于以统一的方式测量stuff和things的性能。我们希望，拟议的联合指标将有助于更广泛地采用联合任务。

全景分割任务包括语义和实例分割，但引入了新的算法挑战。与语义分割不同，它需要区分单个目标实例；这对完全卷积网络提出了挑战。与实例分割不同，对象分割必须不重叠；这对独立操作每个目标的基于区域的方法提出了挑战。生成相干图像分割来解决stuff和things之间的不一致性，这是走向现实世界的重要一步。

由于PS的真值和算法格式必须采用相同的形式，我们可以对全景分割中的人类一致性进行详细研究。这使我们能够更详细地理解PQ度量，包括识别与分割以及stuff与things性能的详细分类。此外，测量人体PQ有助于我们理解机器性能。这很重要，因为它将允许我们监控PS的各种数据集的性能饱和。

最后，我们对PS的机器性能进行了初步研究。为此，我们定义了一个简单且可能是次优的启发式算法，该算法通过一系列后处理步骤将两个独立系统的输出合并起来，用于语义和实例分割（本质上是一种复杂的非最大抑制形式）。我们的启发式方法为PS建立了一个基线，并为我们提供了对其提出的主要算法挑战的洞察。

我们在三个流行的分割数据集上研究了人和机器的性能，这三个数据集都有stuff与things注释。这包括Cityscapes [6] 、ADE20k[54]和Mapillary Vistas [35]数据集。对于每个数据集，我们直接从挑战组织者处获得了最先进方法的结果。在未来，我们将把我们的分析扩展到COCO[25] ，在COCO[25]上对stuff进行注释[4] 。我们在这些数据集上的结果为研究全景分割的人和机器性能奠定了坚实的基础。

COCO[25]和Mapillary Vistas[35]都将全景分割任务作为2018年ECCV识别挑战中的一个轨道。我们希望，在这些流行的识别数据集上，将PS与实例和语义分割轨道放在一起，将有助于更广泛地采用拟议的联合任务。

2. 相关工作

在计算机视觉的整个历史中，新的数据集和任务扮演了关键角色。它们有助于促进我们领域的进步和实现突破，同样重要的是，它们有助我们衡量和认识我们社区正在取得的进展。例如，ImageNet[38]有助于推动视觉识别深度学习技术的最近普及[20] ，并举例说明了数据集和任务可能具有的潜在转换能力。我们引入全景分割任务的目标类似：挑战我们的社区，推动新方向的研究，并实现预期和意外的创新。接下来我们将回顾相关任务。

目标检测任务 。早期使用ad-hoc数据集进行人脸检测的工作（例如[44 ，46]）有助于推广边界框目标检测。后来，pedestrian detection数据集[8]帮助推动了该领域的进展。PASCAL VOC数据集[9]将任务升级为一组更具挑战性的图像上的更多样的通用目标类。最近，COCO数据集[25]将检测推向了实例分割的任务。通过构建这项任务并提供高质量数据集，COCO帮助定义了一个新的、令人兴奋的研究方向，并在实例分割方面取得了许多近期突破[36 、24 、14] 。我们的全景分割的一般目标是相似的。

语义分割任务 。语义分割数据集具有丰富的历史[39 ，26 ，9]，并有助于推动关键创新（例如，使用[26 ，9]开发了完全卷积网络[30]）。这些数据集包含stuff和thing类，但不区分单个目标实例。最近，该领域出现了许多新的分割数据集，包括Cityscapes [6]、ADE20k[54]和Mapillary Vistas [35] 。这些数据集实际上支持语义和实例分割，并且每个数据集都选择为这两个任务提供单独的跟踪。重要的是，它们包含PS所需的所有信息。换句话说，全景分割任务可以在这些数据集上引导，而无需任何新的数据收集。

多任务学习 。随着深度学习在许多视觉识别任务中的成功，人们对多任务学习方法产生了浓厚的兴趣，这些方法具有广泛的能力，可以在单个框架中解决多个不同的视觉问题[19 、32 、34]。例如，UberNet[19]使用单个网络解决多个低到高级别的视觉任务，包括目标检测和语义分割。虽然在这一领域有很大的兴趣，但我们强调全景分割不是一个多任务问题，而是图像分割的一个单一、统一的视图。具体而言，多任务设置允许独立且可能不一致的stuff和things输出，而PS需要单个相干场景分割。

联合分割任务 。在前深度学习时代，人们对生成连贯的场景解释产生了浓厚的兴趣。图像解析方面的开创性工作[43]提出了一个通用贝叶斯框架，用于联合建模分割、检测和识别。后来，基于图形模型的方法研究了一致的stuff和thing分割[50 、41 、42 、40] 。虽然这些方法有一个共同的动机，但没有商定的任务定义，使用了不同的输出格式和不同的评估指标，包括用于评估stuff和thing类结果的单独指标。近年来，这一方向变得不那么受欢迎，可能是因为这些原因。

在我们的工作中，我们的目标是恢复这一总体方向，但与之前的工作不同，我们专注于任务本身。具体来说，如前所述，PS：（1）同时处理stuff和thing类，（2）使用简单格式，以及（3）为stuff与thing引入统一度量。以前关于联合分割的工作使用不同的格式和不相交的度量来评估stuff和things 。生成非重叠实例分割的方法[18 、3 、28 、2]使用与PS相同的格式，但这些方法通常只处理thing类。通过使用简单的格式处理stuff和things，并引入统一的度量标准，我们希望鼓励更广泛地采用联合任务。

3. 全景分割格式

任务格式 。全景分割的格式易于定义。给定由

L个语义类的预定集合编码为

{

…

−

}

\mathcal L:=\{0,…,L-1\}

L:={0,…,L−1} ，该任务需要全景分割算法将图像的每个像素

i映射到一对

(

)

∈

(l_i,z_i )∈L×N

(li,zi)∈L×N ，其中

l_i

li表示像素i的语义类，

z_i

zi表示其实例id 。

z_i

zi将同一类的像素分组为不同的片段。真值注释编码相同。模糊或类外像素可以被分配特殊的空标签；即，并非所有像素都必须具有语义标签。

stuff和thing标签 。语义标签集由子集

\mathcal L^{S_t }

LSt和

\mathcal L^{T_h }

LTh组成，使得

∪

\mathcal L=\mathcal L^{S_t } \cup \mathcal L^{T_h }

L=LSt∪LTh和

∩

∅

\mathcal L^{S_t } \cap \mathcal L^{T_h }=∅

LSt∩LTh=∅ 。这些子集分别对应于stuff与thing标签。当像素被标记为

∈

l_i∈\mathcal L^{S_t }

li∈LSt时，其对应的实例id

z_i

zi是无关的。也就是说，对于stuff类，所有像素都属于同一实例（例如，同一天空）。否则，具有相同

(

)

(l_i,z_i )

(li,zi)赋值的所有像素，其中

∈

l_i∈\mathcal L^{T_h }

li∈LTh，属于同一实例（例如，同一辆车），相反，属于单个实例的所有像素必须具有相同的

(

)

(l_i,z_i )

(li,zi) 。与以前的数据集一样，选择哪些类是stuff和things是留给数据集创建者的设计选择。

与语义分割的关系 。PS任务格式是语义分割格式的严格概括。事实上，这两项任务都需要为图像中的每个像素分配一个语义标签。如果真值没有指定实例，或者所有类都是stuff ，那么任务格式是相同的（尽管任务度量不同）。此外，包含thing类，其每个图像可能有多个实例，可以区分任务。

与实例分割的关系 。实例分割任务需要一种方法来分割图像中的每个目标实例。然而，它允许重叠片段，而全景分割任务只允许为每个像素分配一个语义标签和一个实例id。因此，对于PS ，通过构造不可能出现重叠。在下一节中，我们将说明这种差异在性能评估中起着重要作用。

置信度得分 。与语义分割类似，但与实例分割不同，我们不需要与PS的每个片段相关的置信度分数。这使得全景任务相对于人和机器对称：两者必须生成相同类型的图像注释。它还使得评估PS的人类一致性变得简单。这与实例分割形成对比，实例分割不容易进行此类研究，因为人类注释器不提供明确的置信度得分（尽管可以测量单个准确/召回点）。我们注意到，置信度得分为下游系统提供了更多的信息，这可能是有用的，因此在某些设置下，仍然需要PS算法生成置信度得分。

4. 全景分割度量

在本节中，我们将介绍一种新的全景分割度量。我们首先注意到，现有的度量是专门用于语义或实例分割的，不能用于评估同时涉及stuff和thing类的联合任务。以前关于联合分割的工作通过使用独立的度量（例如[50 ，41 ，42，40]）来评估stuff和thing的性能，从而回避了这个问题。然而，这给算法开发带来了挑战，使比较变得更加困难，并阻碍了交流。我们希望引入一个统一的stuff和things度量标准将鼓励对统一任务的研究。

在进一步讨论细节之前，我们首先确定PS的合适度量的以下需求：

完整性 。度量应该以统一的方式处理stuff和thing类，捕获任务的所有方面。

可解释性。我们寻求具有可识别意义的指标，以便于沟通和理解。

简单。此外，度量应该易于定义和实现。这提高了透明度并便于重新实现。与此相关的是，度量应该能够高效计算，以实现快速评估。

在这些原则的指导下，我们提出了一种新的全景质量（PQ）度量。PQ测量相对于真值的全景分割预测的质量。它包括两个步骤：（1）分片段匹配和（2）给定匹配的PQ计算。我们接下来描述每个步骤，然后返回到与现有度量的比较。

4.1 片段匹配

我们规定，只有当预测片段和真值片段的交并比（IoU）严格大于0.5时，它们才能匹配。这一要求与全景分割的非重叠特性一起给出了唯一的匹配：每个真值片段最多可以有一个预测片段匹配。

定理1. 给定图像的预测和真值全景分割，每个真值片段最多可以有一个对应的预测片段，IoU严格大于0.5 ，反之亦然。

证据设

g为真值片段，

p_1

p1和

p_2

p2为两个预测片段。根据定义，

∩

∅

p_1∩p_2=∅

p1∩p2=∅（它们不重叠）。自

∣

∩

∣

≥

∣

|p_i∩g|≥|g|

∣pi∩g∣≥∣g∣ ，我们得到以下结果：

(

)

∣

∩

∣

∪

∣

≤

∣

∩

∣

∈

IoU(p_i,g)=\frac{|p_i∩g|}{|p_i∪g|} ≤ \frac{|p_i∩g|}{|g|} \quad for \ \ i∈{1,2}

IoU(pi,g)=∣pi∪g∣∣pi∩g∣≤∣g∣∣pi∩g∣fori∈1,2

对

i求和，自

∣

∩

∣

∩

∣

≤

∣

|p_1∩g|+|p_2∩g|≤|g|

∣p1∩g∣+∣p2∩g∣≤∣g∣由于

∩

∅

p_1∩p_2=∅

p1∩p2=∅这个事实，我们可得到

(

)

(

)

≤

∣

∩

∣

∩

∣

≤

IoU(p_1,g)+IoU(p_2,g)≤\frac{|p_1∩g|+|p_2∩g|}{|g|} ≤1

IoU(p1,g)+IoU(p2,g)≤∣g∣∣p1∩g∣+∣p2∩g∣≤1

图2：真值和图像的预测全景分割的玩具插图。相同颜色的片段对的IoU大于0.5 ，因此匹配。我们展示了如何将person类的片段划分为真阳性TP 、假阴性FN和假阳性FP 。

因此，如果

(

)

≥

0.5

IoU(p_1,g)≥0.5

IoU(p1,g)≥0.5 ，则

(

)

IoU(p_2,g)

IoU(p2,g)必须小于0.5 。颠倒

p和

g的作用可以用来证明只有一个真值片段，其可以具有预测片段严格大于0.5的IoU 。

匹配必须具有IoU大于0.5的要求，这反过来产生了唯一匹配定理，实现了我们所需的两个属性。首先，它简单而有效，因为对应关系是唯一的，并且很容易获得。第二，它是可解释和易于理解的（并且不需要解决复杂的匹配问题，这通常是这些类型的度量[13 ，49]）。

注意，由于唯一性属性，对于IoU>0.5 ，任何合理的匹配策略（包括贪婪和最优）都将产生相同的匹配。对于较小的IoU，将需要其他匹配技术；然而，在实验中，我们将表明较低的阈值是不必要的，因为IoU≤ 0.5的匹配在实践中是罕见的。

4.2 PQ计算

我们独立计算每个类的PQ ，并在类上求平均值。这使得PQ对类不平衡不敏感。对于每个类别，唯一匹配将预测和真值片段分成三组：真阳性（TP）、假阳性（FP）和假阴性（FN），分别表示匹配的片段对、不匹配的预测片段和不匹配的真值片段。图2显示了一个示例。给定这三个集合，PQ定义为：

∑

(

)

∈

(

)

∣

PQ=\frac{∑_{(p,g)∈TP} IoU(p,g) }{|TP|+\frac{1}{2}|FP|+\frac{1}{2}|FN| }

PQ=∣TP∣+21∣FP∣+21∣FN∣∑(p,g)∈TPIoU(p,g)

检查后的

PQ直观：

∑

(

)

∈

(

)

∑_{(p,g)∈TP} IoU(p,g)

∑(p,g)∈TPIoU(p,g) 只是匹配片段的平均IoU ，而

∣