Mask-RCNN论文 – chenpaopao

论文：http://cn.arxiv.org/pdf/1703.06870v3

代码：https://github.com/facebookresearch/maskrcnn-benchmark

Introduction

我们提出了一个简单、灵活、通用的实例分割框架，称为Mask R-CNN。我们的方法能够有效检测图像中的目标，同时为每个实例生成高质量的分割掩码。Mask R-CNN通过添加一个预测对象掩码的分支，与现有的边框识别分支并行，扩展了之前的Faster R-CNN。Mask R-CNN的训练很简单，只为Faster R-CNN增加了一小部分开销，运行速度为5帧/秒。此外，Mask R-CNN很容易泛化到其他任务，如人体姿态估计。我们展示了Mask R-CNN在COCO挑战赛的实例分割、目标检测和人物关键点检测任务上的最优结果。在不使用花哨技巧的情况下，Mask R-CNN在各项任务上都优于现有的单一模型，包括COCO 2016挑战赛的冠军。我们希望Mask R-CNN能够成为一个坚实的基线，并有助于简化未来实例识别的研究。

Fast/Faster R-CNN和Fully Convolutional Network(FCN)框架极大地推动了计算机视觉领域中目标检测和语义分割等方向的发展。这些方法的概念很直观，具有良好的灵活性和鲁棒性，并且能够快速训练和推理。我们这项工作的目标是为实例分割任务开发一个相对可行的框架。

实例分割具有一定的挑战性，因为它需要正确检测图像中的所有对象，同时还要精确分割每个实例。因此，它结合了目标检测和语义分割等计算机视觉任务中的元素。目标检测旨在对单个物体进行分类，并使用边框对每个物体进行定位。语义分割旨在将每个像素归类到一组固定的类别，而不区分对象实例。鉴于此，人们可能会认为需要一套复杂的方法才能获得良好的结果。然而，我们证明了一个令人惊讶的事实：简单、灵活、快速的系统也可以超越现有的最先进的实例分割模型。

我们的方法称为Mask R-CNN，通过在每个RoI(感兴趣区域，Region of Interest)上添加一个预测分割掩码的分支来扩展Faster R-CNN，并与现有的用于分类和边框回归的分支并行。掩码分支是应用于每个RoI的一个小FCN，以像素到像素的方式预测分割掩码，并且只会增加较小的计算开销。Mask R-CNN是基于Faster R-CNN框架而来的，易于实现和训练，有助于广泛、灵活的架构设计。

原则上，Mask R-CNN是Faster R-CNN的直观扩展，但正确构建掩码分支对于获得好的结果至关重要。最重要的是，Faster R-CNN的设计没有考虑网络输入和输出之间的像素到像素的对齐。这一点在RoIPool(处理实例的核心操作)如何执行粗空间量化来提取特征上表现得最为明显。为了修正错位，我们提出了一个简单的、没有量化的层，称为RoIAlign，它忠实地保留了精确的空间位置。尽管这看起来是一个很小的变化，但是RoIAlign有很大的影响：它将掩码精度提高了10%-50%，在更严格的localization指标下显示出更大的收益。其次，我们发现有必要将掩码和类别预测解耦：我们为每个类别独立预测一个二进制掩码，类别之间没有竞争，并依靠网络的RoI分类分支来预测类别。相比之下，FCN通常执行逐像素的多分类操作，将分割和分类耦合在一起，我们的实验结果表明这种方法的实例分割效果不佳。

在不使用花哨技巧的情况下，Mask R-CNN在COCO实例分割任务上就超越了之前的所有SOTA单模型，包括COCO 2016比赛的冠军。作为副产品，我们的方法在COCO目标检测任务上也表现出色。在消融实验中，我们评估了多个基本实例，这使我们能够证明Mask R-CNN的鲁棒性，并分析其核心因素的影响。

我们的模型可以在GPU上以每帧约200ms的速度运行，在一台8-GPU的机器上进行COCO训练需要1-2天。我们相信，快速的训练和测试，以及框架的灵活性和准确性，将有利于未来实例分割的研究。

最后，我们通过COCO关键点数据集上的人体姿态估计任务展示了Mask R-CNN框架的通用性。通过将每个关键点视为一个独热二进制掩码，只需对Mask R-CNN稍加修改，即可用于检测特定实例的姿态。Mask R-CNN超越了COCO 2016关键点检测比赛的冠军，并且能够以5帧/秒的速度运行。因此，Mask R-CNN可以被更广泛地视为一个实例识别的灵活框架，并且很容易泛化到其他更复杂的任务上。

模型方法

Mask R-CNN方法很简单：Faster R-CNN对每个候选对象有两个输出，一个是类别标签，另一个是边框偏移量。在此基础上，我们添加了第三个分支，用于输出分割掩码。因此，Mask R-CNN是一个自然且直观的想法。但是掩码输出不同于类别和边框输出，需要提取更精细的对象空间布局。接下来，我们介绍了Mask R-CNN的关键元素，包括像素到像素对齐，这是Fast/Faster R-CNN所缺失的部分。

RoIAlign：虚线网格表示特征映射图，实线边框表示RoI(Region of Interest)，点表示每个边框中的4个采样点。RoIAlign通过双线性插值从特征映射图上的相邻网格点计算每个采样点的值。

Network Architecture: 为了表述清晰，有两种分类方法

使用了不同的backbone：resnet-50，resnet-101，resnext-50，resnext-101；
使用了不同的head Architecture：Faster RCNN使用resnet50时，从Block 4导出特征供RPN使用，这种叫做ResNet-50-C4
作者使用除了使用上述这些结构外，还使用了一种更加高效的backbone：FPN（特征金字塔网络）

Mask R-CNN基本结构：与Faster RCNN采用了相同的two-state结构：首先是通过一阶段网络找出RPN，然后对RPN找到的每个RoI进行分类、定位、并找到binary mask。这与当时其他先找到mask然后在进行分类的网络是不同的。
Mask R-CNN的损失函数： $L = L{_{cls}} + L{_{box}} + L{_{mask}}$ （当然了，你可以在这里调权以实现更好的效果）
Mask的表现形式(Mask Representation)：因为没有采用全连接层并且使用了RoIAlign，我们最终是在一个小feature map上做分割。
RoIAlign：RoIPool的目的是为了从RPN网络确定的ROI中导出较小的特征图(a small feature map，eg 7×7)，ROI的大小各不相同，但是RoIPool后都变成了7×7大小。RPN网络会提出若干RoI的坐标以[x,y,w,h]表示，然后输入RoI Pooling，输出7×7大小的特征图供分类和定位使用。问题就出在RoI Pooling的输出大小是7×7上，如果RON网络输出的RoI大小是8*8的，那么无法保证输入像素和输出像素是一一对应，首先他们包含的信息量不同（有的是1对1，有的是1对2），其次他们的坐标无法和输入对应起来。这对分类没什么影响，但是对分割却影响很大。RoIAlign的输出坐标使用插值算法得到，不再是简单的量化；每个grid中的值也不再使用max，同样使用差值算法。

Implementation Details

使用Fast/Faster相同的超参数，同样适用于Mask RCNN

Training:

1、与之前相同，当IoU与Ground Truth的IoU大于0.5时才会被认为有效的RoI， $L{_{mask}}$ 只把有效RoI计算进去。

2、采用image-centric training，图像短边resize到800，每个GPU的mini-batch设置为2，每个图像生成N个RoI，在使用ResNet-50-C4 作为backbone时，N=64，在使用FPN作为backbone时，N=512。作者服务器中使用了8块GPU，所以总的minibatch是16，迭代了160k次，初始lr=0.02，在迭代到120k次时，将lr设定到 lr=0.002，另外学习率的weight_decay=0.0001 momentum = 0.9。如果是resnext，初始lr=0.01,每个GPU的mini-batch是1。

3、RPN的anchors有5种scale，3种ratios。为了方便剥离、如果没有特别指出，则RPN网络是单独训练的且不与Mask R-CNN共享权重。但是在本论文中，RPN和Mask R-CNN使用一个backbone，所以他们的权重是共享的。（Ablation Experiments 为了方便研究整个网络中哪个部分其的作用到底有多大，需要把各部分剥离开）

Inference：在测试时，使用ResNet-50-C4作为 backbone情况下proposal number=300，使用FPN作为 backbone时proposal number=1000。然后在这些proposal上运行bbox预测，接着进行非极大值抑制。mask分支只应用在得分最高的100个proposal上。顺序和train是不同的，但这样做可以提高速度和精度。mask 分支对于每个roi可以预测k个类别，但是我们只要背景和前景两种，所以只用k-th mask，k是根据分类分支得到的类型。然后把k-th mask resize成roi大小，同时使用阈值分割(threshold=0.5)二值化

Experiments

Main Results

在下图中可以明显看出，FCIS的分割结果中都会出现一条竖着的线(systematic artifacts)，这线主要出现在物体重的部分，作者认为这是FCIS架构的问题，无法解决的。但是在Mask RCNN中没有出现。

Ablation Experiments（剥离实验）

Architecture:
从table 2a中看出，Mask RCNN随着增加网络的深度、采用更先进的网络，都可以提高效果。注意：并不是所有的网络都是这样。
Multinomial vs. Independent Masks:(mask分支是否进行类别预测)从table 2b中可以看出，使用sigmoid(二分类)和使用softmax(多类别分类)的AP相差很大，证明了分离类别和mask的预测是很有必要的
Class-Specific vs. Class-Agnostic Masks:目前使用的mask rcnn都使用class-specific masks，即每个类别都会预测出一个mxm的mask，然后根据类别选取对应的类别的mask。但是使用Class-Agnostic Masks，即分割网络只输出一个mxm的mask，可以取得相似的成绩29.7vs30.3
RoIAlign:tabel 2c证明了RoIAlign的性能
Mask Branch:tabel 2e，FCN比MLP性能更好

Bounding Box Detection Results

Mask RCNN精度高于Faster RCNN
Faster RCNN使用RoI Align的精度更高
Mask RCNN的分割任务得分与定位任务得分相近，说明Mask RCNN已经缩小了这部分差距。

Timing

Inference：195ms一张图片，显卡Nvidia Tesla M40。其实还有速度提升的空间，比如减少proposal的数量等。
Training：ResNet-50-FPN on COCO trainval35k takes 32 hours in our synchronized 8-GPU implementation (0.72s per 16-image mini-batch)，and 44 hours with ResNet-101-FPN。

Mask R-CNN for Human Pose Estimation

让Mask R-CNN预测k个masks，每个mask对应一个关键点的类型，比如左肩、右肘，可以理解为one-hot形式。

使用cross entropy loss，可以鼓励网络只检测一个关键点;
ResNet-FPN结构
训练了90k次，最开始lr=0.02，在迭代60k次时，lr=0.002,80k次时变为0.0002