BPR：用于实例分割的边界Patch优化（CVPR2021）

Look Closer to Segment Better: Boundary Patch Refinement for Instance Segmentation

后处理分割结果，效果是即插即用后处理模块当年的sota：通过将 BPR 框架应用于 PolyTransform + SegFix 基线，我们在 Cityscapes 排行榜上排名第一。

从目前的排名来说（22.09.23），排名第五，与top1相差不到2个百分点，而 BPR后处理使得PolyTransform + SegFix的效果提升了1.5个百分点。 相比于MASK-RCNN提升了4.2个百分点。

CVPR21上一篇关于实例分割的文章。对于Mask RCNN来说，其最终得到的mask分辨率太低，因此还原到原尺寸的时候，一些boundary信息就显得非常粗糙，导致预测生成的mask效果不尽如人意。而且处于boundary的pixel本身数量相比于整张image来说很少，同时本身难以做分类。现有的一些方法试图提升boundary quality，但预测mask边界这个task本身的复杂度和segmentation很接近了，因此开销较大。

因此本文作者提出了一种crop-and-refine的策略。首先通过经典的实例分割网络（如Mask RCNN）得到coarse mask。随后在mask的boundary出提取出一系列的patch，随后将这些patch送入一个Refinement Network，这个Refinement Network负责做二分类的语义分割，进而对boundary处的patch进行优化，整个后处理的优化网络称为BPR（Boundary Patch Refinement）。该网络可以解决传统Mask RCNN预测的mask的边界粗糙的问题。

本文的核心就是在Mask RCNN一类的网络给出coarse mask后，如何设计Refine Network来对这个粗糙 mask 的边界进行优化，进而得到resolution更高，boundary quality更好的mask。

给定一个coarse mask（上图a），首先需要决定这个mask的哪些部分要做refine。这里作者提出了一种sliding-window式的方法提取到boundary处的一系列patch（上图b）。具体来说，就是在mask边界处密集assign正方形的bounding box，这些box内部囊括了boundary pixel。随后，由于这些box有的overlap太大导致redundant（冗余），这里采用NMS进行过滤（上图c），以实现速度和精度的trade-off（平衡）。

随后这些survive下来的image patch（上图d）和mask patch（上图e）都resize到同一尺寸，一起喂入Refinement Network。这里作者argue说一定要喂入mask patch，因为一旦拥有mask patch的location和semantic信息，这个refinement network就不再需要学习instance-level semantic（实例类别信息，比如这个image patch属于哪个类别）了。所以，refinement network只需要学习boundary处的hard pixel，并把它们正确分类。

关于Refinement Network，其任务是为每一个提取出来的boundary patch独立地做二分类语义分割，任何的语义分割模型都可以搬过来做这个task。输入的通道数为4（RGB+mask），输出通道数为2（BG or FG），这里作者采用了HRNetV2（CVPR 2019），这种各种level feature不断做融合的网络可以maintain高分辨率的representation。通过合理的增加input size，boundary batch就可以得到比之前方法更高的resolution。