Deeplab v1 – chenpaopao

DeepLabv1：
Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs

ICLR 2015

在语义分割发展早期，一些研究观点认为将CNN用于图像分割主要存在两个问题：一个是下采样导致的信息丢失问题，另一个则是CNN的空间不变性问题，这与CNN本身的特性有关，这种空间不变性有利于图像分类但却不利于图像分割中的像素定位。从多尺度和上下文信息的角度来看，这两个问题是导致FCN分割效果有限的重要原因。因而，相关研究针对上述两个问题提出了Deeplab v1网络，通过在常规卷积中引入空洞（Atrous）和对CNN分割结果补充CRF作为后处理来优化分割效果。提出Deeplab v1的论文为Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs，是Deeplab系列的开篇之作。

针对第一个问题，池化下采样操作引起信息丢失，Deeplab v1给出的解决方案算是另辟蹊径。常规卷积中，使用池化下采样的主要目的是增大每个像素的感受野，但在Deeplab v1中，作者们的想法是可以不用池化也可以增大像素的感受野，尝试在卷积操作本身上重新进行设计。在Deeplab v1，一种在常规卷积核中插入空洞的设计被提出，相较于池化下采样，空洞卷积能够在不降低图像分辨率的情况下扩大像素感受野，从而就避免了信息损失的问题。

空洞卷积（Dilated/Atrous Convolution）也叫扩张卷积或者膨胀卷积，字面意思上来说就是在卷积核中插入空洞，起到扩大感受野的作用。空洞卷积的直接做法是在常规卷积核中填充0，用来扩大感受野，且进行计算时，空洞卷积中实际只有非零的元素起了作用。假设以一个变量a来衡量空洞卷积的扩张系数，则加入空洞之后的实际卷积核尺寸与原始卷积核尺寸之间的关系：

K=k+(k-1)(a-1)

其中为k原始卷积核大小，a为空洞率（Dilation Rate），K为经过扩展后实际卷积核大小。除此之外，空洞卷积的卷积方式跟常规卷积一样。当a=1时，空洞卷积就退化为常规卷积。a=1,2,4时，空洞卷积示意图如下图所示。

对于语义分割而言，空洞卷积主要有三个作用：

第一是扩大感受野，具体前面已经说的比较多了，这里不做重复。但需要明确一点，池化也可以扩大感受野，但空间分辨率降低了，相比之下，空洞卷积可以在扩大感受野的同时不丢失分辨率，且保持像素的相对空间位置不变。简单而言就是空洞卷积可以同时控制感受野和分辨率。

第二就是获取多尺度上下文信息。当多个带有不同空洞率的空洞卷积核叠加时，不同的感受野会带来多尺度信息，这对于分割任务是非常重要的。

第三就是可以降低计算量，不需要引入额外的参数，如图4-13所示，实际卷积时只有带有红点的元素真正进行计算。

针对第二个问题，Deeplab v1通过引入全连接的CRF来对CNN的粗分割结果进行优化。CRF作为一种经典的概率图模型，可用于图像像素之间的关系描述，在传统图像处理中主要用于图像平滑处理。但对于CNN分割问题来说，使用短程的CRFs可能会于事无补，因为分割问题的目标是恢复图像的局部细节信息，而不是对图像做平滑处理。所以Deeplab v1提出的解决方案叫做全连接CRF（Fully Connected CRF）。

条件随机场可以优化物体的边界，平滑带噪声的分割结果，去掉物体中间的预测的孔洞，使得分割结果更加准确。

CRF是一种经典的概率图模型，简单而言就是给定一组输入序列的条件下，求另一组输出序列的条件概率分布模型，CRF在自然语言处理领域有着广泛应用。CRF在语义分割后处理中用法的基本思路如下：对于FCN或者其他分割网络的粗粒度分割结果而言，每个像素点i具有对应的类别标签x_i和观测值y_i，以每个像素为节点，以像素与像素之间的关系作为边即可构建一个CRF模型。在这个CRF模型中，我们通过观测变量y_i来预测像素i对应的标签值x_i。CRF用于像素预测的结构如下图所示。