目标检测 – 第 2 页

ROI Pooling和ROI Align

这两个都是用在rpn之后的。具体来说，从feature map上经过RPN得到一系列的proposals，大概2k个，这些bbox大小不等，如何将这些bbox的特征进行统一表示就变成了一个问题。即需要找一个办法从大小不等的框中提取特征使输出结果是等长的。

最开始目标检测模型Faster RCNN中用了一个简单粗暴的办法，叫ROI Pooling。

该方式在语义分割这种精细程度高的任务中，不够精准，由此发展来了ROI Align。

今天就总结下两者的思想。

ROI Pooling

假如现在有一个8×8的feature map，现在希望得到2×2的输出，有一个bbox坐标为[0,3,7,8]。

这个bbox的w=7，h=5，如果要等分成四块是做不到的，因此在ROI Pooling中会进行取整。就有了上图看到的h被分割为2,3，w被分割成3,4。这样之后在每一块(称为bin)中做max pooling，可以得到下图的结果。

这样就可以将任意大小bbox转成2×2表示的feature。

ROI Pooling需要取整，这样的取整操作进行了两次，一次是得到bbox在feature map上的坐标时。

例如：原图上的bbox大小为665×665，经backbone后，spatial scale=1/32。因此bbox也相应应该缩小为665/32=20.78，但是这并不是一个真实的pixel所在的位置，因此这一步会取为20。0.78的差距反馈到原图就是0.78×32=25个像素的差距。如果是大目标这25的差距可能看不出来，但对于小目标而言差距就比较巨大了。

ROI Align

因此有人提出不需要进行取整操作，如果计算得到小数，也就是没有落到真实的pixel上，那么就用最近的pixel对这一点虚拟pixel进行双线性插值，得到这个“pixel”的值。

具体做法如下图所示：

将bbox区域按输出要求的size进行等分，很可能等分后各顶点落不到真实的像素点上
没关系，在每个bin中再取固定的4个点(作者实验后发现取4效果较好)，也就是图二右侧的蓝色点
针对每一个蓝点，距离它最近的4个真实像素点的值加权(双线性插值)，求得这个蓝点的值
一个bin内会算出4个新值，在这些新值中取max，作为这个bin的输出值
最后就能得到2×2的输出

YOLOX: Exceeding YOLO Series in 2021

https://yolox.readthedocs.io/en/latest/quick_run.html

论文地址：https://arxiv.org/abs/2107.08430

github：https://github.com/Megvii-BaseDetection/YOLOX

网络结构可视化： https://blog.csdn.net/nan355655600/article/details/119329848

YOLOX 是 YOLO 的无锚版本，设计更简单但性能更好！它旨在弥合研究和工业界之间的差距。

YOLO系列始终追求实时应用的最佳速度和精度取舍，提取了当时可用的最先进的检测技术（例如，anchor用于YOLOv2，残差网络用于YOLOv3），并优化最佳实践的实现。

然而在过去的两年中，目标检测学术界的主要进展集中在anchor_free检测器，高级标签分配策略和端到端(NMS-free)检测器，这些研究成果还没有被集成在YOLO系列中，YOLOv4和YOLOv5目前还是使用了anchor_based及手动的指定训练分配规则（比如anchor相关的设置）。

作者还认为，YOLOv4和YOLOv5中对anchor有点过度的优化，所以重新将YOLOv3-SPP版本作为优化起点。原因是，YOLOv3由于计算资源有限，在各种实际应用中软件支持不足，仍然是行业中应用最广泛的探测器之一。

1、网络结构：

先看下Yolov3、Yolov4、Yolov5的网络结构图，而后面的Yolox网络，都是在此基础上延伸而来的。

① Yolov3网络结构图

Yolov3是在2018年提出，也是工业界使用非常广泛的目标检测算法。

不过在Yolox系列中的，Yolox-Darknet53模型，采用的Baseline基准网络，采用的并不是Yolov3版本，而是改进后的Yolov3_spp版本。

而Yolov3和Yolov3_spp的不同点在于，Yolov3的主干网络后面，添加了spp组件，这里需要注意。

② Yolov4网络结构图

上图是DarknetAB大神，在2020年提出的Yolov4算法。

在此算法中，网络的很多地方，都进行了改进。

比如输入端：采用Mosaic数据增强；

Backbone：采用了CSPDarknet53、Mish激活函数、Dropblock等方式；

Neck：采用了SPP（按照DarknetAB的设定）、FPN+PAN结构；

输出端：采用CIOU_Loss、DIOU_Nms操作。

因此可以看出，Yolov4对Yolov3的各个部分，都进行了很多的整合创新。

③ Yolov5网络结构图

而在Yolov5网络中，和Yolov4不同，最大的创新点在于，作者将网络结构，做成了可选择配置的方式。

比如主干网络结构，根据各个网络的宽度、高度不同，可以分为Yolov5s、Yolov5l、Yolov5s、Yolo5x等版本。

这种转变，在目标检测领域，引领了一股网络拆分的热潮。

本文的Yolox算法，也从这个角度出发，将Yolox模型，变为多种可选配的网络，比如标准网络结构和轻量级网络结构。

（1）标准网络结构：Yolox-s、Yolox-m、Yolox-l、Yolox-x、Yolox-Darknet53。

（2）轻量级网络结构：Yolox-Nano、Yolox-Tiny。

在实际的项目中，大家可以根据不同项目需求，进行挑选使用。

从上面的描述中，我们可以知道Yolox整体的改进思路：

（1）基准模型：Yolov3_spp

选择Yolov3_spp结构，并添加一些常用的改进方式，作为Yolov3 baseline基准模型；

（2）Yolox-Darknet53

对Yolov3 baseline基准模型，添加各种trick，比如Decoupled Head、SimOTA等，得到Yolox-Darknet53版本；

（3）Yolox-s、Yolox-m、Yolox-l、Yolox-x系列

对Yolov5的四个版本，采用这些有效的trick，逐一进行改进，得到Yolox-s、Yolox-m、Yolox-l、Yolox-x四个版本；

（4）轻量级网络

设计了Yolox-Nano、Yolox-Tiny轻量级网络，并测试了一些trick的适用性；

基准模型：Yolov3_spp

在设计算法时，为了对比改进trick的好坏，常常需要选择基准的模型算法。

而在选择Yolox的基准模型时，作者考虑到：

Yolov4和Yolov5系列，从基于锚框的算法角度来说，可能有一些过度优化，因此最终选择了Yolov3系列。

不过也并没有直接选择Yolov3系列中，标准的Yolov3算法，而是选择添加了spp组件，进而性能更优的Yolov3_spp版本。

以下是论文中的解释：

Considering YOLOv4 and YOLOv5 may be a little over-optimized for the anchor-based pipeline, we choose YOLOv3 [25] as our start point (we set YOLOv3-SPP as the default YOLOv3)。

为了便于理解，在前面Yolov3结构图的基础上，添加上spp组件，变为下图所示的Yolov3_spp网络。

大家可以看到，主干网络Backbone后面，增加了一个SPP组件。

当然在此基础上，对网络训练过程中的很多地方，都进行了改进，比如：

（1）添加了EMA权值更新、Cosine学习率机制等训练技巧

（2）使用IOU损失函数训练reg分支，BCE损失函数训练cls与obj分支

（3）添加了RandomHorizontalFlip、ColorJitter以及多尺度数据增广，移除了RandomResizedCrop。

在此基础上，Yolov3_spp的AP值达到38.5，即下图中的Yolov3 baseline。

Yolox-Darknet53

我们在前面知道，当得到Yolov3 baseline后，作者又添加了一系列的trick，最终改进为Yolox-Darknet53网络结构。

上图即是Yolox-Darknet53网络结构图。

为了便于分析改进点，我们对Yolox-Darknet53网络结构进行拆分，变为四个板块：

① 输入端：Strong augmentation数据增强

② BackBone主干网络：主干网络没有什么变化，还是Darknet53。

③ Neck：没有什么变化，Yolov3 baseline的Neck层还是FPN结构。

④ Prediction：Decoupled Head、End-to-End YOLO、Anchor-free、Multi positives。

在经过一系列的改进后，Yolox-Darknet53最终达到AP47.3的效果。

下面我们对于Yolox-Darknet53的输入端、Backbone、Neck、Prediction四个部分，进行详解的拆解。

输入端：

（1）Strong augmentation

在网络的输入端，Yolox主要采用了Mosaic、Mixup两种数据增强方法。

而采用了这两种数据增强，直接将Yolov3 baseline，提升了2.4个百分点。

① Mosaic数据增强

Mosaic增强的方式，是U版YOLOv3引入的一种非常有效的增强策略。

而且在Yolov4、Yolov5算法中，也得到了广泛的应用。

通过随机缩放、随机裁剪、随机排布的方式进行拼接，对于小目标的检测效果提升，还是很不错的。

② MixUp数据增强

MixUp是在Mosaic基础上，增加的一种额外的增强策略。

主要来源于2017年，顶会ICLR的一篇论文《mixup: Beyond Empirical Risk Minimization》。当时主要应用在图像分类任务中，可以在几乎无额外计算开销的情况下，稳定提升1个百分点的分类精度。

而在Yolox中，则也应用到目标检测中，代码在yolox/datasets/mosaicdetection.py这个文件中。

其实方式很简单，比如我们在做人脸检测的任务。

先读取一张图片，图像两侧填充，缩放到640*640大小，即Image_1，人脸检测框为红色框。

再随机选取一张图片，图像上下填充，也缩放到640*640大小，即Image_2，人脸检测框为蓝色框。

然后设置一个融合系数，比如上图中，设置为0.5，将Image_1和Image_2，加权融合，最终得到右面的Image。

从右图可以看出，人脸的红色框和蓝色框是叠加存在的。

我们知道，在Mosaic和Mixup的基础上，Yolov3 baseline增加了2.4个百分点。

不过有两点需要注意：

（1）在训练的最后15个epoch，这两个数据增强会被关闭掉。

而在此之前，Mosaic和Mixup数据增强，都是打开的，这个细节需要注意。

（2）由于采取了更强的数据增强方式，作者在研究中发现，ImageNet预训练将毫无意义，因此，所有的模型，均是从头开始训练的。

2 Backbone

Yolox-Darknet53的Backbone主干网络，和原本的Yolov3 baseline的主干网络都是一样的。

都是采用Darknet53的网络结构

3 Neck

在Neck结构中，Yolox-Darknet53和Yolov3 baseline的Neck结构，也是一样的，都是采用FPN的结构进行融合。

如下图所示，FPN自顶向下，将高层的特征信息，通过上采样的方式进行传递融合，得到进行预测的特征图。

Prediction层

在输出层中，主要从四个方面进行讲解：Decoupled Head、Anchor Free、标签分配、Loss计算。

（1）Decoupled Head

我们先来看一下Decoupled Head，目前在很多一阶段网络中都有类似应用，比如RetinaNet、FCOS等。

而在Yolox中，作者增加了三个Decoupled Head，俗称“解耦头”

大白这里从两个方面对Decoupled Head进行讲解：

① 为什么使用Decoupled Head？

② Decoupled Head的细节？

从上图右面的Prediction中，我们可以看到，有三个Decoupled Head分支。

① 为什么使用Decoupled Head？

在了解原理前，我们先了解下改进的原因。为什么将原本的Yolo head，修改为Decoupled Head呢？

我们先看一张论文中的表格：

在前面3.2.1 基准网络中，我们知道Yolov3 baseline的AP值为38.5。

作者想继续改进，比如输出端改进为End-to-end的方式（即无NMS的形式）。

但意外的发现，改进完之后的AP值只有34.3。

而在2020年12月份，旷视科技发表的《End-to-End Object Detection with Fully Convolution Network》中。

在对FCOS改进为无NMS时，在COCO上，达到了与有NMS的FCOS，相当的性能。

那这时就奇怪了，为什么在Yolo上改进，会下降这么多？

在偶然间，作者将End-to-End中的Yolo Head，修改为Decoupled Head的方式。

惊喜的发现，End-to-end Yolo的AP值，从34.3增加到38.8。

那End-to-end的方式有效果，Yolov3 baseline中是否也有效果呢？

然后作者又将Yolov3 baseline 中Yolo Head，也修改为Decoupled Head。

发现AP值，从38.5，增加到39.6。

当然作者在实验中还发现，不单单是精度上的提高。替换为Decoupled Head后，网络的收敛速度也加快了。

但是需要注意的是：将检测头解耦，会增加运算的复杂度。

因此作者经过速度和性能上的权衡，最终使用 1个1×1 的卷积先进行降维，并在后面两个分支里，各使用了 2个3×3 卷积，最终调整到仅仅增加一点点的网络参数。

而且这里解耦后，还有一个更深层次的重要性：

Yolox的网络架构，可以和很多算法任务，进行一体化结合。

比如：

（1）YOLOX + Yolact/CondInst/SOLO ，实现端侧的实例分割。

（2）YOLOX + 34 层输出，实现端侧人体的 17 个关键点检测。

② Decoupled Head的细节？

了解了Decoupled Head的来源，再看一下Decoupled Head的细节。

我们将Yolox-Darknet53中，Decoupled Head①提取出来，经过前面的Neck层，这里Decouple Head①输入的长宽为20*20。

从图上可以看出，Concat前总共有三个分支：

（1）cls_output：主要对目标框的类别，预测分数。因为COCO数据集总共有80个类别，且主要是N个二分类判断，因此经过Sigmoid激活函数处理后，变为20*20*80大小。

（2）obj_output：主要判断目标框是前景还是背景，因此经过Sigmoid处理好，变为20*20*1大小。

（3）reg_output：主要对目标框的坐标信息（x，y，w，h）进行预测，因此大小为20*20*4。

最后三个output，经过Concat融合到一起，得到20*20*85的特征信息。

当然，这只是Decoupled Head①的信息，再对Decoupled Head②和③进行处理。

Decoupled Head②输出特征信息，并进行Concate，得到40*40*85特征信息。

Decoupled Head③输出特征信息，并进行Concate，得到80*80*85特征信息。

再对①②③三个信息，进行Reshape操作，并进行总体的Concat，得到8400*85的预测信息。

并经过一次Transpose，变为85*8400大小的二维向量信息。

这里的8400，指的是预测框的数量，而85是每个预测框的信息（reg，obj，cls）。

有了预测框的信息，下面我们再了解，如何将这些预测框和标注的框，即groundtruth进行关联，从而计算Loss函数，更新网络参数呢？

（2）Anchor-free

这里就要引入Anchor的内容，目前行业内，主要有Anchor Based和Anchor Free两种方式。

在Yolov3、Yolov4、Yolov5中，通常都是采用Anchor Based的方式，来提取目标框，进而和标注的groundtruth进行比对，判断两者的差距。

① Anchor Based方式

比如输入图像，经过Backbone、Neck层，最终将特征信息，传送到输出的Feature Map中。

这时，就要设置一些Anchor规则，将预测框和标注框进行关联。

从而在训练中，计算两者的差距，即损失函数，再更新网络参数。

比如在下图的，最后的三个Feature Map上，基于每个单元格，都有三个不同尺寸大小的锚框。

这里为了更形象的展示，以大白Yolov3视频中，输入图像大小416*416为例。

当输入为416*416时，网络最后的三个特征图大小为13*13，26*26，52*52。

我们可以看到，黄色框为小狗的Groundtruth，即标注框。

而蓝色的框，为小狗中心点所在的单元格，所对应的锚框，每个单元格都有3个蓝框。

当采用COCO数据集，即有80个类别时。

基于每个锚框，都有x、y、w、h、obj（前景背景）、class（80个类别），共85个参数。

因此会产生3*(13*13+26*26+52*52）*85=904995个预测结果。

如果将输入从416*416，变为640*640，最后的三个特征图大小为20*20,40*40,80*80。

则会产生3*（20*20+40*40+80*80）*85=2142000个预测结果。

② Anchor Free方式

而Yolox-Darknet53中，则采用Anchor Free的方式。

我们从两个方面，来对Anchor Free进行了解。

a.输出的参数量

我们先计算下，当得到包含目标框所有输出信息时，所需要的参数量？

这里需要注意的是：

最后黄色的85*8400，不是类似于Yolov3中的Feature Map，而是特征向量。

从图中可知，当输入为640*640时，最终输出得到的特征向量是85*8400。

我们看下，和之前Anchor Based方式，预测结果数量相差多少?

通过计算，8400*85=714000个预测结果，比基于Anchor Based的方式，少了2/3的参数量。

b.Anchor框信息

在前面Anchor Based中，我们知道，每个Feature map的单元格，都有3个大小不一的锚框。

那么Yolox-Darknet53就没有吗？

其实并不然，这里只是巧妙的，将前面Backbone中，下采样的大小信息引入进来。

比如上图中，最上面的分支，下采样了5次，2的5次方为32。

并且Decoupled Head①的输出，为20*20*85大小。

因此如上图所示：

最后8400个预测框中，其中有400个框，所对应锚框的大小，为32*32。

同样的原理，中间的分支，最后有1600个预测框，所对应锚框的大小，为16*16。

最下面的分支，最后有6400个预测框，所对应锚框的大小，为8*8。

当有了8400个预测框的信息，每张图片也有标注的目标框的信息。

这时的锚框，就相当于桥梁。

这时需要做的，就是将8400个锚框，和图片上所有的目标框进行关联，挑选出正样本锚框。

而相应的，正样本锚框所对应的位置，就可以将正样本预测框，挑选出来。

这里采用的关联方式，就是标签分配。

（3）标签分配

当有了8400个Anchor锚框后，这里的每一个锚框，都对应85*8400特征向量中的预测框信息。

不过需要知道，这些预测框只有少部分是正样本，绝大多数是负样本。

那么到底哪些是正样本呢？

这里需要利用锚框和实际目标框的关系，挑选出一部分适合的正样本锚框。

比如第3、10、15个锚框是正样本锚框，则对应到网络输出的8400个预测框中，第3、10、15个预测框，就是相应的正样本预测框。

训练过程中，在锚框的基础上，不断的预测，然后不断的迭代，从而更新网络参数，让网络预测的越来越准。

那么在Yolox中，是如何挑选正样本锚框的呢？

这里就涉及到两个关键点：初步筛选、SimOTA。

① 初步筛选

初步筛选的方式主要有两种：根据中心点来判断、根据目标框来判断；

这部分的代码，在models/yolo_head.py的get_in_boxes_info函数中。

a. 根据中心点来判断：

规则：寻找anchor_box中心点，落在groundtruth_boxes矩形范围的所有anchors。

比如在get_in_boxes_info的代码中，通过groundtruth的[x_center,y_center，w，h]，计算出每张图片的每个groundtruth的左上角、右下角坐标。

为了大家更容易理解，大白以人脸检测的任务绘制图片：

通过上面的公式，可以对左面人脸图片，计算出左上角（gt_l，gt_t），右下角（gt_r，gt_b）。

groundtruth的矩形框范围确定了，再根据范围去选择适合的锚框。

这里再绘制一个锚框的中心点，（x_center，y_center）。

而右面的图片，就是寻找锚框和groundtruth的对应关系。

即计算锚框中心点（x_center，y_center），和人脸标注框左上角（gt_l，gt_t），右下角（gt_r，gt_b）两个角点的相应距离。

比如下面代码图片中的前四行代码：

而在第五行，将四个值叠加之后，通过第六行，判断是否都大于0？

就可以将落在groundtruth矩形范围内的所有anchors，都提取出来了。

因为ancor box的中心点，只有落在矩形范围内，这时的b_l，b_r，b_t，b_b都大于0。

b.根据目标框来判断：

除了根据锚框中心点，和groundtruth两边距离判断的方式外，作者还设置了根据目标框判断的方法。

规则：以groundtruth中心点为基准，设置边长为5的正方形，挑选在正方形内的所有锚框。

同样在get_in_boxes_info的代码中，通过groundtruth的[x_center，y_center，w，h]，绘制了一个边长为5的正方形。

为了大家容易理解，大白还是以人脸检测的任务绘制图片：

在左面的人脸图片中，基于人脸标注框的中心点，利用上面的公式，绘制了一个边长为5的正方形。左上角点为（gt_l，gt_t），右下角点为（gt_r，gt_b）。

这时groundtruth正方形范围确定了，再根据范围去挑选锚框。

而右面的图片，就是找出所有中心点（x_center，y_center）在正方形内的锚框。

在代码图片中的前四行代码，也是计算锚框中心点，和正方形两边的距离。

通过第五行的叠加，再在第六行，判断c_l，c_r，c_t，c_b是否都大于0？

就可以将落在边长为5的正方形范围内，所有的anchors，都提取出来了，因为这时的c_l，c_r，c_t，c_b都大于0。

经过上面两种挑选的方式，就完成初步筛选了，挑选出一部分候选的anchor，进入下一步的精细化筛选。

② 精细化筛选

而在精细化筛选中，就用到论文中提到的SimOTA了：

从提升效果上来看，引入SimOTA后，AP值提升了2.3个百分点，还是非常有效的。

而SimOAT方法的提出，主要来源于旷视科技，2021年初CVPR上的一篇论文：《Ota: Optimal transport assignment for object detection》。

我们将SimOTA的前后流程进行拆解，看一下是如何进行精细化筛选的？

整个筛选流程，主要分为四个阶段：

a.初筛正样本信息提取

b.Loss函数计算

c.cost成本计算

d.SimOTA求解

为了便于理解，我们假定图片上有3个目标框，即3个groundtruth。

再假定目前在做的项目是对人脸和人体检测，因此检测类别是2。

上一节中，我们知道有8400个锚框，但是经过初步筛选后，假定有1000个锚框是正样本锚框。

a.初筛正样本信息提取

初筛出的1000个正样本锚框的位置，我们是知道的。

而所有锚框的位置，和网络最后输出的85*8400特征向量是一一对应。

所以根据位置，可以将网络预测的候选检测框位置bboxes_preds、前景背景目标分数obj_preds、类别分数cls_preds等信息，提取出来。

上面的代码位于yolo_head.py的get_assignments函数中。

以前面的假定信息为例，代码图片中的bboxes_preds_per_image因为是候选检测框的信息，因此维度为[1000，4]。

obj_preds因为是目标分数，所以维度是[1000，1]。

cls_preds因为是类别分数，所以维度是[1000，2]。

b.Loss函数计算

针对筛选出的1000个候选检测框，和3个groundtruth计算Loss函数。

计算的代码，也在yolo_head.py的get_assignments函数中。

首先是位置信息的loss值：pair_wise_ious_loss

通过第一行代码，可以计算出3个目标框，和1000个候选框，每个框相互之间的iou信息pair_wise_ious，因为向量维度为[3,1000]。

再通过-torch.log计算，得到位置损失，即代码中的pair_wise_iou_loss。

然后是综合类别信息和目标信息的loss值：pair_wise_cls_loss

通过第一行代码，将类别的条件概率和目标的先验概率做乘积，得到目标的类别分数。

再通过第二行代码，F.binary_cross_entroy的处理，得到3个目标框和1000个候选框的综合loss值，即pair_wise_cls_loss，向量维度为[3，1000]。

c.cost成本计算

有了reg_loss和cls_loss，就可以将两个损失函数加权相加，计算cost成本函数了。

这里涉及到论文中提到的一个公式：

相应的，对应于yolo_head.py的get_assignments函数中的代码：

可以看出，公式中的加权系数，即代码中的3。

d.SimOTA

有了上面的一系列信息，标签分配问题，就转换为了标准的OTA问题。

但是经典的Sinkhorn-Knopp算法，需要多次迭代求得最优解。

作者也提到，该算法会导致25%额外训练时间，所以采用一种简化版的SimOTA方法，求解近似最优解。这里对应的函数，是get_assignments函数中的self.dynamic_k_matching：

其中的流程如下：

第一步：设置候选框数量

首先按照cost值的大小，新建一个全0变量matching_matrix，这里是[3,1000]。

通过上面第二行代码，设置候选框数量为10。

再通过第三行代码，从前面的pair_wise_ious中，给每个目标框，挑选10个iou最大的候选框。

因为前面假定有3个目标，因此这里topk_ious的维度为[3，10]。

第二步：通过cost挑选候选框

下面再通过topk_ious的信息，动态选择候选框，这里是个关键。

代码如dynamic_k_matching函数中，下图所示：

为了便于大家理解，大白先把第一行制作成图示效果。

这里的topk_ious，是3个目标框和预测框中，最大iou的10个候选框：

经过torch.clamp函数，得到最终右面的dynamic_ks值。

我们就知道，目标框1和3，给他分配3个候选框，而目标框2，给它分配4个候选框。

那么基于什么标准分配呢？

这时就要利用前面计算的cost值，即[3,1000]的损失函数加权信息。

在for循环中，针对每个目标框挑选，相应的cost值最低的一些候选框。

比如右面的matching_matrix中，cost值最低的一些位置，数值为1，其余位置都为0。

因为目标框1和3，dynamic_ks值都为3，因此matching_matrix的第一行和第三行，有3个1。

而目标框2，dynamic_ks值为4，因此matching_matrix的第二行，有4个1。

第三步：过滤共用的候选框

不过在分析matching_matrix时，我们发现，第5列有两个1。

这也就说明，第五列所对应的候选框，被目标检测框1和2，都进行关联。

因此对这两个位置，还要使用cost值进行对比，选择较小的值，再进一步筛选。

这里为了便于理解，还是采用图示的方式：

首先第一行代码，将matching_matrix，对每一列进行相加。

这时anchor_matching_gt中，只要有大于1的，说明有共用的情况。

上图案例中，表明第5列存在共用的情况。

再利用第三行代码，将cost中，第5列的值取出，并进行比较，计算最小值所对应的行数，以及分数。

我们将第5列两个位置，假设为0.4和0.3。

经过第三行代码，可以找到最小的值是0.3，即cost_min为0.3，所对应的行数，cost_argmin为2。

经过第四行代码，将matching_matrix第5列都置0。

再利用第五行代码，将matching_matrix第2行，第5列的位置变为1。

最终我们可以得到3个目标框，最合适的一些候选框，即matching_matrix中，所有1所对应的位置。

（4）Loss计算

经过第三部分的标签分配，就可以将目标框和正样本预测框对应起来了。

下面就可以计算两者的误差，即Loss函数。

计算的代码，位于yolo_head.py的get_losses函数中。

我们可以看到：

检测框位置的iou_loss，Yolox中使用传统的iou_loss，和giou_loss两种，可以进行选择。

而obj_loss和cls_loss，都是采用BCE_loss的方式。

当然除此之外，还有两点需要注意：

a.在前面精细化筛选中，使用了reg_loss和cls_loss，筛选出和目标框所对应的预测框。

因此这里的iou_loss和cls_loss，只针对目标框和筛选出的正样本预测框进行计算。

而obj_loss，则还是针对8400个预测框。

b.在Decoupled Head中，cls_output和obj_output使用了sigmoid函数进行归一化，

但是在训练时，并没有使用sigmoid函数，原因是训练时用的nn.BCEWithLogitsLoss函数，已经包含了sigmoid操作。

而在推理过程中，是使用Sigmoid函数的。

文章来源：https://zhuanlan.zhihu.com/p/397993315

SSD原理与实现

SSD属于一阶段、anchor-based 目标检测

基于anchor-based的技术包括一个阶段和两个阶段的检测。其中一阶段的检测技术包括SSD，DSSD，RetinaNet，RefineDet，YOLOV3等，二阶段技术包括Faster-RCNN，R-FCN，FPN，Cascade R-CNN，SNIP等。一般的，两个阶段的目标检测会比一个阶段的精度要高，但一个阶段的算法速度会更快。

anchor-based类算法代表是fasterRCNN、SSD、YoloV2/V3等

目标检测近年来已经取得了很重要的进展，主流的算法主要分为两个类型（参考RefineDet）：（1）two-stage方法，如R-CNN系算法，其主要思路是先通过启发式方法（selective search）或者CNN网络（RPN)产生一系列稀疏的候选框，然后对这些候选框进行分类与回归，two-stage方法的优势是准确度高；（2）one-stage方法，如Yolo和SSD，其主要思路是均匀地在图片的不同位置进行密集抽样，抽样时可以采用不同尺度和长宽比，然后利用CNN提取特征后直接进行分类与回归，整个过程只需要一步，所以其优势是速度快，但是均匀的密集采样的一个重要缺点是训练比较困难，这主要是因为正样本与负样本（背景）极其不均衡（参见Focal Loss），导致模型准确度稍低。

需要掌握的知识：

1、边界框

在⽬标检测中，我们通常使⽤边界框（bounding box）来描述对象的空间位置。边界框是矩形的，由矩形左上⻆的 x 和 y 坐标以及右下⻆的坐标决定。另⼀种常⽤的边界框表⽰⽅法是边界框中⼼的 (x, y) 轴坐标以及框的宽度和⾼度

2、锚框

⽬标检测算法通常会在输⼊图像中采样⼤量的区域，然后判断这些区域中是否包含我们感兴趣的⽬标，并调整区域边缘从而更准确地预测⽬标的真实边界框（ground-truth bounding box）。不同的模型使⽤的区域采样⽅法可能不同。这⾥我们介绍其中的⼀种⽅法：它以每个像素为中⼼⽣成多个⼤小和宽⾼⽐（aspect ratio）不同的边界框。这些边界框被称为锚框（anchor box）

3、交并⽐(IoU)

直观地说，我们可以衡量锚框和真实边界框之间的相似性。我们知道 Jaccard 系数可以衡量
两组之间的相似性。给定集合 A 和 B，他们的 Jaccard 系数是他们交集的⼤小除以他们并集的⼤小：$$J\left( A,B\right) =\dfrac{\left| A\cap B\right| }{\left| A\right| U\left| B\right| }$$ 事实上，我们可以将任何边界框的像素区域视为⼀组像素。通过这种⽅式，我们可以通过其像素集的 Jaccard索引来测量两个边界框的相似性。对于两个边界框，我们通常将他们的 Jaccard 指数称为交并⽐ (intersectionover union，IoU)，即两个边界框相交⾯积与相并⾯积之⽐

4、标注训练数据的锚框

在训练集中，我们将每个锚框视为⼀个训练样本。为了训练⽬标检测模型，我们需要每个锚框的类别（class）和偏移量（offset）标签，其中前者是与锚框相关的对象的类别，后者是真实边界框相对于锚框的偏移量。在预测期间，我们为每个图像⽣成多个锚框，预测所有锚框的类和偏移量，根据预测的偏移量调整它们的位置以获得预测的边界框，最后只输出符合特定条件的预测边界框。

5、将真实边界框分配给锚框

给定图像, 假设锚框是 $A_{1}, A_{2}, \ldots, A_{n_{a}}$ , 真实边界框是 $B_{1}, B_{2}, \ldots, B_{n_{b}}$ , 其中 $ n_{a} \geq n_{b}$ 。让我们定义一个矩阵 $\mathbf{X} \in \mathbb{R}^{n_{a} \times n_{b}}$, 其中 $i^{\text {th }}$ 行和 $j^{\text {th }}$ 列中的元素 $x_{i j}$是针框 $A_{i}$ 和真实边界框 $B_{j}$ 的 $\mathrm{IoU}$ 。该算法包含以下步骤:

在矩阵 $\mathbf{X}$ 中找到最大的元素, 并将它的行索引和列索引分别表示为 $i_{1}$ 和 $j_{1}$ 。然后将真实边界框 $B_{j_{1}}$ 分配给针框 $A_{i_{1}}$ 。这很直观，因为 $A_{i_{1}}$ 和 $B_{j_{1}}$ 是所有针框和真实边界框配对中最相近的。在第一个分配完成后，丢弃矩阵中 $i_{1}{ }^{\text {th }}$ 行和 $j_{1}{ }^{\text {th }}$ 列中的所有元素。
在矩阵 $\mathbf{X}$ 中找到剩余元素中最大的元素, 并将它的行索引和列索引分别表示为 $i_{2}$ 和 $j_{2}$ 。我们将真实边界框 $B_{j_{2}}$ 分配给针框 $A_{i_{2}}$, 并丢弃矩阵中 $i_{2}{ }^{\text {th }}$ 行和 $j_{2}{ }^{\text {th }}$ 列中的所有元素。
此时，矩阵 $\mathbf{X}$ 中两行和两列中的元素已被丢弃。我们继续, 直到丢弃掉矩阵 $\mathbf{X}$ 中 $n_{b}$ 列中的所有元素。此时，我们已经为这 $n_{b}$ 个针框各自分配了一个真实边界框。
只遍历剩下的 $n_{a}-n_{b}$ 个针框。例如，给定任何针框 $A_{i}$, 在矩阵 $\mathbf{X}$的第 $i^{\text {th }}$ 行中找到与 $A_{i}$ 的IoU最大的真实边界框 $B_{j}$, 只有当此 IoU 大于预定义的阈值时, 才将 $B_{j}$ 分配给 $A_{i \circ}$

6、标记类和偏移

现在我们可以为每个锚框标记分类和偏移量了。假设⼀个锚框 A 被分配了⼀个真实边界框 B。⼀⽅⾯，锚框A 的类将被标记为与 B 相同。另⼀⽅⾯，锚框 A 的偏移量将根据 B 和 A 中⼼坐标的相对位置、以及这两个框的相对⼤小进⾏标记。鉴于数据集内不同的框的位置和⼤小不同，我们可以对那些相对位置和⼤小应⽤变换，使其获得更均匀分布、易于适应的偏移量。在这⾥，我们介绍⼀种常⻅的变换。给定框 A 和 B，中⼼坐标分别为 (xa, ya) 和 (xb, yb)，宽度分别为 wa 和 wb，⾼度分别为 ha 和 hb。我们可以将 A 的偏移量标记为

$$
\left(\frac{\frac{x_{b}-x_{a}}{w_{a}}-\mu_{x}}{\sigma_{x}}, \frac{\frac{y_{b}-y_{a}}{h_{a}}-\mu_{y}}{\sigma_{y}}, \frac{\log \frac{w_{b}}{w_{a}}-\mu_{w}}{\sigma_{w}}, \frac{\log \frac{h_{b}}{h_{a}}-\mu_{h}}{\sigma_{h}}\right)
$$

$$
\text { 其中常量的默认值是 } \mu_{x}=\mu_{y}=\mu_{w}=\mu_{h}=0, \sigma_{x}=\sigma_{y}=0.1 \text { 和 } \sigma_{w}=\sigma_{h}=0.2 \text { 。 }
$$

7、⽤⾮极⼤值抑制预测边界框

在预测期间，我们先为图像⽣成多个锚框，再为这些锚框⼀⼀预测类别和偏移量。⼀个“预测好的边界框”则根据其中某个带有预测偏移量的锚框而⽣成。当有许多锚框时，可能会输出许多相似的具有明显重叠的预测边界框，都围绕着同⼀⽬标。为了简化输出，我们可以使⽤⾮极⼤值抑制 (non-maximum suppression，NMS)合并属于同⼀⽬标的类似的预测边界框。以下是⾮极⼤值抑制的⼯作原理。对于⼀个预测边界框 B，⽬标检测模型会计算每个类的预测概率。假设最⼤的预测概率为 p ，则该概率所对应的类别 B 即为预测的类别。具体来说，我们将 p 称为预测边界框 B 的置信度。在同⼀张图像中，所有预测的⾮背景边界框都按置信度降序排序，以⽣成列表 L。然后我们通过以下步骤操作排序列表 L：

从 L 中选取置信度最高的预测边界框 $B_{1}$ 作为基准，然后将所有与 $B_{1}$ 的IoU 超过预定阈值$\epsilon$ 的非基准预测边界框从 L 中移除。这时， L 保留了置信度最高的预测边界框，去除了与其太过相似的其他预测边界框。简而言之，那些具有非极大值置信度的边界框被抑制了。
从 L 中选取置信度第二高的预测边界框 $B_{2}$ 作为又一个基准，然后将所有与 $B_{2}$的IoU大于 $\epsilon$的非基准预测边界框从 L 中移除。
重复上述过程，直到 L 中的所有预测边界框都曾被用作基准。此时， L中任意一对预测边界框的IoU都小于阈值 $\epsilon$; 因此，没有一对边界框过于相似。
输出列表 L中的所有预测边界框。

SSD原理：

在了解上述概念后，开始实现SSD（Single Shot MultiBox Detector）

SSD和Yolo一样都是采用一个CNN网络来进行检测，但是却采用了多尺度的特征图，其基本架构如图3所示。下面将SSD核心设计理念总结为以下三点：

（1）采用多尺度特征图用于检测

所谓多尺度采用大小不同的特征图，CNN网络一般前面的特征图比较大，后面会逐渐采用stride=2的卷积或者pool来降低特征图大小，这正如图3所示，一个比较大的特征图和一个比较小的特征图，它们都用来做检测。这样做的好处是比较大的特征图来用来检测相对较小的目标，而小的特征图负责检测大目标。

（2）采用卷积进行检测

与Yolo最后采用全连接层不同，SSD直接采用卷积对不同的特征图来进行提取检测结果。对于形状为 $m\times n \times p$ 的特征图，只需要采用 $3\times 3 \times p$ 这样比较小的卷积核得到检测值。

（3）设置先验框

在Yolo中，每个单元预测多个边界框，但是其都是相对这个单元本身（正方块），但是真实目标的形状是多变的，Yolo需要在训练过程中自适应目标的形状。而SSD借鉴了Faster R-CNN中anchor的理念，每个单元设置尺度或者长宽比不同的先验框，预测的边界框（bounding boxes）是以这些先验框为基准的，在一定程度上减少训练难度。一般情况下，每个单元会设置多个先验框，其尺度和长宽比存在差异，如图5所示，可以看到每个单元使用了4个不同的先验框，图片中猫和狗分别采用最适合它们形状的先验框来进行训练，后面会详细讲解训练过程中的先验框匹配原则

也就是说，在上面4中所说的 “标注训练数据的锚框” ，这里的锚框在SSD中就是先验框。

网络结构

SSD采用VGG16作为基础模型，然后在VGG16的基础上新增了卷积层来获得更多的特征图以用于检测。SSD的网络结构如图5所示。上面是SSD模型，下面是Yolo模型，可以明显看到SSD利用了多尺度的特征图做检测。

得到了特征图之后，需要对特征图进行卷积得到检测结果

下图给出了一个 5*5大小的特征图的检测过程。其中Priorbox是得到先验框，前面已经介绍了生成规则。检测值包含两个部分：类别置信度和边界框位置，各采用一次3*3 卷积来进行完成。

训练过程

（1）先验框匹配
在训练过程中，首先要确定训练图片中的ground truth（真实目标）与哪个先验框来进行匹配，与之匹配的先验框所对应的边界框将负责预测它。在Yolo中，ground truth的中心落在哪个单元格，该单元格中与其IOU最大的边界框负责预测它。但是在SSD中却完全不一样，SSD的先验框与ground truth的匹配原则主要有两点。首先，对于图片中每个ground truth，找到与其IOU最大的先验框，该先验框与其匹配，这样，可以保证每个ground truth一定与某个先验框匹配。通常称与ground truth匹配的先验框为正样本（其实应该是先验框对应的预测box，不过由于是一一对应的就这样称呼了），反之，若一个先验框没有与任何ground truth进行匹配，那么该先验框只能与背景匹配，就是负样本。一个图片中ground truth是非常少的，而先验框却很多，如果仅按第一个原则匹配，很多先验框会是负样本，正负样本极其不平衡，所以需要第二个原则。第二个原则是：对于剩余的未匹配先验框，若某个ground truth的 IOU大于某个阈值（一般是0.5），那么该先验框也与这个ground truth进行匹配。这意味着某个ground truth可能与多个先验框匹配，这是可以的。但是反过来却不可以，因为一个先验框只能匹配一个ground truth，如果多个ground truth与某个先验框 IOU大于阈值，那么先验框只与IOU最大的那个ground truth进行匹配。第二个原则一定在第一个原则之后进行，仔细考虑一下这种情况，如果某个ground truth所对应最大 IOU小于阈值，并且所匹配的先验框却与另外一个ground truth的IOU大于阈值，那么该先验框应该匹配谁，答案应该是前者，首先要确保某个ground truth一定有一个先验框与之匹配。但是，这种情况我觉得基本上是不存在的。由于先验框很多，某个ground truth的最大 IOU肯定大于阈值，所以可能只实施第二个原则既可以了，这里的TensorFlow版本就是只实施了第二个原则，但是这里的Pytorch两个原则都实施了

（2）损失函数
训练样本确定了，然后就是损失函数了。损失函数定义为位置误差（locatization loss， loc）与置信度误差（confidence loss, conf）的加权和：

$$
L(x, c, l, g)=\frac{1}{N}\left(L_{c o n f}(x, c)+\alpha L_{l o c}(x, l, g)\right)
$$
其中 N是先验框的正样本数量。这里$x_{i j}^{p} \in{1,0}$ 为一个指示参数，当 $x_{i j}^{p}=1$时表示第 i 个先验框与第 j 个ground truth匹配，并且ground truth的类别为 p 。 c 为类别置信度预测值。 l为先验框的所对应边界框的位置预测值，而 g 是ground truth的位置参数。对于位置误差，其采用Smooth L1 loss，定义如下:

对于置信度误差，其采用softmax loss:

⽬标检测有两种类型的损失。第⼀种有关锚框类别的损失：我们可以简单地重⽤之前图像分类问题⾥⼀直使⽤的交叉熵损失函数来计算；第⼆种有关正类锚框偏移量的损失：预测偏移量是⼀个回归问题，使⽤ L1 范数损失，即预测值和真实值之差的绝对值

3）数据扩增

采用数据扩增（Data Augmentation）可以提升SSD的性能，主要采用的技术有水平翻转（horizontal flip），随机裁剪加颜色扭曲（random crop & color distortion），随机采集块域（Randomly sample a patch）（获取小目标训练样本）

预测过程

预测过程比较简单，对于每个预测框，首先根据类别置信度确定其类别（置信度最大者）与置信度值，并过滤掉属于背景的预测框。然后根据置信度阈值（如0.5）过滤掉阈值较低的预测框。对于留下的预测框进行解码，根据先验框得到其真实的位置参数（解码后一般还需要做clip，防止预测框位置超出图片）。解码之后，一般需要根据置信度进行降序排列，然后仅保留top-k（如400）个预测框。最后就是进行NMS算法，过滤掉那些重叠度较大的预测框。最后剩余的预测框就是检测结果了。

性能评估

首先整体看一下SSD在VOC2007，VOC2012及COCO数据集上的性能，如表1所示。相比之下，SSD512的性能会更好一些。加*的表示使用了image expansion data augmentation（通过zoom out来创造小的训练样本）技巧来提升SSD在小目标上的检测效果，所以性能会有所提升。