论文 – 第 17 页

论文写作全攻略|一篇学术科研论文该怎么写

摘自：深度学习与计算机视觉

论文通俗来说是本科和硕士的升学助力，也是学术界的硬通货，更是未来工作的加分项和敲门砖。

论文的写作对很多学生来说，是一种挑战。有些学生不知该如何对论文做选题，更多的学生则是对毕业论文写作到底有什么要求不清楚，不知从何下手，常常为毕业论文发愁。

论文写作的分为四个顺序：阅读论文→确定创新点→Coding／实验→论文写作。

1、阅读论文

发表论文的前提是大量阅读论文！！！文献阅读分为三个阶段，初期找方向，中期重点突破，后期广泛涉猎。

初期读论文需要逐字精读，方向不必严格限定，感兴趣论文涉及的论文链都可以去读。一篇论文用时一天，英文论文+中文分享，前期阅读论文数量30篇以上，可以提高学术英语阅读能力和专业术语积累。

中期读论文要重点精读，严格限定研究方向和方向涉及的论文链。重点论文时间控制在半天，泛泛论文是一小时，重点论文重复读+源码学习，论文阅读数最好为10篇以上。了解学习技术演进、学习方法创新和整理创新方法链。

后期少数精读+大量泛读，不限定方向，自己重点方向+涉猎方向。

重点论文两小时，泛泛论文半小时，跟随研究方向的最新发展，了解其他方向的大致进展，思考创新点引进嫁接。

2、确定创新点

可以从以下四个方面确定自己论文的创新点：

1. 数据集的改动：噪声、几何变换、遮挡、光照条件、场景依赖

2. 模型的问题：模型体积、推理速度、收敛困难、非端到端、后处理优化

3. 结构替换：transformer、FCN、AE、

4. 特定场景的应用：通用模型考虑泛化能力—特定应用考虑专用性。比如夜间检测、水下检测、鱼眼相机检测。

另外就是要记住A+B+C/2.5法则

A：本研究方向的继承性创新点（自然演进）

B：其他方向的既有方法（嫁接到其他任务）

C：细节上的创新（数据增强/数据集/损失函数设计）

例如下面这篇CVPR2021: CutPaste，运用的就是A+B+C/2.5法则。

A：自然演进 cutout—cutpaste+B：既有方法将自监督学习的pretask应用于异常检测+C：细节创新高斯概率密度估计（GDE）判断异常

3、Coding/实验

原则：1篇论文代码复现（至少读懂代码实现）>>跑通多个项目demo

1. 找到baseline论文的代码；

2. 在baseline代码上实现期望功能的最小化实现；

3. 逐步实现最终的功能代码，同时做实现验证各部分设计的效果。

4、论文写作

01：写作策略：

选择2篇左右的范文，去分析论文结构（Introduction）、重点词句（Related Work）、语言风格（Method）、实验设计（Experiment）、绘图风格（Conclusion）和故事设计（References）。

02：论文写作技巧

（1）论文写作技巧——注意标题

用⼀句话概括你所做的工作
考虑搜索引擎的影响，包含关键词
可以新颖一些

（2）论文写作技巧——首页加图

（3）论文写作技巧—Introduction直接列贡献

不用介绍各个部分如何组织的；
直接说做出了哪些贡献；
标明贡献位置。

Yolov7之正负样本分配策略

以下文章来源于微信公众号：所向披靡的张大刀

作者：张大刀

原文链接：https://mp.weixin.qq.com/s/nhZ3Q1NHm3op8abdVIGmLA

本文仅用于学术分享，如有侵权，请联系后台作删文处理

导读在正负样本分配中，Yolov7的策略算是Yolov5和YoloX的结合。本文先从Yolov5和Yolov6正负样本分配策略分析入手，后引入到Yolov7的解析中,希望对大家学习Yolov7有帮助。

本文主要就Yolov7的正负样本筛选策略，并与Yolov5,Yolov6进行比对。

首先接着上一篇Yolov7系列一，网络整体结构，填几个小坑，希望对大家没有造成困扰：

如：E-ELAN层，在cat后需要要conv层做特征融合：

还有SPPCSPC层经大家勘误后，改动如下：

还有另外几个小问题：如REPconv层在Yolov7论文中将identity 层去掉，卷积后的激活函数是SiLu这些，因Yolov7网络是基于Tag0.1版本Yolov7.yaml的代码构造的，作者后续在持续优化迭代，后续大刀也会继续更新。

Yolov7因为基于anchor based的目标检测，与Yolov5相同，Yolov6的正负样本的匹配策略则与Yolox相同，Yolov7则基本集成两家之所长。下面先回顾下Yolov5,v6的正负样本匹配策略。

1. Yolov5的正负样本匹配策略

Yolov5基于anchor based,在开始训练前，会基于训练集中gt（ground truth 框），通过k-means聚类算法，先验获得9个从小到大排列的anchor框。先将每个gt与9个anchor匹配（以前是IOU匹配，Yolov5中变成shape匹配，计算gt与9个anchor的长宽比，如果长宽比小于设定阈值，说明该gt和对应的anchor匹配），

如上图为Yolov5的网络架构，Yolov5有三层网络，9个anchor, 从小到大，每3个anchor对应一层prediction网络，gt与之对应anchor所在的层，用于对该gt做训练预测，一个gt可能与几个anchor均能匹配上。所以一个gt可能在不同的网络层上做预测训练，大大增加了正样本的数量，当然也会出现gt与所有anchor都匹配不上的情况，这样gt就会被当成背景，不参与训练，说明anchor框尺寸设计的不好。

在训练过程中怎么定义正负样本呢，因为Yolov5中负样本不参与训练，所以要增加正样本的数量。gt框与anchor框匹配后，得到anchor框对应的网络层的grid，看gt中心点落在哪个grid上，不仅取该grid中和gt匹配的anchor作为正样本，还取相邻的的两个grid中的anchor为正样本。如下图所示，绿色的gt框中心点落在红色grid的第三象限里，那不仅取该grid,还要取左边的grid和下面的grid，这样基于三个grid和匹配的anchor就有三个中心点位于三个grid中心点，长宽为anchor长宽的正样本，同时gt不仅与一个anchor框匹配，如果跟几个anchor框都匹配上，所以可能有3-27个正样本，增大正样本数量。

2. Yolov6的正负样本匹配策略

Yolov6的正负样本匹配策略同Yolox，Yolox因为是anchor free，anchor free因为缺少先验框这个先验知识，理论上应该是对场景的泛化性更好，同时参见旷视的官方解读：Anchor 增加了检测头的复杂度以及生成结果的数量，将大量检测结果从NPU搬运到CPU上对于某些边缘设备是无法容忍的。Yolov6中的正样本筛选，主要分成以下几个部分：①：基于两个维度来粗略筛选；②：基于simOTA进一步筛选。

tie标签的gt如图所示，找到gt的中心点（Cx,Cy）,计算中心点到左上角的距离（l_l,l_t）,右下角坐标（l_r,l_b）,然后从两步筛选正样本：第一步粗略筛选第一个维度是如果grid的中心点落在gt中，则认为该grid所预测的框为正样本，如图所示的红色和橙色部分，第二个维度是以gt的中心点所在grid的中心点为中心点，上下左右扩充2.5个grid步长范围内的grid，则默认该grid所预测的框为正样本，如图紫色和橙色部分。这样第一步筛选出31个正样本（注：这里单独一层的正样本，Yolov6有三个网络层，分别计算出各层的正样本，并叠加）。

第二步：通过SimOTA进一步筛选：SimOTA是基于OTA的一种优化，OTA是一种动态匹配算法，具体参见旷视官方解读（https://www.zhihu.com/question/473350307/answer/2021031747）SimOTA流程如下：
①计算初筛正样本与gt的IOU，并对IOU从大到小排序，取前十之和并取整,记为b。
②计算初筛正样本的cos代价函数，将cos代价函数从小到大排列，取cos前b的样本为正样本。同时考虑同一个grid预测框被两个gt关联的情况，取cos较小的值，该预测框为对应的gt的正样本。具体细节可以参考大白的知乎文章：https://www.zhihu.com/search?type=content&q=simOTA

3. Yolov7的正负样本匹配策略

Yolov7因为基于anchor based , 集成v5和v6两者的精华，即Yolov6中的第一步的初筛换成了Yolov5中的筛选正样本的策略，保留第二步的simOTA进一步筛选策略。
同时Yolov7中有aux_head 和lead_head 两个head ,aux_head做为辅助，其筛选正样本的策略和lead_head相同，但更宽松。如在第一步筛选时，lead_head 取中心点所在grid和与之接近的两个grid对应的预测框做为正样本，如图绿色的grid, aux_head则取中心点以及周围的4个预测框为正样本。如下图绿色＋蓝色区域的grid.

同时在第二步simOTA部分，lead_head 是计算初筛正样本与gt的IOU，并对IOU从大到小排序，取前十之和并取整,记为b。aux_head 则取前二十之和并取整。其他步骤相同，aux_head主要是为了增加召回率，防止漏检，lead_head再基于aux_head 做进一步筛选。

4. 结语以上为Yolov7的正负样本的匹配策略，希望对大家有帮助。同时文中如果有bug,欢迎一起讨论。

参考：[1] https://github.com/WongKinYiu/yolov7（官方github代码）
[2] https://arxiv.org/pdf/2207.02696.pdf(yolov7论文)[3]https://zhuanlan.zhihu.com/p/394392992[4]YOLOv7官方开源 | Alexey Bochkovskiy站台，精度速度超越所有YOLO，还得是AB (qq.com)[5] https://www.zhihu.com/question/473350307/answer/2021031747
[6]【yolov6系列】细节拆解网络框架 (qq.com)[7] https://arixv.org/abs/2103/14259v1 (OTA for object detection)[8] https://github.com/Megvii-BasedDetection/OTA

利用深度学习迭代自洽的蛋白序列设计

——背景——

现有的基于蛋白结构的深度学习序列设计方法，虽然在测试的计算指标上取得了很好的成果，但是还鲜有方法经过实验的考验仍然超越传统的能量函数方法。基于这一挑战，中国科学技术大学的刘海燕教授课题组，发展了名为ABACUS-R方法，相关工作名为Rotamer-free protein sequence design based on deep learning and self-consistency，于近期发表在Nature Computational Science上。

图1. ABACUS-R方法的示意图

——方法——

ABACUS-R方法包含两部分：（1）一个encoder-decoder网络被预训练用以推断给定骨架的局部环境时中心残基的侧链类型（2）用该encoder-decoder网络连续更新每个残基的类型，最终收敛获得自洽（self-consistent）。网络的输入是中心残基与空间上最邻近（C_α间距离）k个残基组成的局部结构。邻近残基的特征包含空间层面的相对位置与取向信息（X_SPA）、序列层面的相对位置信息（X_RSP）以及邻近残基的残基类型（X_AA）。第i个中心残基的特征包含全零的X_SPA、被mask的X_AA以及骨架上的15个ϕ_i₋₂, ψ_i₋₂, ω_i₋₂ ⋯ ϕ_i₊₂, ψ_i₊₂, ω_i₊₂，这些特征组合起来会被映射到与邻近残基特征相同的维度。以上模型输入的信息都是旋转平移不变的。局部结构中的所有残基的特征经过可学习的映射后融合后，得到每个残基总特征En。{E_n; n = 0, 1, 2, … , k}经过基于transformer架构的encoder-decoder，预测每个中心残基的类型以及其他辅助任务。

自洽迭代设计的方法是：对序列随机初始化，第一轮随机选择80%的残基通过encoder-decoder并行预测其残基类型，以后每轮随机选择的残基数目逐渐下降。最终的设计结果会逐渐收敛。

作者将PDB中的非冗余结构按照两种不同的方式划分了95%作为训练集、5%作为测试集，第一种划分方式确保测试集的结构不会存在训练集中出现过的CATH拓扑，训练得到的模型为Model_eval;第二种划分方式时随机划分Model_final。Model_eval可以用来评估模型能力的无偏向性的表现，而Model_final使用了更丰富的数据训练表现应当更好。

——表现评估——

Encoder-decoder的架构可以进行多任务学习，除了训练序列的恢复的任务以外，还可以预测二级结构、SASA、B-factor与侧链扭转角χ₁、χ₂。多个任务可以增强模型设计序列的能力（图2a），Model_eval与Model_final都可以在测试集上最好取得50%左右准确度。在测试集上的结果显示，虽然有些残基类型没有恢复正确，但是模型也学习到了替换为性质相似的残基（图2b）。

Decoder网络输出的是每个位置上残基类型的-logP，类似于选择不同残基对应的能量，所以作者将ProTherm数据集中蛋白突变的ΔΔG与模型计算出相应的−ΔΔlogits进行了比较，发现二者有一定的相关性（图2d），说明模型一定程度上学习到了能量。

接着，作者验证了模型的自洽性，测试集中100个蛋白属于CATH的三个大类，对其中的每个蛋白从随机序列出发设计10条序列，随着迭代的次数变多，平均-logP会趋于收敛（图3a），同时未收敛的残基比例也会收敛（图3b）。不同CATH类别的骨架上取得的序列恢复率差距不大（图3c）。同一蛋白骨架设计出的序列会有很高的相似性（0.76-0.89）。设计出的序列与天然序列相比，序列的成分高度相似（图3d），Pearson相关系数达到了0.93，但GLU、ALA与LYS出现得更频繁，而Gln、His、Met出现得更少。此外，ABACUS-R设计出的序列与ABACUS设计出的序列相比，平均每个残基的Rosetta打分更低（图3e），而平均的-logP打分却更高（图3f），这意味着ABACUS-R学习到的能量与Rosetta打分函数存在正交的部分。

图3. ABACUS-R的自洽能力、设计能力以及学习到的能量与Rosetta打分的比较

相较于其他深度学习方法在单个残基恢复任务上的表现，ABACUS-R超过了除DenseCPD外的所有方法（表1），在整条序列重设计任务上ABACUS-R在两个测试集上都取得了最好的表现（表2）。

最后，作者在3种天然骨架（PDB ID: 1r26, 1cy5 and 1ubq）上通过实验验证了ABACUS-R的设计能力。设计的方法有两种：第一种采用迭代自洽的设计方法（生成序列的多样性低），第二种采用迭代时对decoder输出结果进行采样（生成序列的多样性高，但-logP能量也略高）。

第一种方法设计的27条序列有26条成功表达，体积排阻色谱与¹H NMR实验结果显示所有的蛋白都以单体形式存在，示差扫描量热实验显示5条序列有很好的热稳定性（ 97~117 ^∘C ）。最终，1r26的3个设计与1cy5的1个设计成功解出了晶体结构，C_α RMSD位于0.51~0.88 Å，而1ubq的1个设计虽然没有解出结构，但已有的实验结果显示它折叠成了明确的三维结构。

第二种方法对同一骨架设计的序列相似度在58%左右。30条设计的序列中，25条被成功表达，23条能被可溶地纯化。所有设计同样都是单体存在并且折叠成了明确的三维结构，5个设计有很好的热稳定性（85~118 ^∘C）。最终，1r26的1个设计被成功解出了晶体结构，C_αRMSD为0.67 Å。相较方法一的自洽设计，方法二设计成功率下降，成功设计的蛋白热稳定性也略微下降，但作者认为可以接受。

最后，作者展示了所有1r26设计晶体结构核心的侧链pack（图4a,b），以及1cy5设计晶体结构的侧链的极性作用（图4c），说明了ABACUS-R学会了设计侧链的组合以pack好的结构。

——总结——

总之，作者开发的ABACUS-R方法在不需要显示地模拟侧链，可以学习到给定结构下侧链类型的能量打分。ABACUS-R不仅取得了很好的序列恢复度，还在实验上取得了很好的成功率。

CVPR2022 | 自注意力和卷积的融合（ACmix）

前言通常convolution和self-attention被认为是表征学习的两个有力且相互对等的不用方法。在本文中，作者发掘了两者之间的潜在关系，两者的大部分计算实际上是相通的。

作者将K x K 的传统卷积分解为k方个1 x 1的卷积，然后将self-attention模块中queries、 keys等解释为多个1 x 1的卷积，然后计算注意力权重和聚合值。

该模型在图像识别和down streamtasks取得了优异的结果。

论文题目：On the Integration of Self-Attention and Convolution

论文链接：https://openaccess.thecvf.com/content/CVPR2022/papers/Pan_On_the_Integration_of_Self-Attention_and_Convolution_CVPR_2022_paper.pdf

源代码：https://github.com/LeapLabTHU/ACmix https://gitee.com/mindspore/models.

卷积神经网络与自注意力在图像识别、语义分割等方面取得了飞速的发展。随着transformers的出现，attention-based的方法取得了更加优异的性能。尽管两种方法都取得了成功，但是两者遵循不同的设计思路。前者在特征图中共享权重，后者通过动态计算像素间的相似度函数从而能够捕获不同区域的特征进而获得更多的特征。

在一些工作中，研究人员仅使用self-attention来独立地构建视觉任务模型，这一做法的有效性在一些任务中得到了验证，其完全可以代替卷积操作。Vision Transformer表明只要给定足够的数据，就可以获得优异的结果，这一做法在点云分割等其他视觉任务上也取得了不错的效果。Hu等人提出自适应确定聚合的方法；Wang等人通过引入非局部块来增加感受野来比较全局像素之间的相似性；Conformer将transformer与独立的CNN结合来整合两个特征。

早期的工作从几个不同的角度探索了convolution和self-attention的组合，CBAM等证明self-attention可以作为convolution的增强；SAN等提出self-attention可以代替传统的convolution；AA-ResNet等在设计独立架构方面存在局限性。现有的方法仍将自注意力和卷积视为不同的部分，因此它们之间的关系并未得到充分利用。

本文主要贡献

1、揭示了self-attention和convolution之间的潜在关系，为了解两个模块间的关联和设计新的learning paradigms提供了新的视角。

2、self-attention和convolution的组合使得两者的功能得到整合，经验及实验证明混合模型的性能始终优于纯卷积或者自注意力模型。

方法

1、将self-attention和convolution关联起来

标准卷积可以分为两个部分，第一个阶段为一个特征学习模块，通过执行1 x 1的卷积共享相同的操作将特征投影到更深的空间，第二阶段对应于特征聚合的过程。作为结论，分析表明卷积和自注意力在通过1 x 1的卷积投影输入特征图实际上共享相同的操作，聚合操作是轻量级的，并不需要获取额外的学习参数。卷积和自注意力的示意图如下图所示。

2、将self-attention和convolution进行整合

作者根据上述的分析提出ACmix模型，如下图所示：

ACmix模型分为两个阶段，在阶段一，输入特征由三个1 x 1的卷积操作并被reshape成N块，由此获得丰富的3 x N的特征图；在阶段二，对于self-attention，作者将中间特征收集到N组中，每组包含三个部分特征，其中每个1 x 1卷积对应一个。通过移动和聚合生成的特征（用以下公式表达），并像传统方法一样从本地感受野中收集信息。

3、对Shift和Summation进行改进

中间特征遵循传统的卷积模块中的Shift和Summation操作，尽管这些操作在理论上是轻量级的，但是难以矢量化实现，这会极大影响计算的实际效率。作者采用了固定内核的深度卷积来解决这一问题，如下图所示。

在此基础上，作者额外引入了一些配置来增强模块的灵活性，如下图所示，作者将卷积核释放为可学习的权重，对内核初始化，这不仅改善了模型容量，而且能够保持原有的能力，同时使用多组卷积内核来匹配卷积和自注意力路径的输出通道维度。

4、ACmix的计算成本

作者总结了ACmix的FLOPS和参数量，在stage1 的训练参数与self-attention相同，并且比传统的卷积更轻，在第二阶段，引入了额外的计算开销，包含轻量级的全连接层等。

5、向其他注意力模式推广

作者所提出的ACmix独立于自注意力机制，并且很容易衍生出其他变体，注意力的权重可以表示为

实验

1、ImageNet分类

作者在4个baseline models上应用了ACmix，包括ResNet, SAN, PVT和 Swin-Transformer。

2、语义分割

作者在ADE20K上对比了Semantic-FPN、UperNet 两种方法

3、目标检测

在COCO benchmark上开展了实验，实验结果证实了ACmix的性能优于baseline

结论

在本文中，作者发掘了self-attention和convolution之间的潜在关系，两者的大部分计算实际上是相通的，所提的ACmix在目标检测、语义分割等多个任务上展示了优异的性能。

Yolo 系列之 Yolov7 基础网络结构

YOLOV7 整体结构

我们先整体来看下 YOLOV7，首先对输入的图片 resize 为 640×640 大小，输入到 backbone 网络中，然后经 head 层网络输出三层不同 size 大小的 feature map，经过 Rep 和 conv输出预测结果，这里以 coco 为例子，输出为 80 个类别，然后每个输出(x ,y, w, h, o) 即坐标位置和前后背景，3 是指的 anchor 数量，因此每一层的输出为 (80+5)x3 = 255再乘上 feature map 的大小就是最终的输出了。

backbone
YOLOV7 的 backbone 如下图所示

总共有 50 层, 我在上图用黑色数字把关键层数标示出来了。首先是经过 4 层卷积层，如下图，CBS 主要是 Conv + BN + SiLU 构成，我在图中用不同的颜色表示不同的 size 和 stride, 如 (3, 2) 表示卷积核大小为 3 ，步长为 2。在 config 中的配置如图。

经过 4个 CBS 后，特征图变为 160 * 160 * 128 大小。随后会经过论文中提出的 ELAN 模块，ELAN 由多个 CBS 构成，其输入输出特征大小保持不变，通道数在开始的两个 CBS 会有变化，后面的几个输入通道都是和输出通道保持一致的，经过最后一个 CBS 输出为需要的通道。

MP 层主要是分为 Maxpool 和 CBS , 其中 MP1 和 MP2 主要是通道数的比变化。

backbone的基本组件就介绍完了，我们整体来看下 backbone，经过 4 个 CBS 后，接入例如一个 ELAN ，然后后面就是三个 MP + ELAN 的输出，对应的就是 C3/C4/C5 的输出，大小分别为 80 * 80 * 512 ， 40 * 40 * 1024， 20 * 20 * 1024。每一个 MP 由 5 层， ELAN 有 8 层，所以整个 backbone 的层数为 4 + 8 + 13 * 3 = 51 层，从 0 开始的话，最后一层就是第50层。

3、head

YOLOV7 head 其实就是一个 pafpn 的结构，和之前的YOLOV4，YOLOV5 一样。首先，对于 backbone 最后输出的 32 倍降采样特征图 C5，然后经过 SPPCSP，通道数从1024变为512。先按照 top down 和 C4、C3融合，得到 P3、P4 和 P5；再按 bottom-up 去和 P4、P5 做融合。这里基本和 YOLOV5 是一样的，区别在于将 YOLOV5 中的 CSP 模块换成了 ELAN-H 模块，同时下采样变为了 MP2 层。 ELAN-H 模块是我自己命名的，它和 backbone 中的 ELAN 稍微有点区别就是 cat 的数量不同。

对于 pafpn 输出的 P3、P4 和 P5 ，经过 RepConv 调整通道数，最后使用 1×1 卷积去预测 objectness、class 和 bbox 三部分。 RepConv 在训练和推理是有一定的区别。训练时有三个分支的相加输出，部署时会将分支的参数重参数化到主分支上

YOLOv7来临：论文详读和解析+训练自己数据集

2022年7月，YOLOv7来临，

论文链接：https://arxiv.org/abs/2207.02696

代码链接：https://github.com/WongKinYiu/yolov7

文章摘自https://mp.weixin.qq.com/s/5qK1FIU7qp0Sv3IE49-t_w

在v7论文挂出不到半天的时间，YOLOv3和YOLOv4的官网上均挂上了YOLOv7的链接和说明，由此看来大佬们都比较认可这款检测器。

官方版的YOLOv7相同体量下比YOLOv5精度更高，速度快120%（FPS），比 YOLOX 快180%（FPS），比 Dual-Swin-T 快1200%（FPS），比 ConvNext 快550%（FPS），比 SWIN-L快500%（FPS）。在5FPS到160FPS的范围内，无论是速度或是精度，YOLOv7都超过了目前已知的检测器，并且在GPU V100上进行测试，精度为56.8% AP的模型可达到30 FPS（batch=1）以上的检测速率，与此同时，这是目前唯一一款在如此高精度下仍能超过30FPS的检测器。另外，YOLOv7所获得的成果不止于此，例如：

YOLOv7-e6 (55.9% AP, 56 FPS V100 b=1) by +500% FPS faster than SWIN-L Cascade R-CNN (53.9% AP, 9.2 FPS A100 b=1)
YOLOv7-e6 (55.9% AP, 56 FPS V100 b=1) by +550% FPS faster than ConvNeXt-RCNN (55.2% AP, 8.6 FPS A100 b=1)
YOLOv7-w6 (54.6% AP, 84 FPS V100 b=1) by +120% FPS faster than YOLOv5-X6-v6.1 (55.0% AP, 38 FPS V100 b=1)
YOLOv7-w6 (54.6% AP, 84 FPS V100 b=1) by +1200% FPS faster than Dual-Swin-RCNN (53.6% AP, 6.5 FPS V100 b=1)
YOLOv7 (51.2% AP, 161 FPS V100 b=1) by +180% FPS faster than YOLOX-X (51.1% AP, 58 FPS V100 b=1)

本文做出的贡献如下：

设计了几种可训练的bag-of-freebies，使实时检测器可以在不提高推理成本的情况下大大提高检测精度；
对于目标检测的发展，作者发现了两个新的问题，即模块重参化如何高效替代原始模块，以及动态标签分配策略如何处理好不同输出层的分配。因此在本文中提出了方法进行解决。
作者为实时探测器提出了“扩展”和“复合缩放”（extend” and “compound scaling”)方法，可以更加高效地利用参数和计算量，同时，作者提出的方法可以有效地减少实时探测器50%的参数，并且具备更快的推理速度和更高的检测精度。（这个其实和YOLOv5或者Scale YOLOv4的baseline使用不同规格分化成几种模型类似，既可以是width和depth的缩放，也可以是module的缩放）

2.1 实时检测器

目前最先进的实时探测器主要基于YOLO和FCOS，如果需要研发更先进的实时检测器，通常需要具备以下特征：

（1）更快和更高效的网络架构；
（2）更有效的特征积分方法；
（3）更准确的检测方法；
（4）更鲁棒的损失函数；
（5）更有效的标签分配方法；
（6）更有效的训练方式。

2.2 模型重参化

模型重参化策略在推理阶段将多个模块合并为一个计算模块，可以看作是一种集成技术（model ensemble，其实笔者觉得更像是一种基于feature的distillation），可以将其分为模块级集成和模型级集成两类。对于模型级重新参数化有两种常见的操作:

一种是用不同的训练数据训练多个相同的模型，然后对多个训练模型的权重进行平均。
一种是对不同迭代次数下模型权重进行加权平均。

模块重参化是近年来一个比较流行的研究课题。这种方法在训练过程中将一个整体模块分割为多个相同或不同的模块分支，但在推理过程中将多个分支模块集成到一个完全等价的模块中。然而，并不是所有提出的重参化模块都可以完美地应用于不同的架构。考虑到这一点，作者开发了新的重参数化模块，并为各种架构设计了相关的应用程序策略。下图是作者使用重参化实现构建的多个module，按照分组数不同进行排列，为什么作者会选择32的分组数，应该搞过部署的佬们会清楚一些，模块参考：https://github.com/WongKinYiu/yolov7/blob/main/models/common.py~

2.3 模型缩放

模型缩放通过扩大或缩小baseline，使其适用于不同的计算设备。模型缩放方法通常包括不同的缩放因子，如:

input size（输入图像大小）
depth（层数）
width（通道数）
stage（特征金字塔数量）

从而在网络的参数量、计算量、推理速度和精度方面实现很好的权衡。网络架构搜索(NAS)也是目前常用的模型缩放方法之一

三、模型设计架构

3.1 高效的聚合网络

在大多数关于设计高效网络的论文中，主要考虑的因素是参数量、计算量和计算密度。但从内存访存的角度出发出发，还可以分析输入/输出信道比、架构的分支数和元素级操作对网络推理速度的影响（shufflenet论文提出)。在执行模型缩放时还需考虑激活函数，即更多地考虑卷积层输出张量中的元素数量。

图2(b)中CSPVoVNet是VoVNet的一个变体。除了考虑上述几个设计问题外，CSPVoVNet的体系结构还分析了梯度路径，使不同层能够学习更多样化的特征。上面描述的梯度分析方法还能使推理速度更快、模型更准确（看下图！其实和Resnext有点像，但比它复杂一些）。

图2（c）中的ELAN出于以下设计考虑——“如何设计一个高效的网络？”得出结论是：通过控制最短最长梯度路径，更深的网络可以有效地进行学习并更好地收敛。
因此，在本文中，作者提出了基于ELAN的扩展版本E-ELAN，其主要架构如图2(d)所示。在大规模ELAN中，无论梯度路径长度和计算模块数量如何，都达到了稳定的状态。但如果更多计算模块被无限地堆叠，这种稳定状态可能会被破坏，参数利用率也会降低。本文提出的E-ELAN采用expand、shuffle、merge cardinality结构，实现在不破坏原始梯度路径的情况下，提高网络的学习能力。

在体系结构方面，E-ELAN只改变了计算模块中的结构，而过渡层的结构则完全不变。作者的策略是利用分组卷积来扩展计算模块的通道和基数，将相同的group parameter和channel multiplier用于计算每一层中的所有模块。然后，将每个模块计算出的特征图根据设置的分组数打乱成G组，最后将它们连接在一起。此时，每一组特征图中的通道数将与原始体系结构中的通道数相同。最后，作者添加了G组特征来merge cardinality。除了维护原始的ELAN设计架构外，E-ELAN还可以指导不同的分组模块来学习更多样化的特性。（难以置信，要是在CPU上运行，分分钟可能爆）

3.2 基于连接的模型的模型缩放

缩放这个就不说了，和YOLOv5、Scale YOLOv4、YOLOX类似。要不就depth and width，要不就module scale，可参考scale yolov4的P4、P5、P5结构。

四、可训练的赠品礼包（bag-of-freebies）

4.1 卷积重参化

尽管RepConv在VGG上取得了优异的性能，但将它直接应用于ResNet和DenseNet或其他网络架构时，它的精度会显着降低。作者使用梯度传播路径来分析不同的重参化模块应该和哪些网络搭配使用。通过分析RepConv与不同架构的组合以及产生的性能，作者发现RepConv中的identity破坏了ResNet中的残差结构和DenseNet中的跨层连接，这为不同的特征图提供了梯度的多样性（题外话，之前在YOLOv5 Lite上做过此类实验，结果也是如此，因此v5Lite-g的模型也是砍掉了identity，但分析不出原因，作者也没给出具体的分析方案，此处蹲坑）。

基于上述原因，作者使用没有identity连接的RepConv结构。图4显示了作者在PlainNet和ResNet中使用的“计划型重参化卷积”的一个示例。

4.2 辅助训练模块

深度监督是一种常用于训练深度网络的技术，其主要概念是在网络的中间层增加额外的辅助头，以及以辅助损失为指导的浅层网络权重。即使对于像ResNet和DenseNet这样收敛效果好的网络结构，深度监督仍然可以显着提高模型在许多任务上的性能（这个和Nanodet Plus相似，按笔者理解可以当成是深层局部网络的ensemble，最后将辅助头和检测头的权重做融合）。图5(a)和(b)分别显示了“没有”和“有”深度监督的目标检测器架构，在本文中，作者将负责最终的输出头称为引导头，将用于辅助训练的头称为辅助头。

接下来讨论标签分配的问题。在过去，在深度网络的训练中，标签分配通常直接指的是ground truth，并根据给定的规则生成hard label（未经过softmax）。然而近年来，以目标检测为例，研究者经常利用网络预测的质量分布来结合ground truth，使用一些计算和优化方法来生成可靠的软标签（soft label）。例如，YOLO使用bounding box预测和ground truth的IoU作为软标签。

在本文中，作者将网络预测结果与ground truth一起考虑后再分配软标签的机制称为“标签分配器”。无论辅助头或引导头，都需要对目标进行深度监督。那么，‘’如何为辅助头和引导头合理分配软标签？”，这是作者需要考虑的问题。目前最常用的方法如图5（c）所示，即将辅助头和引导头分离，然后利用它们各自的预测结果和ground truth执行标签分配。

本文提出的方法是一种新的标签分配方法，通过引导头的预测来引导辅助头以及自身。换句话说，首先使用引导头的prediction作为指导，生成从粗到细的层次标签，分别用于辅助头和引导头的学习，具体可看图5(d)和(e)。

Lead head guided label assigner： 引导头引导“标签分配器”预测结果和ground truth进行计算，并通过优化（在utils/loss.py的SigmoidBin(）函数中，传送门：https://github.com/WongKinYiu/yolov7/blob/main/utils/loss.py 生成软标签。这组软标签将作为辅助头和引导头的目标来训练模型。（之前写过一篇博客，【浅谈计算机视觉中的知识蒸馏】]https://zhuanlan.zhihu.com/p/497067556)详细讲过soft label的好处）这样做的目的是使引导头具有较强的学习能力，由此产生的软标签更能代表源数据与目标之间的分布差异和相关性。此外，作者还可以将这种学习看作是一种广义上的余量学习。通过让较浅的辅助头直接学习引导头已经学习到的信息，引导头能更加专注于尚未学习到的残余信息。

Coarse-to-fine lead head guided label assigner： Coarse-to-fine引导头使用到了自身的prediction和ground truth来生成软标签，引导标签进行分配。然而，在这个过程中，作者生成了两组不同的软标签，即粗标签和细标签，其中细标签与引导头在标签分配器上生成的软标签相同，粗标签是通过降低正样本分配的约束，允许更多的网格作为正目标（可以看下FastestDet的label assigner，不单单只把gt中心点所在的网格当成候选目标，还把附近的三个也算进行去，增加正样本候选框的数量）。原因是一个辅助头的学习能力并不需要强大的引导头，为了避免丢失信息，作者将专注于优化样本召回的辅助头。对于引导头的输出，可以从查准率中过滤出高精度值的结果作为最终输出。然而，值得注意的是，如果粗标签的附加权重接近细标签的附加权重，则可能会在最终预测时产生错误的先验结果。

4.3 其他可训练的bag-of-freebies

Batch normalization：目的是在推理阶段将批归一化的均值和方差整合到卷积层的偏差和权重中。
YOLOR中的隐式知识结合卷积特征映射和乘法方式：YOLOR中的隐式知识可以在推理阶段将计算值简化为向量。这个向量可以与前一层或后一层卷积层的偏差和权重相结合。
EMA Model：EMA 是一种在mean teacher中使用的技术，作者使用 EMA 模型作为最终的推理模型。

五、实验

5.1 实验环境

作者为边缘GPU、普通GPU和云GPU设计了三种模型，分别被称为YOLOv7-Tiny、YOLOv7和YOLOv7-W6。同时，还使用基本模型针对不同的服务需求进行缩放，并得到不同大小的模型。对于YOLOv7，可进行颈部缩放（module scale），并使用所提出的复合缩放方法对整个模型的深度和宽度进行缩放（depth and width scale），此方式获得了YOLOv7-X。对于YOLOv7-W6，使用提出的缩放方法得到了YOLOv7-E6和YOLOv7-D6。此外，在YOLOv7-E6使用了提出的E-ELAN，从而完成了YOLOv7-E6E。由于YOLOv7-tincy是一个面向边缘GPU架构的模型，因此它将使用ReLU作为激活函数。作为对于其他模型，使用SiLU作为激活函数。

选择当前先进的检测器YOLOR作为基线。在相同设置下，表1显示了本文提出的YOLOv7模型和其他模型的对比。从结果中可以看出：

与YOLOv4相比，YOLOv7的参数减少了75%，计算量减少了36%，AP提高了1.5%。
与最先进的YOLOR-CSP相比，YOLOv7的参数少了43% ，计算量少了15%，AP高了0.4%。
在小模型的性能中，与YOLOv4-tiny相比，YOLOv7-Tiny减少了39%的参数量和49%的计算量，但保持相同的AP。
在云GPU模型上，YOLOv7模型仍然具有更高的AP，同时减少了19%的参数量和33%的计算量。

5.3 与sota算法的比较

本文将所提出的方法与通用GPU上或边缘GPU上最先进的的目标检测器进行了比较

比较YOLOv7-Tiny-SiLU和YOLOv5-N(v6.1)，YOLOv7-Tiny-SiLU在速度上快127帧，准确率提高10.7%。
YOLOv7在帧率为161帧时有51.4%的AP，而相同AP的PP-YOLOE-L只有78帧，且参数l少41%。
YOLOv7-X在114FPS时，比YOLOv5-L(v6.1)99FPS的推理速度更快，同时可以提高3.9%的AP。
YOLOv7-X与YOLOv5-X(v6.1)相比，YOLOv7-X的推理速度要快31fps。此外，在参数量和计算量方面，YOLOv7-X比YOLOv5-X(v6.1)减少了22%的参数和8%的计算量，但AP提高了2.2%。
使用输入分辨率1280，YOLOv7与YOLOR进行比较，YOLOv7-W6的推理速度比YOLOR-P6快8FPS，检测率也提高了1%的AP。
至于YOLOv7-E6和YOLOv5-X6(v6.1)比较时，前者的AP增益比后者高0.9%，但参数减少45%，计算量减少63%，推理速度提高了47%。
YOLOv7-D6的推理速度与YOLOR-E6接近，但AP提高了0.8%。
YOLOv7-E6E的推理速度与YOLOR-D6接近，但AP提高了0.3%。

六、结论

本文提出了一种新的实时检测器。在研究过程中，本文发现了重参化模块的替换问题和动态标签的分配问题。为了解决这一问题，提出了一种可训练的bag-of-freebies策略来提高目标检测的精度。基于此，本文开发的YOLOv7系列目标检测模型获得了最先进的结果。

训练自己数据：

数据集准备：准备coco类型数据，新建MyDataCoco.yaml

# COCO 2017 dataset http://cocodataset.org

# download command/URL (optional)
# download: bash ./scripts/get_coco.sh

# train and val data as 1) directory: path/images/, 2) file: path/images.txt, or 3) list: [path1/images/, path2/images/]
train:yolov7/data/train.txt  # 118287 images
val:yolov7/data/val.txt  # 5000 images
test:yolov7/data/test.txt  # 20288 of 40670 images, submit to https://competitions.codalab.org/competitions/20794

# number of classes
nc: 10

# class names
names: ['lighthouse',
'sailboat',
'buoy',
'railbar',
'cargoship',
'navalvessels',
'passengership',
'dock',
'submarine',
'fishingboat' ]

results：

目标检测： Anchor-based 与 Anchor-free

目标检测技术包括anchor-based和anchor-free两大类：

1、基于anchor-based的技术包括一个阶段和两个阶段的检测。其中一阶段的检测技术包括SSD，DSSD，RetinaNet，RefineDet，YOLOV3等，二阶段技术包括Faster-RCNN，R-FCN，FPN，Cascade R-CNN，SNIP等。一般的，两个阶段的目标检测会比一个阶段的精度要高，但一个阶段的算法速度会更快。

二步法相对于一步法有以下几个优势：

（a）.二阶段的分类

（b）.二阶段的回归

（c）.二阶段的特征

（d）.特征校准

为了能让一步法也具备二步法的这些个优势，提出了RefineDet、SRN、AlignDet等一些列检测算法。

2、 anchor-free的技术包括基于Keypoint与Segmentation两类。其中基于Keypoint技术包括CornerNet，CenterNet，CornerNet-Lite等，基于Segmentation的技术包括FSAF，FCOS，FoveaBox等。

anchor-base存在的问题：

•与锚点框相关超参 (scale、aspect ratio、IoU Threshold) 会较明显的影响最终预测效果；（尺度(scale)和长宽比( aspect ratio)是比较难设计的。这需要较强的先验知识。）

•预置的锚点大小、比例在检测差异较大物体时不够灵活；

•大量的锚点会导致运算复杂度增大，产生的参数较多；

•容易导致训练时negative与positive的比例失衡。（冗余框非常之多：一张图像内的目标毕竟是有限的，基于每个anchor设定大量anchor box会产生大量的easy-sample，即完全不包含目标的背景框。这会造成正负样本严重不平衡问题，也是one-stage算法难以赶超two-stage算法的原因之一。）

此外基于anchor box进行目标类别分类时，IOU阈值超参设置也是一个问题，0.5？0.7？有同学可能也想到了CVPR2018的论文Cascade R-CNN，专门来讨论这个问题。

anchor-base 优点：

（1）使用anchor机制产生密集的anchor box，使得网络可直接在此基础上进行目标分类及边界框坐标回归；

（2）密集的anchor box可有效提高网络目标召回能力，对于小目标检测来说提升非常明显。

Anchor-free算法的优点：

•使用类似分割的思想来解决目标检测问题；

•不需要调优与anchor相关的超参数；

•避免大量计算GT boxes和anchor boxes 之间的IoU，使得训练过程占用内存更低。

anchor-free是通过另外一种手段来解决检测问题的。同样分为两个子问题，即确定物体中心和对四条边框的预测。预测物体中心时，将中心预测融入到类别预测的 target 里面，也可以预测一个 soft 的 centerness score。对于四条边框的预测，则比较一致，都是预测该像素点到 ground truth 框的四条边距离，不过会使用一些 trick 来限制 regress 的范围。

anchor-free类算法归纳：

A.基于多关键点联合表达的方法

a.CornerNet/CornerNet-lite：左上角点+右下角点

b.ExtremeNet：上下左右4个极值点+中心点

c.CenterNet:Keypoint Triplets for Object Detection：左上角点+右下角点+中心点

d.RepPoints：9个学习到的自适应跳动的采样点

e.FoveaBox：中心点+左上角点+右下角点

f.PLN：4个角点+中心点

B.基于单中心点预测的方法

a.CenterNet:Objects as Points：中心点+宽度+高度

b.CSP：中心点+高度（作者预设了目标宽高比固定，根据高度计算出宽度）

c.FCOS：中心点+到框的2个距离

yolov6 又快又准的目标检测框架

多年来，YOLO 系列一直是高效目标检测的行业标准。YOLO 社区蓬勃发展，丰富了其在众多硬件平台和丰富场景中的使用。在这份技术报告力求将其极限推向新的高度，以坚定不移的行业应用心态向前迈进。

考虑到真实环境中对速度和准确性的不同要求，作者广泛研究了来自工业界或学术界的最新目标检测进展。具体来说，从最近的网络设计、训练策略、测试技术、量化和优化方法中大量吸收了一些想法。最重要的是，整合思想和实践，构建了一套不同规模的部署网络，以适应多样化的用例。

在 YOLO 作者的慷慨许可下，作者将其命名为 YOLOv6。作者也热烈欢迎用户和贡献者进一步增强。YOLOv6-N 在 NVIDIA Tesla T4 GPU 上以 1234 FPS 的吞吐量在 COCO 数据集上达到 35.9% 的 AP。YOLOv6-S 以 495 FPS 的速度达到 43.5% 的 AP，优于同规模的其他主流检测器（YOLOv5-S、YOLOX-S 和 PPYOLOE-S）。

YOLOv6-S 量化版本甚至带来了 869 FPS 的最新 43.3% AP。此外，与具有相似推理速度的其他检测器相比，YOLOv6-M/L 还实现了更好的准确度性能（即 49.5%/52.3%）。

近日，美团视觉智能部研发了一款致力于工业应用的目标检测框架 YOLOv6，能够同时专注于检测的精度和推理效率。在研发过程中，视觉智能部不断进行了探索和优化，同时吸取借鉴了学术界和工业界的一些前沿进展和科研成果。在目标检测权威数据集 COCO 上的实验结果显示，YOLOv6 在检测精度和速度方面均超越其他同体量的算法，同时支持多种不同平台的部署，极大简化工程部署时的适配工作。特此开源，希望能帮助到更多的同学。

YOLOv6 是美团视觉智能部研发的一款目标检测框架，致力于工业应用。本框架同时专注于检测的精度和推理效率，在工业界常用的尺寸模型中：YOLOv6-nano 在 COCO 上精度可达 35.0% AP，在 T4 上推理速度可达 1242 FPS；YOLOv6-s 在 COCO 上精度可达 43.1% AP，在 T4 上推理速度可达 520 FPS。在部署方面，YOLOv6 支持 GPU（TensorRT）、CPU（OPENVINO）、ARM（MNN、TNN、NCNN）等不同平台的部署，极大地简化工程部署时的适配工作。

目前，项目已开源至Github，传送门：YOLOv6。欢迎有需要的小伙伴们Star收藏，随时取用。

精度与速度远超 YOLOv5 和 YOLOX 的新框架

目标检测作为计算机视觉领域的一项基础性技术，在工业界得到了广泛的应用，其中 YOLO 系列算法因其较好的综合性能，逐渐成为大多数工业应用时的首选框架。至今，业界已衍生出许多 YOLO 检测框架，其中以 YOLOv5^[1]、YOLOX^[2] 和 PP-YOLOE^[3] 最具代表性，但在实际使用中，我们发现上述框架在速度和精度方面仍有很大的提升的空间。基于此，我们通过研究并借鉴了业界已有的先进技术，开发了一套新的目标检测框架——YOLOv6。该框架支持模型训练、推理及多平台部署等全链条的工业应用需求，并在网络结构、训练策略等算法层面进行了多项改进和优化，在 COCO 数据集上，YOLOv6 在精度和速度方面均超越其他同体量算法，相关结果如下图 1 所示：

图 1-1 展示了不同尺寸网络下各检测算法的性能对比，曲线上的点分别表示该检测算法在不同尺寸网络下（s/tiny/nano）的模型性能，从图中可以看到，YOLOv6 在精度和速度方面均超越其他 YOLO 系列同体量算法。

图 1-2 展示了输入分辨率变化时各检测网络模型的性能对比，曲线上的点从左往右分别表示图像分辨率依次增大时（384/448/512/576/640）该模型的性能，从图中可以看到，YOLOv6 在不同分辨率下，仍然保持较大的性能优势。

2. YOLOv6关键技术介绍

YOLOv6 主要在 BackBone、Neck、Head 以及训练策略等方面进行了诸多的改进：

设计了更高效的 Backbone 和 Neck ：受到硬件感知神经网络设计思想的启发，基于 RepVGG style^[4] 设计了可重参数化、更高效的骨干网络 EfficientRep Backbone 和 Rep-PAN Neck。
优化设计了更简洁有效的 Efficient Decoupled Head，在维持精度的同时，进一步降低了一般解耦头带来的额外延时开销。
在训练策略上，我们采用Anchor-free 无锚范式，同时辅以 SimOTA^[2] 标签分配策略以及 SIoU^[9] 边界框回归损失来进一步提高检测精度。

将 YOLOv6 的主要方面总结如下：

针对不同场景中的工业应用重新设计了一系列不同规模的网络。不同规模的架构各不相同，以实现最佳的速度和准确性权衡，其中小型模型具有简单的单路径主干，大型模型建立在高效的多分支块上。
为 YOLOv6 注入了一种self-distillation策略，在分类任务和回归任务上都执行。同时，动态调整来自教师和标签的知识，以帮助学生模型在所有训练阶段更有效地学习知识。
广泛验证标签分配、损失函数和数据增强技术的先进检测技术，并有选择地采用它们以进一步提高性能。
在 RepOptimizer 和通道蒸馏的帮助下改进了检测的量化方案，这带来了具有 43.3% 的 COCO AP 和 869 FPS 的吞吐量的快速准确的检测器，批量大小为 32。

2.1 Hardware-friendly 的骨干网络设计

YOLOv5/YOLOX 使用的 Backbone 和 Neck 都基于 CSPNet^[5] 搭建，采用了多分支的方式和残差结构。对于 GPU 等硬件来说，这种结构会一定程度上增加延时，同时减小内存带宽利用率。下图 2 为计算机体系结构领域中的 Roofline Model^[8] 介绍图，显示了硬件中计算能力和内存带宽之间的关联关系。

于是，我们基于硬件感知神经网络设计的思想，对 Backbone 和 Neck 进行了重新设计和优化。该思想基于硬件的特性、推理框架/编译框架的特点，以硬件和编译友好的结构作为设计原则，在网络构建时，综合考虑硬件计算能力、内存带宽、编译优化特性、网络表征能力等，进而获得又快又好的网络结构。对上述重新设计的两个检测部件，我们在 YOLOv6 中分别称为 EfficientRep Backbone 和 Rep-PAN Neck，其主要贡献点在于：

引入了 RepVGG^[4] style 结构。
基于硬件感知思想重新设计了 Backbone 和 Neck。

RepVGG^[4] Style 结构是一种在训练时具有多分支拓扑，而在实际部署时可以等效融合为单个 3×3 卷积的一种可重参数化的结构（融合过程如下图 3 所示）。通过融合成的 3×3 卷积结构，可以有效利用计算密集型硬件计算能力（比如 GPU），同时也可获得 GPU/CPU 上已经高度优化的 NVIDIA cuDNN 和 Intel MKL 编译框架的帮助。

实验表明，通过上述策略，YOLOv6 减少了在硬件上的延时，并显着提升了算法的精度，让检测网络更快更强。以 nano 尺寸模型为例，对比 YOLOv5-nano 采用的网络结构，本方法在速度上提升了21%，同时精度提升 3.6% AP。

EfficientRep Backbone：在 Backbone 设计方面，我们基于以上 Rep 算子设计了一个高效的Backbone。相比于 YOLOv5 采用的 CSP-Backbone，该 Backbone 能够高效利用硬件（如 GPU）算力的同时，还具有较强的表征能力。

下图 4 为 EfficientRep Backbone 具体设计结构图，将 Backbone 中 stride=2 的普通 Conv 层替换成了 stride=2 的 RepConv层。同时，将原始的 CSP-Block 都重新设计为 RepBlock，其中 RepBlock 的第一个 RepConv 会做 channel 维度的变换和对齐。另外，我们还将原始的 SPPF 优化设计为更加高效的 SimSPPF。

Rep-PAN：在 Neck 设计方面，为了让其在硬件上推理更加高效，以达到更好的精度与速度的平衡，我们基于硬件感知神经网络设计思想，为 YOLOv6 设计了一个更有效的特征融合网络结构。

Rep-PAN 基于 PAN^[6] 拓扑方式，用 RepBlock 替换了 YOLOv5 中使用的 CSP-Block，同时对整体 Neck 中的算子进行了调整，目的是在硬件上达到高效推理的同时，保持较好的多尺度特征融合能力（Rep-PAN 结构图如下图 5 所示）。

2.2 更简洁高效的 Decoupled Head

在 YOLOv6 中，我们采用了解耦检测头（Decoupled Head）结构，并对其进行了精简设计。原始 YOLOv5 的检测头是通过分类和回归分支融合共享的方式来实现的，而 YOLOX 的检测头则是将分类和回归分支进行解耦，同时新增了两个额外的 3×3 的卷积层，虽然提升了检测精度，但一定程度上增加了网络延时。

因此，我们对解耦头进行了精简设计，同时综合考虑到相关算子表征能力和硬件上计算开销这两者的平衡，采用 Hybrid Channels 策略重新设计了一个更高效的解耦头结构，在维持精度的同时降低了延时，缓解了解耦头中 3×3 卷积带来的额外延时开销。通过在 nano 尺寸模型上进行消融实验，对比相同通道数的解耦头结构，精度提升 0.2% AP 的同时，速度提升6.8%。

2.3 更有效的训练策略

为了进一步提升检测精度，我们吸收借鉴了学术界和业界其他检测框架的先进研究进展：Anchor-free 无锚范式、SimOTA 标签分配策略以及 SIoU 边界框回归损失。

Anchor-free 无锚范式

YOLOv6 采用了更简洁的 Anchor-free 检测方法。由于 Anchor-based检测器需要在训练之前进行聚类分析以确定最佳 Anchor 集合，这会一定程度提高检测器的复杂度；同时，在一些边缘端的应用中，需要在硬件之间搬运大量检测结果的步骤，也会带来额外的延时。而 Anchor-free 无锚范式因其泛化能力强，解码逻辑更简单，在近几年中应用比较广泛。经过对 Anchor-free 的实验调研，我们发现，相较于Anchor-based 检测器的复杂度而带来的额外延时，Anchor-free 检测器在速度上有51%的提升。

SimOTA 标签分配策略

为了获得更多高质量的正样本，YOLOv6 引入了 SimOTA ^[4]算法动态分配正样本，进一步提高检测精度。YOLOv5 的标签分配策略是基于 Shape 匹配，并通过跨网格匹配策略增加正样本数量，从而使得网络快速收敛，但是该方法属于静态分配方法，并不会随着网络训练的过程而调整。

近年来，也出现不少基于动态标签分配的方法，此类方法会根据训练过程中的网络输出来分配正样本，从而可以产生更多高质量的正样本，继而又促进网络的正向优化。例如，OTA^[7] 通过将样本匹配建模成最佳传输问题，求得全局信息下的最佳样本匹配策略以提升精度，但 OTA 由于使用了Sinkhorn-Knopp 算法导致训练时间加长，而 SimOTA^[4]算法使用 Top-K 近似策略来得到样本最佳匹配，大大加快了训练速度。故 YOLOv6 采用了SimOTA 动态分配策略，并结合无锚范式，在 nano 尺寸模型上平均检测精度提升 1.3% AP。

SIoU 边界框回归损失

为了进一步提升回归精度，YOLOv6 采用了 SIoU^[9] 边界框回归损失函数来监督网络的学习。目标检测网络的训练一般需要至少定义两个损失函数：分类损失和边界框回归损失，而损失函数的定义往往对检测精度以及训练速度产生较大的影响。

近年来，常用的边界框回归损失包括IoU、GIoU、CIoU、DIoU loss等等，这些损失函数通过考虑预测框与目标框之前的重叠程度、中心点距离、纵横比等因素来衡量两者之间的差距，从而指导网络最小化损失以提升回归精度，但是这些方法都没有考虑到预测框与目标框之间方向的匹配性。SIoU 损失函数通过引入了所需回归之间的向量角度，重新定义了距离损失，有效降低了回归的自由度，加快网络收敛，进一步提升了回归精度。通过在 YOLOv6s 上采用 SIoU loss 进行实验，对比 CIoU loss，平均检测精度提升 0.3% AP。

3. 实验结果

经过以上优化策略和改进，YOLOv6 在多个不同尺寸下的模型均取得了卓越的表现。下表 1 展示了 YOLOv6-nano 的消融实验结果，从实验结果可以看出，我们自主设计的检测网络在精度和速度上都带来了很大的增益。

下表 2 展示了 YOLOv6 与当前主流的其他 YOLO 系列算法相比较的实验结果。从表格中可以看到：

YOLOv6-nano 在 COCO val 上取得了 35.0% AP 的精度，同时在 T4 上使用 TRT FP16 batchsize=32 进行推理，可达到 1242FPS 的性能，相较于 YOLOv5-nano 精度提升 7% AP，速度提升 85%。
YOLOv6-tiny 在 COCO val 上取得了 41.3% AP 的精度，同时在 T4 上使用 TRT FP16 batchsize=32 进行推理，可达到 602FPS 的性能，相较于 YOLOv5-s 精度提升 3.9% AP，速度提升 29.4%。
YOLOv6-s 在 COCO val 上取得了 43.1% AP 的精度，同时在 T4 上使用 TRT FP16 batchsize=32 进行推理，可达到 520FPS 的性能，相较于 YOLOX-s 精度提升 2.6% AP，速度提升 38.6%；相较于 PP-YOLOE-s 精度提升 0.4% AP的条件下，在T4上使用 TRT FP16 进行单 batch 推理，速度提升 71.3%。

在海面图片（自己的训练集）上的训练：

is_coco: False
# Classes
nc: 10  # number of classes
names: ['lighthouse',
'sailboat',
'buoy',
'railbar',
'cargoship',
'navalvessels',
'passengership',
'dock',
'submarine',
'fishingboat']  # class names

yolov6s 结果： coco_detection_metrics ——COCO检测指标

Average Precision (AP)和Average Recall (AR)等等这些都是啥意思？

IoU=0.50意味着IoU大于0.5被认为是检测到。
IoU=0.50:0.95意味着IoU在0.5到0.95的范围内被认为是检测到。
越低的IoU阈值，则判为正确检测的越多，相应的，Average Precision (AP)也就越高。参考上面的第二第三行。
small表示标注的框面积小于32 * 32；
medium表示标注的框面积同时小于96 * 96；
large表示标注的框面积大于等于96 * 96；
all表示不论大小，我都要。
maxDets=100表示最大检测目标数为100。

Average Precision (AP)和Average Recall (AR)值里面有-1是什么情况？

参考：https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocotools/cocoeval.py#L52

标注里面没有此类型的目标框，则Average Precision和Average Recall值为-1。

Recall 召回率（查全率）。表示正确识别物体A的个数占测试集中物体A的总个数的百分数，即所有正例中预测正确的概率，Recall = tpr = TP / (TP+FN)

Precision 精确率（查准率）。表示正确识别物体A的个数占总识别出的物体个数n的百分数，即预测为正例中预测正确的概率，Precision = TP / (TP+FP)

以下12个指标用于表征COCO上物体检测器的性能：

Average Precision (AP):

AP % AP at IoU=0.50:0.05:0.95 (primary challenge metric)

APIoU=.50 % AP at IoU=0.50 (PASCAL VOC metric)

APIoU=.75 % AP at IoU=0.75 (strict metric)

AP Across Scales:

APsmall % AP for small objects: area < 322

APmedium % AP for medium objects: 322 < area < 962

APlarge % AP for large objects: area > 962

Average Recall (AR):

ARmax=1 % AR given 1 detection per image

ARmax=10 % AR given 10 detections per image

ARmax=100 % AR given 100 detections per image

AR Across Scales:

ARsmall % AR for small objects: area < 322

ARmedium % AR for medium objects: 322 < area < 962

ARlarge % AR for large objects: area > 962

1）除非另有说明，否则AP和AR在多个交汇点（IoU）值上取平均值。具体来说，我们使用10个IoU阈值0.50：0.05：0.95。这是对传统的一个突破，其中AP是在一个单一的0.50的IoU上计算的（这对应于我们的度量APIoU=.50 ）。超过均值的IoUs能让探测器更好定位（Averaging over IoUs rewards detectors with better localization.）。

2）AP是所有类别的平均值。传统上，这被称为“平均精确度”（mAP，mean average precision）。我们没有区分AP和mAP（同样是AR和mAR），并假定从上下文中可以清楚地看出差异。

3)AP（所有10个IoU阈值和所有80个类别的平均值）将决定赢家。在考虑COCO性能时，这应该被认为是最重要的一个指标。

4)在COCO中，比大物体相比有更多的小物体。具体地说，大约41％的物体很小（面积<322），34％是中等（322 < area < 962)），24％大（area > 962）。测量的面积（area）是分割掩码（segmentation mask）中的像素数量。

5）AR是在每个图像中检测到固定数量的最大召回（recall），在类别和IoU上平均。AR与提案评估（proposal evaluation）中使用的同名度量相关，但是按类别计算。

6）所有度量标准允许每个图像（在所有类别中）最多100个最高得分检测进行计算。

7）除了IoU计算（分别在框（box）或掩码（mask）上执行）之外，用边界框和分割掩码检测的评估度量在所有方面是相同的。

测试速度：

img show：

A ConvNet for the 2020s

论文地址：https://arxiv.org/abs/2201.03545

github： https://github.com/facebookresearch/ConvNeXt

class Block(nn.Module):
    r""" ConvNeXt Block. There are two equivalent implementations:
    (1) DwConv -> LayerNorm (channels_first) -> 1x1 Conv -> GELU -> 1x1 Conv; all in (N, C, H, W)
    (2) DwConv -> Permute to (N, H, W, C); LayerNorm (channels_last) -> Linear -> GELU -> Linear; Permute back
    We use (2) as we find it slightly faster in PyTorch
    
    Args:
        dim (int): Number of input channels.
        drop_path (float): Stochastic depth rate. Default: 0.0
        layer_scale_init_value (float): Init value for Layer Scale. Default: 1e-6.
    """
    def __init__(self, dim, drop_path=0., layer_scale_init_value=1e-6):
        super().__init__()
        self.dwconv = nn.Conv2d(dim, dim, kernel_size=7, padding=3, groups=dim) # depthwise conv
        self.norm = LayerNorm(dim, eps=1e-6)
        self.pwconv1 = nn.Linear(dim, 4 * dim) # pointwise/1x1 convs, implemented with linear layers
        self.act = nn.GELU()
        self.pwconv2 = nn.Linear(4 * dim, dim)
        self.gamma = nn.Parameter(layer_scale_init_value * torch.ones((dim)), 
                                    requires_grad=True) if layer_scale_init_value > 0 else None
        self.drop_path = DropPath(drop_path) if drop_path > 0. else nn.Identity()

    def forward(self, x):
        input = x
        x = self.dwconv(x)
        x = x.permute(0, 2, 3, 1) # (N, C, H, W) -> (N, H, W, C)
        x = self.norm(x)
        x = self.pwconv1(x)
        x = self.act(x)
        x = self.pwconv2(x)
        if self.gamma is not None:
            x = self.gamma * x
        x = x.permute(0, 3, 1, 2) # (N, H, W, C) -> (N, C, H, W)

        x = input + self.drop_path(x)
        return x

2020年以来，ViT一直是研究热点。ViT在图片分类上的性能超过卷积网络的性能，后续发展而来的各种变体将ViT发扬光大（如Swin-T，CSwin-T等），值得一提的是Swin-T中的滑窗操作类似于卷积操作，降低了运算复杂度，使得ViT可以被用做其他视觉任务的骨干网络，ViT变得更火了。本文探究卷积网络到底输在了哪里，卷积网络的极限在哪里。在本文中，作者逐渐向ResNet中增加结构（或使用trick）来提升卷积模型性能，最终将ImageNet top-1刷到了87.8%。作者认为本文所提出的网络结构是新一代（2020年代）的卷积网络（ConvNeXt），因此将文章命名为“2020年代的卷积网络”。

方法

训练方法

作者首先将ViT的训练技巧，包括lr scheduler、数据增强方法、优化器超参等应用于ResNet-50，并将训练轮数由90扩大到300，结果分类准确率由76.1%上升到78.8%。具体训练config如下：

宏观设计

作者借鉴了Swin-T的两个设计:

每阶段的计算量
对输入图片下采样方法

对于第一点类似Swin-T四个阶段1:1:9:1的计算量，作者将ResNet-50每个阶段block数调整为3，3，9，3（原来为3，4，6，3），增加第三阶段计算量，准确率由78.8%提升至79.4%。

对于第二点Swin-T融合压缩2 $\times$ 2的区域，作者则使用4 4步长为4的卷积对输入图片进行下采样，这样每次卷积操作的感受野不重叠，准确率由79.4%提升至79.5%。

类ResNeXt设计

depthwise conv中的逐channel卷积操作和self-attention中的加权求和很类似，因此作者采用depthwise conv替换普通卷积。参照ResNeXt，作者将通道数增加到96，准确率提升至80.5%，FLOPs相应增大到了5.3G。相比之下原始的ResNet-50 FLOPs为4G，运算量增大很多。

Inverted Bottleneck

在depthwise conv的基础上借鉴MobileNet的inverted bottleneck设计，将block由下图(a)变为(b)。因为depthwise不会使channel之间的信息交互，因此一般depthwise conv之后都会接1 $\times$ 1 $\times$ C的pointwise conv。这一顿操作下来准确率只涨了0.1%到80.6%。在后文说明的大模型上涨点多一点。

增大卷积kernel

作者认为更大的感受野是ViT性能更好的可能原因之一，作者尝试增大卷积的kernel，使模型获得更大的感受野。首先在pointwise conv的使用上，作者为了获得更大的感受野，将depthwise conv提前到1 1 conv之前，之后用384个1 1 96的conv将模型宽度提升4倍，在用96个1 1 96的conv恢复模型宽度。反映在上图中就是由(b)变为(c)。由于3 $\times$ 3的conv数量减少，模型FLOPs由5.3G减少到4G，相应地性能暂时下降到79.9%。

然后作者尝试增大depthwise conv的卷积核大小，证明77大小的卷积核效果达到最佳。

其他乱七八糟的尝试

借鉴最初的Transformer设计，作者将ReLU替换为GELU；ViT的K/Q/V计算中都没有用到激活函数和归一化层，于是作者也删除了大量的激活函数和归一化层，仅在1 1卷积之间使用激活函数，仅在7 7卷积和1 1 卷积之间使用归一化层，同时将BN升级为LN。最终block结构确定如下：

最后仿照Swin-T，作者将下采样层单独分离出来，单独使用2 $\times$ 2卷积层进行下采样。为保证收敛，在下采样后加上Layer Norm归一化。最终加强版ResNet-50准确率82.0%（FLOPs 4.5G）。

总的来说ResNet-50、本文模型和Swin-T结构差别如下：

MAE(Masked Autoencoders Are Scalable Vision Learners)

GitHub: https://github.com/facebookresearch/mae

PAPER: https://arxiv.org/abs/2111.06377

Abstract

恺明提出一种用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders(MAE)。所提MAE极为简单：对输入图像的随机块进行mask并对遗失像素进行重建。它基于以下两个核心设计：

我们设计了一种非对称编解码架构，其中解码器仅作用于可见块(无需mask信息)，而解码器则通过隐表达与mask信息进行原始图像重建；
我们发现对输入图像进行高比例mask(比如75%)可以产生一项重要且有意义的自监督任务。

上述两种设计促使我们可以更高效的训练大模型：我们加速训练达3x甚至更多，同时提升模型精度。所提方案使得所得高精度模型具有很好的泛化性能：仅需ImageNet-1K，ViT-Huge取得了87.8%的top1精度 。下游任务的迁移取得了优于监督训练的性能，证实了所提方案的可扩展能力。

极致精简版

用下面几句话来简单说明下这篇文章：

恺明出品，必属精品！MAE延续了其一贯的研究风格：简单且实用；
MAE兴起于去噪自编码，但兴盛于NLP的BERT。那么是什么导致了MAE在CV与NLP中表现的差异呢？这是本文的出发点。
角度一：CV与NLP的架构不同。CV中常采用卷积这种具有”规则性“的操作，直到近期ViT才打破了架构差异；
角度二：信息密度不同。语言是人发明的，具有高语义与信息稠密性；而图像则是自然信号具有重度空间冗余：遗失块可以通过近邻块重建且无需任何全局性理解。为克服这种差异，我们采用了一种简单的策略：高比例随机块掩码，大幅降低冗余。
角度三：自编码器的解码器在重建方面的作用不同。在视觉任务方面，解码器进行像素重建，具有更低语义信息；而在NLP中，解码器预测遗失的词，包含丰富的语义信息。
基于上述三点分析，作者提出了一种非常简单的用于视觉表达学习的掩码自编码器MAE。
MAE采用了非对称的编解码器架构，编码器仅作用于可见图像块(即输入图像块中一定比例进行丢弃，丢弃比例高达75%)并生成隐式表达，解码器则以掩码token以及隐式表达作为输入并对遗失块进行重建。
搭配MAE的ViT-H取得了ImageNet-1K数据集上的新记录：87.8%；同时，经由MAE预训练的模型具有非常好的泛化性能。

Method

所提MAE是一种非常简单的自编码器方案：基于给定部分观测信息对原始信号进行重建 。类似于其他自编码器，所提MAE包含一个将观测信号映射为隐式表达的编码器，一个用于将隐式表达重建为原始信号的解码器。与经典自编码器不同之处在于：我们采用了非对称设计，这使得编码器仅依赖于部分观测信息(无需掩码token信息)，而轻量解码器则接与所得隐式表达与掩码token进行原始信号重建(可参见下图)。

Masking 参考ViT，我们将输入图像拆分为非重叠块，然后采样一部分块并移除其余块(即Mask)。我们的采样策略非常简单：服从均匀分布的无重复随机采样 。我们将该采样策略称之为“随机采样”。具有高掩码比例的随机采样可以极大程度消除冗余，进而构建一个不会轻易的被近邻块推理解决的任务 (可参考下面图示)。而均匀分布则避免了潜在的中心偏置问题。

MAE Encoder MAE中的编码器是一种ViT，但仅作用于可见的未被Mask的块。类似于标准ViT，该编码器通过线性投影于位置嵌入对块进行编码，然后通过一系列Transformer模块进行处理。然而，由于该编解码仅在较小子集块(比如25%)进行处理，且未用到掩码Token信息。这就使得我们可以训练一个非常大的编码器 。

MAE Decoder MAE解码器的输入包含：(1) 编码器的输出；(2) 掩码token。正如Figure1所示，每个掩码Token共享的可学习向量，它用于指示待预测遗失块。此时，我们对所有token添加位置嵌入信息。解码器同样包含一系列Transformer模块。

注：MAE解码器仅在预训练阶段用于图像重建，编码器则用来生成用于识别的图像表达 。因此，解码器的设计可以独立于编码设计，具有高度的灵活性。在实验过程中，我们采用了窄而浅的极小解码器，比如默认解码器中每个token的计算量小于编码器的10% 。通过这种非对称设计，token的全集仅被轻量解码器处理，大幅减少了预训练时间。

Reconstruction target 该MAE通过预测每个掩码块的像素值进行原始信息重建。解码器的最后一层为线性投影，其输出通道数等于每个块的像素数量。编码器的输出将通过reshape构建重建图像。损失函数则采用了MSE，注：类似于BERT仅在掩码块计算损失。

我们同时还研究了一个变种：其重建目标为每个掩码块的规范化像素值 。具体来说，我们计算每个块的均值与标准差并用于对该块进行归一化，最后采用归一化的像素作为重建目标提升表达能力。

Simple implementation MAE预训练极为高效，更重要的是：它不需要任何特定的稀疏操作。实现过程可描述如下：

首先，我们通过线性投影与位置嵌入对每个输入块生成token；
然后，我们随机置换(random shuffle)token序列并根据掩码比例移除最后一部分token；
其次，完成编码后，我们在编码块中插入掩码token并反置换(unshuffle)得到全序列token以便于与target进行对齐；
最后，我们将解码器作用于上述全序列token。

正如上所述：MAE无需稀疏操作。此外，shuffle与unshuffle操作非常快，引入的计算量可以忽略。