人工智能 – 第 34 页

区域卷积神经⽹络（R-CNN）系列

1、R-CNN

R-CNN ⾸先从输⼊图像中选取若⼲（例如2000个）提议区域（如锚框也是⼀种选取方法），并标注它们的类别和边界框（如偏移量）。[Girshick et al., 2014] 然后，⽤卷积神经⽹络对每个提议区域进⾏前向计算以抽取其特征。接下来，我们⽤每个提议区域的特征来预测类别和边界框。

具体来说，R-CNN包括以下四个步骤：

对输⼊图像使⽤选择性搜索来选取多个⾼质量的提议区域 [Uijlings et al., 2013] 。这些提议区域通常是在多个尺度下选取的，并具有不同的形状和⼤小。每个提议区域都将被标注类别和真实边界框。
选择⼀个预训练的卷积神经⽹络，并将其在输出层之前截断。将每个提议区域变形为⽹络需要的输⼊尺⼨，并通过前向计算输出抽取的提议区域特征。
将每个提议区域的特征连同其标注的类别作为⼀个样本。训练多个⽀持向量机对⽬标分类，其中每个⽀持向量机⽤来判断样本是否属于某⼀个类别。
将每个提议区域的特征连同其标注的边界框作为⼀个样本，训练线性回归模型来预测真实边界框。

尽管 R-CNN 模型通过预训练的卷积神经⽹络有效地抽取了图像特征，但它的速度很慢。想象⼀下，我们可能从⼀张图像中选出上千个提议区域，这需要上千次的卷积神经⽹络的前向计算来执⾏⽬标检测。这种庞⼤的计算量使得 R-CNN 在现实世界中难以被⼴泛应⽤。

2、Fast R-CNN

R-CNN 的主要性能瓶颈在于，对每个提议区域，卷积神经⽹络的前向计算是独⽴的，而没有共享计算。由于这些区域通常有重叠，独⽴的特征抽取会导致重复的计算。Fast R-CNN [Girshick, 2015] 对 R-CNN 的主要改进之⼀，是仅在整张图象上执⾏卷积神经⽹络的前向计算。

它的主要计算如下：

与 R-CNN 相⽐，Fast R-CNN ⽤来提取特征的卷积神经⽹络的输⼊是整个图像，而不是各个提议区域。此外，这个⽹络通常会参与训练。设输⼊为⼀张图像，将卷积神经⽹络的输出的形状记为 1×c×h1×w1。
假设选择性搜索⽣成了n个提议区域。这些形状各异的提议区域在卷积神经⽹络的输出上分别标出了形状各异的兴趣区域。然后，这些感兴趣的区域需要进⼀步抽取出形状相同的特征（⽐如指定⾼度h2和宽度w2），以便于连结后输出。为了实现这⼀⽬标，Fast R-CNN 引⼊了兴趣区域 (RoI) 池化层：将卷积神经⽹络的输出和提议区域作为输⼊，输出连结后的各个提议区域抽取的特征，形状为n × c × h2 × w2。
通过全连接层将输出形状变换为n × d，其中超参数d取决于模型设计。
预测n个提议区域中每个区域的类别和边界框。更具体地说，在预测类别和边界框时，将全连接层的输出分别转换为形状为 n × q（q 是类别的数量）的输出和形状为 n × 4 的输出。其中预测类别时使⽤softmax 回归。

在Fast R-CNN 中提出的兴趣区域汇聚层与 6.5节中介绍的汇聚层有所不同。在汇聚层中，我们通过设置池化窗口、填充和步幅的⼤小来间接控制输出形状。而兴趣区域汇聚层对每个区域的输出形状是可以直接指定的。例如，指定每个区域输出的⾼和宽分别为 h2 和 w2。对于任何形状为 h × w 的兴趣区域窗口，该窗口将被划分为 h2 × w2 ⼦窗口⽹格，其中每个⼦窗口的⼤小约为(h/h2) × (w/w2)。在实践中，任何⼦窗口的⾼度和宽度都应向上取整，其中的最⼤元素作为该⼦窗口的输出。因此，兴趣区域汇聚层可从形状各异的兴趣区域中均抽取出形状相同的特征。

3、Faster R-CNN

为了较精确地检测⽬标结果，Fast R-CNN 模型通常需要在选择性搜索中⽣成⼤量的提议区域。Faster R-CNN [Ren et al., 2015] 提出将选择性搜索替换为区域提议⽹络（region proposal network），从而减少提议区域的⽣成数量，并保证⽬标检测的精度。

与Fast R-CNN 相⽐，Faster R-CNN 只将⽣成提议区域的⽅法从选择性
搜索改为了区域提议⽹络，模型的其余部分保持不变。具体来说，区域提议⽹络的计算步骤如下：

使⽤填充为1的 3 × 3 的卷积层变换卷积神经⽹络的输出，并将输出通道数记为 c。这样，卷积神经⽹络为图像抽取的特征图中的每个单元均得到⼀个⻓度为 c 的新特征。
以特征图的每个像素为中⼼，⽣成多个不同⼤小和宽⾼⽐的锚框并标注它们。
使⽤锚框中⼼单元⻓度为 c 的特征，分别预测该锚框的⼆元类别（含⽬标还是背景）和边界框。
使⽤⾮极⼤值抑制，从预测类别为⽬标的预测边界框中移除相似的结果。最终输出的预测边界框即是兴趣区域汇聚层所需的提议区域。

值得⼀提的是，区域提议⽹络作为 Faster R-CNN 模型的⼀部分，是和整个模型⼀起训练得到的。换句话说，Faster R-CNN 的⽬标函数不仅包括⽬标检测中的类别和边界框预测，还包括区域提议⽹络中锚框的⼆元类别和边界框预测。作为端到端训练的结果，区域提议⽹络能够学习到如何⽣成⾼质量的提议区域，从而在减少了从数据中学习的提议区域的数量的情况下，仍保持⽬标检测的精度

4、Mask R-CNN

如果在训练集中还标注了每个⽬标在图像上的像素级位置，那么 Mask R-CNN [He et al., 2017] 能够有效地利⽤这些详尽的标注信息进⼀步提升⽬标检测的精度。

如图13.8.5 所⽰，Mask R-CNN 是基于 Faster R-CNN 修改而来的。具体来说，Mask R-CNN 将兴趣区域汇聚层替换为了兴趣区域 (RoI) 对⻬层，使⽤双线性插值（bilinear interpolation）来保留特征图上的空间信息，从而更适于像素级预测。兴趣区域对⻬层的输出包含了所有与兴趣区域的形状相同的特征图。它们不仅被⽤于预测每个兴趣区域的类别和边界框，还通过额外的全卷积⽹络预测⽬标的像素级位置。

补充：ROI Align 和 ROI Pooling

这两个都是用在rpn之后的。具体来说，从feature map上经过RPN得到一系列的proposals，大概2k个，这些bbox大小不等，如何将这些bbox的特征进行统一表示就变成了一个问题。即需要找一个办法从大小不等的框中提取特征使输出结果是等长的。最开始目标检测模型Faster RCNN中用了一个简单粗暴的办法，叫ROI Pooling。该方式在语义分割这种精细程度高的任务中，不够精准，由此发展来了ROI Align。

ROI Pooling：

假如现在有一个8×8的feature map，现在希望得到2×2的输出，有一个bbox坐标为[0,3,7,8]。

这个bbox的w=7，h=5，如果要等分成四块是做不到的，因此在ROI Pooling中会进行取整。就有了上图看到的h被分割为2,3，w被分割成3,4。这样之后在每一块(称为bin)中做max pooling，可以得到下图的结果。

这样就可以将任意大小bbox转成2×2表示的feature。

ROI Pooling需要取整，这样的取整操作进行了两次，一次是得到bbox在feature map上的坐标时。

例如：原图上的bbox大小为665×665，经backbone后，spatial scale=1/32。因此bbox也相应应该缩小为665/32=20.78，但是这并不是一个真实的pixel所在的位置，因此这一步会取为20。0.78的差距反馈到原图就是0.78×32=25个像素的差距。如果是大目标这25的差距可能看不出来，但对于小目标而言差距就比较巨大了。

ROI Align

因此有人提出不需要进行取整操作，如果计算得到小数，也就是没有落到真实的pixel上，那么就用最近的pixel对这一点虚拟pixel进行双线性插值，得到这个“pixel”的值。

将bbox区域按输出要求的size进行等分，很可能等分后各顶点落不到真实的像素点上
没关系，在每个bin中再取固定的4个点(作者实验后发现取4效果较好)，也就是图二右侧的蓝色点
针对每一个蓝点，距离它最近的4个真实像素点的值加权(双线性插值)，求得这个蓝点的值
一个bin内会算出4个新值，在这些新值中取max，作为这个bin的输出值
最后就能得到2×2的输出

ROI Pooling和ROI Align

这两个都是用在rpn之后的。具体来说，从feature map上经过RPN得到一系列的proposals，大概2k个，这些bbox大小不等，如何将这些bbox的特征进行统一表示就变成了一个问题。即需要找一个办法从大小不等的框中提取特征使输出结果是等长的。

最开始目标检测模型Faster RCNN中用了一个简单粗暴的办法，叫ROI Pooling。

该方式在语义分割这种精细程度高的任务中，不够精准，由此发展来了ROI Align。

今天就总结下两者的思想。

ROI Pooling

假如现在有一个8×8的feature map，现在希望得到2×2的输出，有一个bbox坐标为[0,3,7,8]。

这样就可以将任意大小bbox转成2×2表示的feature。

ROI Pooling需要取整，这样的取整操作进行了两次，一次是得到bbox在feature map上的坐标时。

ROI Align

具体做法如下图所示：

将bbox区域按输出要求的size进行等分，很可能等分后各顶点落不到真实的像素点上
没关系，在每个bin中再取固定的4个点(作者实验后发现取4效果较好)，也就是图二右侧的蓝色点
针对每一个蓝点，距离它最近的4个真实像素点的值加权(双线性插值)，求得这个蓝点的值
一个bin内会算出4个新值，在这些新值中取max，作为这个bin的输出值
最后就能得到2×2的输出

UNET 3+

论文： https://arxiv.org/abs/2004.08790

github: https://github.com/ZJUGiveLab/UNet-Version

UNet是医学影像分割领域应用最广泛的的网络，其性能和网络中多尺度特征的融合密切相关。此后的UNet++通过嵌套结构和密集的跳过连接原始网络进行了改进。本文提出的UNet3+通过全尺度的连接和深度监督来融合深层和浅层特征的同时对各个尺度的特征进行监督。提出的UNet3+网络可以在减少网络参数的同时提高计算效率，在两个数据集上验证了方法有效性。相关代码已经开源。

现有的分割网络如UNET、PSPNET和DeepLab等网络都通常会通过多尺度的方式提取图像的信息。低层次的细节特征图中具有更丰富的例如边界这样空间信息，高层特征图中包含更多的例如物体位置这样的高级语义特征。然而，随着网络的下采样和上采样，这些高低层的信息并没有被充分地利用。因此，文章提出的UNet3+对网络的编码器与解码器连接以及解码器内部之间的连接进行了改进。此外，文章通过提出的混合损失函数对各层进行深度监督和分类分支指导分割的方式，进一步提高了分割的精度。总结来说，文章主要有以下四点贡献：

设计了一种新的网络结构UNet3+，通过引入全尺度的跳过连接，在全尺度特征映射中融合了低层细节和高层语义，充分利用了多尺度特征的同时具有更少的参数；
通过深度监督让网络从全尺度特征中学习分割表示，提出了更优的混合损失函数以增强器官的边界；
提出分类指导模块，通过与图像分类分支联合训练的方式，减少了网络在非器官图像的过度分割（over-segmentation）；
在肝脏和脾脏数据集上进行了广泛的实验，证明了UNet 3+的有效性。
从图中可以看到，UNet3+与UNet主体上非常相似，不同之处在于从编码器到解码器的跳过连接以及不同层级的编码器之间的连接。以图中的节点 XDe3 为例，它的信息来自于两方面，一是比其更浅（包括同一层级）的编码器，二十比其更深的解码器。不同层级的特征通过maxpooling和双线性上采样的方式进行尺寸统一。解码层的卷积分两步，第一步是对来及各个节点的信息进行各自的卷积，第二步是对堆叠的特征通过卷积来进行信息的融合和提取。值得注意的一个细节是，进行第一个卷积层时，来自各层的数据被卷积到相同的特征图数（在这里是n/5，n为所在层的特征图数）。

从图中可以看到，UNet3+与UNet主体上非常相似，不同之处在于从编码器到解码器的跳过连接以及不同层级的编码器之间的连接。以图中的节点 XDe3 为例，它的信息来自于两方面，一是比其更浅（包括同一层级）的编码器，二是比其更深的解码器。不同层级的特征通过maxpooling和双线性上采样的方式进行尺寸统一。解码层的卷积分两步，第一步是对来及各个节点的信息进行各自的卷积，第二步是对堆叠的特征通过卷积来进行信息的融合和提取。值得注意的一个细节是，进行第一个卷积层时，来自各层的数据被卷积到相同的特征图数（在这里是n/5，n为所在层的特征图数）。

2.全尺度的深度监督

为了进一步优化网络对图像边界的分割，文章借鉴了图像质量评估中常用的多尺度SSIM（MS-SSIM）提出了MS-SSIM loss。

本文最终采用了混合损失函数（focal loss，ms-ssim loss和iou loss）来对各层进行监督。

ℓseg=ℓfl+ℓms−ssim+ℓiou

3. 分类指导模块（CGM）

在大多数医学图像分割中，非器官图像中出现假阳性不可避免。这通常是保留在较浅层中背景噪声信息导致的过分割现象。为了实现更精确的分割，文章尝试通过添加一个额外的分类任务来解决这个问题，该分类任务被设计用于预测输入图像是否有器官。简单来说，当预测到图像包含待分割器官的概率较小时，对输出图像乘以0使得输出全黑。

文章采用了LITS的肝脏数据集和自己采集的脾脏数据集通过两组实验来进行验证。

第一组对UNet、UNet++、UNet3+（带深度监督和不带）以Vgg和ResNet101作为backbone进行了对比。可以在以Vgg为backbone时，UNet3+比其UNet在两个数据集上分别有2.8％和4.1％的提升。网络相比于UNet++也有较大的提升。另外，可以看到UNet3+使用了更少的参数得到了更好的结果。可视化的结果表明即使在器官较小的情况下网络也能得到更加精细连贯的分割。

文章进一步以ResNet作为backbone，将网络与当前比较先进的分割网络进行对比。在这里，在验证网络有效性的同时，文章对提出的损失函数和分类分支进行了消融实验。

文章对之前在UNet解码器只接收的来自同一层编码器和深一层解码器的连接方式进行了改进，使得解码器都能获得来自每一个更浅的编码器和更深的解码器的信息，使得网络能够更好地提取和融合多尺度的信息。网络的结构设计简洁优雅，是一篇非常不错的UNet改进文章。另外文章提出的MS-SSIM损失和分类指导模块也挺有意思。当然我对文章也有一些思考。第一，网络结构设计中，对于来自不同层级的特征，进行融合时可以考虑通过PSP或者Deeplab的方式（JPU是一种很好选择），也可以考虑通过SE的方式来进行通道的选择。第二，文章提出的MS-SSIM能够更好地分割图像的边界，那么选取豪斯多夫距离这样的指标可以更好地证明方法的有效性。第三，文章通过CGM来对输出进行限制，但是对于器官的顶端和底端这样本身有比较多歧义性图像，容易造成无法分割的情况，可以考虑进行soft的指导。

关于NLP数据清洗和数据增强

最近参加一个NLP关于医学电子病历的疾病多标签分类比赛，因为之前比较少去做NLP方向，所以，参赛纯粹是为了了解了解NLP方向，好在nlp做文本分类算是比较简单的下游任务，但在参赛过程中，会发现，其实对于文本分类来说，基本的bert-base的效果不是很好，但其实感觉不是出在模型架构方面，对于简单的分类任务，一个12层的bert应该适足以胜任了，因此需要将注意力看向数据预处理、数据清洗、数据增强。以及数据类别分布不均匀，也可以尝试使用不同的损失函数。另外，不可否认，输入的文本长度越长，效果应该会更好一些，但奈何没有“钞”能力。此外，还可以尝试模型集成、交叉验证（五折交叉验证，即：将训练集分为五部分，一部分做验证集，剩下四部分做训练集，相当于得到五个模型。验证集组合起来就是训练集。五个模型对测试集的预测取均值得到最终的预测结果。）这块的思路还挺多的，算是做个记录，方便后面在处理类似文本分类任务时候的一个参考。

言归正传：今天来总结下NLP中的数据处理。

1、数据清洗

什么是数据清洗：

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。与问卷审核不同，录入后的数据清理一般是由计算机而不是人工完成。数据清洗从名字上也看的出就是把“脏”的“洗掉”，指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。

为什么要进行数据清洗

因为数据仓库中的数据是面向某一主题的数据的集合，这些数据从多个业务系统中抽取而来而且包含历史数据，这样就避免不了有的数据是错误数据、有的数据相互之间有冲突，这些错误的或有冲突的数据显然是我们不想要的，称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”，这就是数据清洗。

清洗后，一个数据集应该与系统中其他类似的数据集保持一致。检测到或删除的不一致可能最初是由用户输入错误、传输或存储中的损坏或不同存储中类似实体的不同数据字典定义引起的。数据清理与数据确认(data validation)的不同之处在于，数据确认几乎总是意味着数据在输入时被系统拒绝，并在输入时执行，而不是执行于批量数据。

数据清洗不仅仅更正错误，同样加强来自各个单独信息系统不同数据间的一致性。专门的数据清洗软件能够自动检测数据文件，更正错误数据，并用全企业一致的格式整合数据。

数据清洗流程：

（1）中文首先需要分词，可以采用结巴分词、HanNLP、刨丁解牛等分词工具;

（2）数据规范化处理（Normalization）：比如通常会把文本中的大写转成小写，清除文本中的句号、问号、感叹号等特殊字符，并且仅保留字母表中的字母和数字。小写转换和标点移除是两个最常见的文本 Normalization 步骤。是否需要以及在哪个阶段使用这两个步骤取决于你的最终目标。

去除一些停用词。而停用词是文本中一些高频的代词、连词、介词等对文本分类无意义的词，通常维护一个停用词表，特征提取过程中删除停用表中出现的词，本质上属于特征选择的一部分。具体可参考Hanlp的停用词表https://github.com/hankcs/HanLP

（3）Tokenization，Token 是“符号”的高级表达。一般指具有某种意义，无法再分拆的符号。在英文自然语言处理中，Tokens 通常是单独的词。因此，Tokenization 就是将每个句子分拆成一系列词。可以使用NLTK工具箱来完成相关操作。

（4）Stop Word 是无含义的词，例如 ‘is’/‘our’/‘the’/‘in’/‘at’ 等。它们不会给句子增加太多含义，单停止词是频率非常多的词。为了减少我们要处理的词汇量，从而降低后续程序的复杂度，需要清除停止词。

（5）Part-of-Speech Tagging：还记得在学校学过的词性吗？名词、代词、动词、副词等等。识别词在句子中的用途有助于我们更好理解句子内容。并且，标注词性还可以明确词之间的关系，并识别出交叉引用。同样地，NLTK 给我们带来了很多便利。你可以将词传入 PoS tag 函数。然后对每个词返回一个标签，并注明不同的词性。

（6）Named Entity 一般是名词短语，又来指代某些特定对象、人、或地点可以使用 ne_chunk()方法标注文本中的命名实体。在进行这一步前，必须先进行 Tokenization 并进行 PoS Tagging。

（7）Stemming and Lemmatization：为了进一步简化文本数据，我们可以将词的不同变化和变形标准化。Stemming 提取是将词还原成词干或词根的过程。

（8）一些词在句首句尾句中出现的概率不一样，统计N-GRAM特征的时候要在句首加上BOS，句尾加上EOS作标记。

（9）把长文本分成句子和单词这些fine granularity会比较有用。

（10）一般会有一个dictionary，不在dictionary以内的单词就用UNK取代。

（11）单词会被转成数字（它对应的index，从0开始，一般0就是UNK）。

（12）做机器翻译的时候会把单词转成subword units。

这块的代码还是比较多

1、A Python toolkit for file processing, text cleaning and data splitting. 文件处理，文本清洗和数据划分的python工具包。

2、基本的文本清洗，主要解决文本数据处理的问题

数据增强

与计算机视觉中使用图像进行数据增强不同，NLP中文本数据增强是非常罕见的。这是因为图像的一些简单操作，如将图像旋转或将其转换为灰度，并不会改变其语义。语义不变变换的存在使增强成为计算机视觉研究中的一个重要工具。

方法

1. 词汇替换

这一类的工作，简单来说，就是去替换原始文本中的某一部分，而不改变句子本身的意思。

1.1 基于同义词典的替换

在这种方法中，我们从句子中随机取出一个单词，将其替换为对应的同义词。例如，我们可以使用英语的 WordNet 数据库来查找同义词，然后进行替换。WordNet 是一个人工维护的数据库，其中包含单词之间的关系。

Zhang 等人在2015年的论文 “Character-level Convolutional Networks for Text Classification” 中使用了这种方法。Mueller 等人也使用类似的方法为他们的句子相似度模型生成额外的 10K 条训练数据。这一方法也被 Wei 等人在他们的 “Easy Data Augmentation” 论文中使用。对于如何使用，NLTK 提供了对 WordNet 的接口；我们还可以使用 TextBlob API。此外，还有一个名为 PPDB 的数据库，其中包含数百万条同义词典，可以通过编程方式下载和使用。

1.2 基于 Word-Embeddings 的替换

在这种方法中，我们采用预先训练好的词向量，如 Word2Vec、GloVe、FastText，用向量空间中距离最近的单词替换原始句子中的单词。Jiao 等人在他们的论文 “TinyBert” 中使用了这种方法，以改进语言模型在下游任务上的泛化性；Wang 等人使用它来对 tweet 语料进行数据增强来学习主题模型。

例如，可以用三个向量空间中距离最近的单词替换原始句子中的单词，可以得到原始句子的三个变体。我们可以使用像 Gensim 包来完成这样的操作。在下面这个例子中，我们通过在 Tweet 语料上训练的词向量找到了单词 “awesome” 的同义词。

1.3 基于 Masked Language Model 的替换

像 BERT、ROBERTA 和 ALBERT 这样基于 Transformer 的模型已经使用 “Masked Language Modeling” 的方式，即模型要根据上下文来预测被 Mask 的词语，通过这种方式在大规模的文本上进行预训练。

Masked Language Modeling 同样可以用来做文本的数据增强。例如，我们可以使用一个预先训练好的 BERT 模型，然后对文本的某些部分进行 Mask，让 BERT 模型预测被 Mask 的词语。我们称这种方法叫 Mask Predictions。和之前的方法相比，这种方法生成的文本在语法上更加通顺，因为模型在进行预测的时候考虑了上下文信息。我们可以很方便的使用 HuggingFace 的 transfomers 库，通过设置要替换的词语并生成预测来做文本的数据增强。

1.4 基于 TF-IDF 的替换

这种数据增强方法是 Xie 等人在 “Unsupervised Data Augmentation” 论文中提出来的。其基本思想是，TF-IDF 分数较低的单词不能提供信息，因此可以在不影响句子的基本真值标签的情况下替换它们。

具体如何计算整个文档中单词的 TF-IDF 分数并选择最低的单词来进行替换，可以参考作者公开的代码。

2. Back Translation（回译）

在这种方法中，我们使用机器翻译的方法来复述生成一段新的文本。Xie 等人使用这种方法来扩充未标注的样本，在 IMDB 数据集上他们只使用了 20 条标注数据，就可以训练得到一个半监督模型，并且他们的模型优于之前在 25000 条标注数据上训练得到的 SOTA 模型。

使用机器翻译来回译的具体流程如下：

找一些句子(如英语)，翻译成另一种语言，如法语
把法语句子翻译成英语句子
检查新句子是否与原来的句子不同。如果是，那么我们使用这个新句子作为原始文本的补充版本。

我们还可以同时使用多种不同的语言来进行回译以生成更多的文本变体。如下图所示，我们将一个英语句子翻译成目标语言，然后再将其翻译成三种目标语言:法语、汉语和意大利语。

这种方法也在 Kaggle 上的 “Toxic Comment Classification Challenge” 的第一名解决方案中使用。获胜者将其用于训练数据扩充和测试，在应用于测试的时候，对英语句子的预测概率以及使用三种语言(法语、德语、西班牙语)的反向翻译进行平均，以得到最终的预测。

对于如何实现回译，可以使用 TextBlob 或者谷歌翻译。

3. Text Surface Transformation

这些是使用正则表达式应用的简单模式匹配变换，Claude Coulombe 在他的论文中介绍了这些变换的方法。

在论文中，他给出了一个将动词由缩写形式转换为非缩写形式的例子，我们可以通过这个简单的方法来做文本的数据增强。

需要注意的是，虽然这样的转换在大部分情况下不会改变句子原本的含义，但有时在扩展模棱两可的动词形式时可能会失败，比如下面这个例子:

为了解决这一问题，论文中也提出允许模糊收缩 (非缩写形式转缩写形式)，但跳过模糊展开的方法 (缩写形式转非缩写形式)。

我们可以在这里找到英语缩写的列表。对于展开，可以使用 Python 中的 contractions 库。

4. Random Noise Injection

这些方法的思想是在文本中注入噪声，来生成新的文本，最后使得训练的模型对扰动具有鲁棒性。

4.1 Spelling error injection

在这种方法中，我们在句子中添加一些随机单词的拼写错误。可以通过编程方式或使用常见拼写错误的映射来添加这些拼写错误，具体可以参考这个链接。

4.2 QWERTY Keyboard Error Injection

这种方法试图模拟在 QWERTY 键盘布局上打字时由于键之间非常接近而发生的常见错误。这种错误通常是在通过键盘输入文本时发生的。

4.3 Unigram Noising

这种方法已经被 Xie 等人和 UDA 的论文所使用，其思想是使用从 unigram 频率分布中采样的单词进行替换。这个频率基本上就是每个单词在训练语料库中出现的次数。

4.4 Blank Noising

该方法由 Xie 等人在他们的论文中提出，其思想是用占位符标记替换一些随机单词。本文使用 “_” 作为占位符标记。在论文中，他们使用它作为一种避免在特定上下文上过度拟合的方法以及语言模型平滑的机制，这项方法可以有效提高生成文本的 Perplexity 和 BLEU 值。

4.5 Sentence Shuffling

这是一种很初级的方法，我们将训练样本中的句子打乱，来创建一个对应的数据增强样本。

4.6 Random Insertion

这个方法是由 Wei 等人在其论文 “Easy Data Augmentation” 中提出的。在该方法中，我们首先从句子中随机选择一个不是停止词的词。然后，我们找到它对应的同义词，并将其插入到句子中的一个随机位置。（也比较 Naive）

4.7 Random Swap

这个方法也由 Wei 等人在其论文 “Easy Data Augmentation” 中提出的。该方法是在句子中随机交换任意两个单词。

4.8 Random Deletion

该方法也由 Wei 等人在其论文 “Easy Data Augmentation” 中提出。在这个方法中，我们以概率 p 随机删除句子中的每个单词。

5. Instance Crossover Augmentation

这种方法由 Luque 在他 TASS 2019 的论文中介绍，灵感来自于遗传学中的染色体交叉操作。

在该方法中，一条 tweet 被分成两半，然后两个相同情绪类别（正/负）的 tweets 各自交换一半的内容。这么做的假设是，即使结果在语法和语义上不健全，新的文本仍将保留原来的情绪类别。

这中方法对准确性没有影响，并且在 F1-score 上还有所提升，这表明它帮助了模型提升了在罕见类别上的判断能力，比如 tweet 中较少的中立类别。

6. Syntax-tree Manipulation

这种方法最先是由 Coulombe 提出的，其思想是解析并生成原始句子的依赖树，使用规则对其进行转换来对原句子做复述生成。

例如，一个不会改变句子意思的转换是句子的主动语态和被动语态的转换。

7. MixUp for Text

Mixup 是 Zhang 等人在 2017 年提出的一种简单有效的图像增强方法。其思想是将两个随机图像按一定比例组合成，以生成用于训练的合成数据。对于图像，这意味着合并两个不同类的图像像素。它在模型训练的时候可以作为的一种正则化的方式。

为了把这个想法带到 NLP 中，Guo 等人修改了 Mixup 来处理文本。他们提出了两种将 Mixup 应用于文本的方法:

7.1 wordMixup

在这种方法中，在一个小批中取两个随机的句子，它们被填充成相同的长度；然后，他们的 word embeddings 按一定比例组合，产生新的 word embeddings 然后传递下游的文本分类流程，交叉熵损失是根据原始文本的两个标签按一定比例计算得到的。

7.2 sentMixup

在这种方法中，两个句子首先也是被填充到相同的长度；然后，通过 LSTM/CNN 编码器传递他们的 word embeddings，我们把最后的隐藏状态作为 sentence embedding。这些 embeddings 按一定的比例组合，然后传递到最终的分类层。交叉熵损失是根据原始文本的两个标签按一定比例计算得到的。

8. 生成式的方法

这一类的工作尝试在生成额外的训练数据的同时保留原始类别的标签。

Conditional Pre-trained Language Models

这种方法最早是由 Anaby-Tavor 等人在他们的论文 “Not Enough Data? Deep Learning to the Rescue!” Kumar 等人最近的一篇论文在多个基于 Transformer 的预训练模型中验证了这一想法。

问题的表述如下:

在训练数据中预先加入类别标签，如下图所示。

2. 在这个修改过的训练数据上 finetune 一个大型的预训练语言模型 (BERT/GPT2/BART) 。对于 GPT2，目标是去做生成任务；而对于 BERT，目标是要去预测被 Mask 的词语。

3. 使用经过 finetune 的语言模型，可以使用类标签和几个初始单词作为模型的提示词来生成新的数据。本文使用每条训练数据的前 3 个初始词来为训练数据做数据增强。

9. 实现过程

nlpaug 和 textattack 等第三方 Python 库提供了简单易用的 API，可以轻松使用上面介绍的 NLP 数据增强方法。

1、 NLP Chinese Data Augmentation 一键中文数据增强工具: https://github.com/425776024/nlpcda

使用：pip install nlpcda

介绍

一键中文数据增强工具，支持：

2、 TextAttack 是一个可以实行自然语言处理的Python 框架，用于方便快捷地进行对抗攻击，增强数据，以及训练模型。https://github.com/QData/TextAttack/blob/master/README_ZH.md

文档：https://textattack.readthedocs.io/en/latest/0_get_started/basic-Intro.html

3、中文语料的EDA数据增强工具

4、中文谐音词/字库

10. 结论

通过阅读许多 NLP 数据增强方面的论文，我发现大多数方法都是具有很强的任务属性的，并且针对这些方法的实验也只在某些特定的场景进行了验证。可以见得，系统地比较这些方法并且分析它们在其他任务上的表现在未来将是一项有趣的研究。

Rotamer-Free Protein Sequence Design Based on Deep Learning and Self-Consistency

论文地址： https://www.nature.com/articles/s43588-022-00273-6

中国科大用深度学习实现高实验成功率的蛋白质序列从头设计

中国科学技术大学生命科学与医学部刘海燕教授、陈泉副教授团队与信息科学技术学院李厚强教授团队合作,开发了一种基于深度学习为给定主链结构从头设计氨基酸序列的算法ABACUS-R，在实验验证中，ABACUS-R的设计成功率和设计精度超过了原有统计能量模型ABACUS。相关成果以“Rotamer-Free Protein Sequence Design Based on Deep Learning and Self-Consistency”为题于北京时间2022年7月21日发表于Nature Computational Science。

刘海燕教授、陈泉副教授团队致力于发展数据驱动的蛋白质设计方法，建立并实验验证了利用神经网络能量函数从头设计主链结构的SCUBA模型，以及对给定主链结构设计氨基酸序列的统计能量函数ABACUS。然而，通过优化能量函数来进行序列设计的方法在成功率、计算效率等方面仍有不足。近期有多项研究表明，用深度学习进行氨基酸序列设计能够在天然氨基酸残基类型恢复率等计算指标上超过能量函数方法；但截至目前已正式发表的工作中，对相关方法的实验验证结果远未达到能量函数方法的成功率。该论文报道的ABACUS-R模型，则不仅在计算指标上超过ABACUS，在实验验证中成功率和结构精度也有大幅提高。

用ABACUS-R进行序列设计的方法由两部分组成（图1）。第一部分为预训练的编码器-解码器网络：该网络用Transformer把中心氨基酸残基的化学和空间结构环境映射为隐空间表示向量，再用多层感知机网络将该向量解码为包括中心残基氨基酸类型在内的多种真实特征（图1a）。在方法的第二部分，经用非冗余天然蛋白序列结构数据训练后，ABACUS-R编码器-解码器被用于给定主链结构的全部或部分氨基酸序列从头设计。具体为：从任意初始序列出发，对各个类型待定残基分别应用ABACUS-R编码器-解码器，得到环境依赖的最适宜残基类型，并反复迭代至不同位点的残基类型最大程度自洽（图1b）。

图1. 用ABACUS-R模型进行蛋白质序列设计的原理。(a) 预训练的编码器-解码器网络；(b)采用自洽迭代策略进行全序列从头设计。

ABACUS-R方法包含两部分：（1）一个encoder-decoder网络被预训练用以推断给定骨架的局部环境时中心残基的侧链类型（2）用该encoder-decoder网络连续更新每个残基的类型，最终收敛获得自洽（self-consistent）。网络的输入是中心残基与空间上最邻近（C_α间距离）k个残基组成的局部结构。邻近残基的特征包含空间层面的相对位置与取向信息（X_SPA）、序列层面的相对位置信息（X_RSP）以及邻近残基的残基类型（X_AA）。第i个中心残基的特征包含全零的X_SPA、被mask的X_AA以及骨架上的15个ϕ_i₋₂, ψ_i₋₂, ω_i₋₂ ⋯ ϕ_i₊₂, ψ_i₊₂, ω_i₊₂，这些特征组合起来会被映射到与邻近残基特征相同的维度。以上模型输入的信息都是旋转平移不变的。局部结构中的所有残基的特征经过可学习的映射后融合后，得到每个残基总特征En。{E_n; n = 0, 1, 2, … , k}经过基于 transformer架构的encoder-decoder，预测每个中心残基的类型以及其他辅助任务。

自洽迭代设计的方法是：对序列随机初始化，第一轮随机选择80%的残基通过encoder-decoder并行预测其残基类型，以后每轮随机选择的残基数目逐渐下降。最终的设计结果会逐渐收敛。

在理论验证的基础上，中国科大团队尝试了实验表征用ABACUS-R对3个天然主链结构重新设计的57条序列；其中86%的序列（49条）可溶表达并能折叠为稳定单体；实验解析的5个高分辨晶体结构与目标结构高度一致（主链原子位置均方根位移在1Å以下）(图2)。此外，与以前报道的从头设计蛋白相似，ABACUS-R从头设计的蛋白表现出超高热稳定性，去折叠温度大多可达100℃以上。

作者将PDB中的非冗余结构按照两种不同的方式划分了95%作为训练集、5%作为测试集，第一种划分方式确保测试集的结构不会存在训练集中出现过的CATH拓扑，训练得到的模型为Model_eval;第二种划分方式时随机划分Model_final。Model_eval可以用来评估模型能力的无偏向性的表现，而Model_final使用了更丰富的数据训练表现应当更好。

表现评估

Encoder-decoder的架构可以进行多任务学习，除了训练序列的恢复的任务以外，还可以预测二级结构、SASA、B-factor与侧链扭转角χ₁、χ₂。多个任务可以增强模型设计序列的能力（图2a），Model_eval与Model_final都可以在测试集上最好取得50%左右准确度。在测试集上的结果显示，虽然有些残基类型没有恢复正确，但是模型也学习到了替换为性质相似的残基（图2b）。

相较于ABACUS模型，ABACUS-R序列设计更高的成功率和结构精度进一步增强了数据驱动蛋白质从头设计方法的实用性。ABACUS-R还提供了一种对蛋白质局部结构信息的预训练表示方式，可用于序列设计以外的其他任务。

Decoder网络输出的是每个位置上残基类型的-logP，类似于选择不同残基对应的能量，所以作者将ProTherm数据集中蛋白突变的ΔΔG与模型计算出相应的−ΔΔlogits进行了比较，发现二者有一定的相关性（图2d），说明模型一定程度上学习到了能量。

接着，作者验证了模型的自洽性，测试集中100个蛋白属于CATH的三个大类，对其中的每个蛋白从随机序列出发设计10条序列，随着迭代的次数变多，平均-logP会趋于收敛（图3a），同时未收敛的残基比例也会收敛（图3b）。不同CATH类别的骨架上取得的序列恢复率差距不大（图3c）。同一蛋白骨架设计出的序列会有很高的相似性（0.76-0.89）。设计出的序列与天然序列相比，序列的成分高度相似（图3d），Pearson相关系数达到了0.93，但GLU、ALA与LYS出现得更频繁，而Gln、His、Met出现得更少。此外，ABACUS-R设计出的序列与ABACUS设计出的序列相比，平均每个残基的Rosetta打分更低（图3e），而平均的-logP打分却更高（图3f），这意味着ABACUS-R学习到的能量与Rosetta打分函数存在正交的部分。

图3. ABACUS-R的自洽能力、设计能力以及学习到的能量与Rosetta打分的比较

相较于其他深度学习方法在单个残基恢复任务上的表现，ABACUS-R超过了除DenseCPD外的所有方法（表1），在整条序列重设计任务上ABACUS-R在两个测试集上都取得了最好的表现

实验验证

最后，作者在3种天然骨架（PDB ID: 1r26, 1cy5 and 1ubq）上通过实验验证了ABACUS-R的设计能力。设计的方法有两种：第一种采用迭代自洽的设计方法（生成序列的多样性低），第二种采用迭代时对decoder输出结果进行采样（生成序列的多样性高，但-logP能量也略高）。

第一种方法设计的27条序列有26条成功表达，体积排阻色谱与¹H NMR实验结果显示所有的蛋白都以单体形式存在，示差扫描量热实验显示5条序列有很好的热稳定性（ 97~117 ^∘C ）。最终，1r26的3个设计与1cy5的1个设计成功解出了晶体结构，C_α RMSD位于0.51~0.88 Å，而1ubq的1个设计虽然没有解出结构，但已有的实验结果显示它折叠成了明确的三维结构。

第二种方法对同一骨架设计的序列相似度在58%左右。30条设计的序列中，25条被成功表达，23条能被可溶地纯化。所有设计同样都是单体存在并且折叠成了明确的三维结构，5个设计有很好的热稳定性（85~118 ^∘C）。最终，1r26的1个设计被成功解出了晶体结构，C_αRMSD为0.67 Å。相较方法一的自洽设计，方法二设计成功率下降，成功设计的蛋白热稳定性也略微下降，但作者认为可以接受。

最后，作者展示了所有1r26设计晶体结构核心的侧链pack（图4a,b），以及 1cy5设计晶体结构的侧链的极性作用（图4c），说明了ABACUS-R学会了设计侧链的组合以pack好的结构。

深度学习语义分割理论与实战指南

看到github中一个写的很棒的图像分割的介绍和代码实现：

https://github.com/luwill/Semantic-Segmentation-Guide

对于刚入门的同学来说，十分友好。

引言

图像分类、目标检测和图像分割是基于深度学习的计算机视觉三大核心任务。三大任务之间明显存在着一种递进的层级关系，图像分类聚焦于整张图像，目标检测定位于图像具体区域，而图像分割则是细化到每一个像素。基于深度学习的图像分割具体包括语义分割、实例分割和全景分割。语义分割的目的是要给每个像素赋予一个语义标签。语义分割在自动驾驶、场景解析、卫星遥感图像和医学影像等领域都有着广泛的应用前景。本文作为基于PyTorch的语义分割技术手册，对语义分割的基本技术框架、主要网络模型和技术方法提供一个实战性指导和参考。

1. 语义分割概述

图像分割主要包括语义分割（Semantic Segmentation）和实例分割（Instance Segmentation）。那语义分割和实例分割具体都是什么含义？二者又有什么区别和联系？语义分割是对图像中的每个像素都划分出对应的类别，即实现像素级别的分类；而类的具体对象，即为实例，那么实例分割不但要进行像素级别的分类，还需在具体的类别基础上区别开不同的个体。例如，图像有多个人甲、乙、丙，那边他们的语义分割结果都是人，而实例分割结果却是不同的对象。另外，为了同时实现实例分割与不可数类别的语义分割，相关研究又提出了全景分割（Panoptic Segmentation）的概念。语义分割、实例分割和全景分割具体如图1（b）、（c）和（d）图所示。

Fig1. Image Segmentation
在开始图像分割的学习和尝试之前，我们必须明确语义分割的任务描述，即搞清楚语义分割的输入输出都是什么。输入是一张原始的RGB图像或者单通道图像，但是输出不再是简单的分类类别或者目标定位，而是带有各个像素类别标签的与输入同分辨率的分割图像。简单来说，我们的输入输出都是图像，而且是同样大小的图像。如图2所示。

Fig2. Pixel Representation
类似于处理分类标签数据，对预测分类目标采用像素上的one-hot编码，即为每个分类类别创建一个输出的通道。如图3所示。

Fig3. Pixel One-hot
图4是将分割图添加到原始图像上的叠加效果。这里需要明确一下mask的概念，在图像处理中我们将其译为掩码，如Mask R-CNN中的Mask。Mask可以理解为我们将预测结果叠加到单个通道时得到的该分类所在区域。

Fig4. Pixel labeling
所以，语义分割的任务就是输入图像经过深度学习算法处理得到带有语义标签的同样尺寸的输出图像。

。。。。。。。（剩余部分在github可查看）

Attention UNet

论文： https://arxiv.org/abs/1804.03999

以CNN为基础的编解码结构在图像分割上展现出了卓越的效果，尤其是医学图像的自动分割上。但一些研究认为以往的FCN和UNet等分割网络存在计算资源和模型参数的过度和重复使用，例如相似的低层次特征被级联内的所有网络重复提取。针对这类普遍性的问题，相关研究提出了给UNet添加注意力门控（Attention Gates, AGs）的方法，形成一个新的图像分割网络结构：Attention UNet。提出Attention UNet的论文为Attention U-Net: Learning Where to Look for the Pancreas，发表在2018年CVPR上。注意力机制原先是在自然语言处理领域被提出并逐渐得到广泛应用的一种新型结构，旨在模仿人的注意力机制，有针对性的聚焦数据中的突出特征，能够使得模型更加高效。

Attention UNet的网络结构如下图所示，需要注意的是，论文中给出的3D版本的卷积网络。其中编码器部分跟UNet编码器基本一致，主要的变化在于解码器部分。其结构简要描述如下：编码器部分，输入图像经过两组3*3*3的3D卷积和ReLU激活，然后再进行最大池化下采样，经过3组这样的卷积-池化块之后，网络进入到解码器部分。编码器最后一层的特征图除了直接进行上采样外，还与来自编码器的特征图进行注意力门控计算，然后再与上采样的特征图进行合并，经过三次这样的上采样块之后即可得到最终的分割输出图。相比于普通UNet的解码器，Attention UNet会将解码器中的特征与编码器连接过来的特征进行注意力门控处理，然后再与上采样进行拼接。经过注意力门控处理后得到的特征图会包含不同空间位置的重要性信息，使得模型能够重点关注某些目标区域。

我们将Attention UNet的注意力门控单独拿出来进行分析，看AGs是如何让模型能够聚焦到目标区域的。如图中上图所示，将Attention UNet网络中的一个上采样块单独拿出来，其中x_l为来自同层编码器的输出特征图，g表示由解码器部分用于上采样的特征图，这里同时也作为注意力门控的门控信号参数与x_l的注意力计算，而x^hat_l即为经过注意力门控计算后的特征图，此时x^hat_l是包含了空间位置重要性信息的特征图，再将其与下一层上采样后的特征图进行合并才得到该上采样块最终的输出。

将x_l和g_i计算得到的注意力系数再次与x_l相乘即可得到x^hat_l，这种经过与注意力系数相乘后的特征图会让图像中不相关的区域值变小，目标区域的值相对会变大，提升网络预测速度同时，也会提高图像的分割精度。论文中的各项实验结果也表明，经过注意力门控加成后后UNet，效果均要优于原始的UNet。下述代码给出了Attention UNet的一个2D参考实现，并且下采样次数由论文中的3次改为了4次。


### 定义Attention UNet类
class Att_UNet(nn.Module):
    def __init__(self,img_ch=3,output_ch=1):
        super(Att_UNet, self).__init__()
        self.Maxpool = nn.MaxPool2d(kernel_size=2, stride=2)
        self.Conv1 = conv_block(ch_in=img_ch, ch_out=64)
        self.Conv2 = conv_block(ch_in=64, ch_out=128)
        self.Conv3 = conv_block(ch_in=128, ch_out=256)
        self.Conv4 = conv_block(ch_in=256, ch_out=512)
        self.Conv5 = conv_block(ch_in=512, ch_out=1024)

        self.Up5 = up_conv(ch_in=1024, ch_out=512)
        self.Att5 = Attention_block(F_g=512, F_l=512, F_int=256)
        self.Up_conv5 = conv_block(ch_in=1024, ch_out=512)

        self.Up4 = up_conv(ch_in=512, ch_out=256)
        self.Att4 = Attention_block(F_g=256, F_l=256, F_int=128)
        self.Up_conv4 = conv_block(ch_in=512, ch_out=256)
        
        self.Up3 = up_conv(ch_in=256, ch_out=128)
        self.Att3 = Attention_block(F_g=128, F_l=128, F_int=64)
        self.Up_conv3 = conv_block(ch_in=256, ch_out=128)
        
        self.Up2 = up_conv(ch_in=128, ch_out=64)
        self.Att2 = Attention_block(F_g=64, F_l=64, F_int=32)
        self.Up_conv2 = conv_block(ch_in=128, ch_out=64)

        self.Conv_1x1 =
       nn.Conv2d(64, output_ch, kernel_size=1, stride=1, padding=0)
    
  ### 定义前向传播流程
    def forward(self,x):
        # 编码器部分
        x1 = self.Conv1(x)
        x2 = self.Maxpool(x1)
        x2 = self.Conv2(x2)
        x3 = self.Maxpool(x2)
        x3 = self.Conv3(x3)
        x4 = self.Maxpool(x3)
        x4 = self.Conv4(x4)
        x5 = self.Maxpool(x4)
        x5 = self.Conv5(x5)

        # 解码器+连接部分
        d5 = self.Up5(x5)
        x4 = self.Att5(g=d5,x=x4)
        d5 = torch.cat((x4,d5),dim=1)        
        d5 = self.Up_conv5(d5)        
        d4 = self.Up4(d5)
        x3 = self.Att4(g=d4,x=x3)
        d4 = torch.cat((x3,d4),dim=1)
        d4 = self.Up_conv4(d4)

        d3 = self.Up3(d4)
        x2 = self.Att3(g=d3,x=x2)
        d3 = torch.cat((x2,d3),dim=1)
        d3 = self.Up_conv3(d3)
        d2 = self.Up2(d3)
        x1 = self.Att2(g=d2,x=x1)
        d2 = torch.cat((x1,d2),dim=1)
        d2 = self.Up_conv2(d2)
        d1 = self.Conv_1x1(d2)
        return d1
  
  ### 定义Attention门控块
class Attention_block(nn.Module):
    def __init__(self, F_g, F_l, F_int):
        super(Attention_block, self).__init__()
    # 注意力门控向量
        self.W_g = nn.Sequential(
            nn.Conv2d(F_g, F_int,
            kernel_size=1, stride=1, padding=0, bias=True),
            nn.BatchNorm2d(F_int)
            )
        # 同层编码器特征图向量
        self.W_x = nn.Sequential(
            nn.Conv2d(F_l, F_int,
            kernel_size=1,stride=1,padding=0,bias=True),
            nn.BatchNorm2d(F_int)
        )
    # ReLU激活函数
    self.relu = nn.ReLU(inplace=True)
    # 卷积+BN+sigmoid激活函数
        self.psi = nn.Sequential(
            nn.Conv2d(F_int, 1,
            kernel_size=1, stride=1, padding=0, bias=True),
            nn.BatchNorm2d(1),
            nn.Sigmoid()
        )
        
    ###  Attention门控的前向计算流程 
    def forward(self,g,x):
        g1 = self.W_g(g)
        x1 = self.W_x(x)
        psi = self.relu(g1+x1)
        psi = self.psi(psi)
        return x*psi

总结来说，Attention UNet提出了在原始UNet基础添加注意力门控单元，注意力得分能够使得图像分割时聚焦到目标区域，该结构作为一个通用结构可以添加到任何任务类型的神经网络结构中，在语义分割网络中对前景目标区域的像素更具有敏感度。Attention UNet壮大了UNet家族网络，此后基于其的改进版本也层出不穷。

Few-Shot Learning 综述论文

《Generalizing from a Few Examples: A Survey on Few-Shot Learning》https://arxiv.org/pdf/1904.05046.pdf

作者提供了对应的github仓库：https://github.com/tata1661/FewShotPapers

这个仓库主要包含：

FewShotPapers：跟踪 FSL 研究进展的论文列表
PaddleFSL : 一个基于 Paddle 的 FSL python 库

SegNet

论文（2015）：SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation

Github：https://github.com/alexgkendall/caffe-segnet

把本文提出的架构和FCN、DeepLab-LargeFOV、DeconvNet做了比较，这种比较揭示了在实现良好分割性能的前提下内存使用情况与分割准确性的权衡。
SegNet的主要动机是场景理解的应用。因此它在设计的时候考虑了要在预测期间保证内存和计算时间上的效率。
定量的评估表明，SegNet在和其他架构的比较上，时间和内存的使用都比较高效。

SegNet论文提出了max pooling的改进版，使用该pooling操作既可以进行下采样操作，也可以进行上采样操作。在下采样操作中同时输出pooling后的结果和pooling过程中的索引。在上采样操作中，利用下采样对应位置的索引，进行上采样操作，这样的优势在于记住了最亮特征像素的空间位置。（去除了unet里面的反卷积操作）

优点，

可以提高物体边界的分割效果
相比反卷积操作，减少了参数数量，减少了运算量，相比resize操作，减少了插值的运算量，而实际增加的索引参数也很少。
该pooling操作可以应用于任何基于编码-解码的分割模型。

SegNet网络结构如下图所示，是一个编解码完全对称的结构。其编码器直接用了VGG16的结构，并将全连接层全部改为卷积层，实际训练时可使用VGG16的预训练权重进行初始化；编码器将13层卷积层分为5组卷积块，每组卷积块之间用最大池化层进行下采样。作为一个对称结构，SegNet解码器也有13层卷积层，同样分为5组卷积块，每组卷积块之间用双线性插值和最大池化位置索引进行上采样，这也是SegNet最大的特色。

SegNet研究团队认为编码器下采样过程中图像信息损失较多，直接存储所有卷积块的特征图又非常占用内存，因而在SegNet中提出在每一次最大池化下采样前存储最大池化的位置索引（Max-pooling indices），即记住最大池化操作中，最大值在2*2池化窗口中的位置。每个2*2窗口仅需要2 bits内存存储量，这种池化位置索引可用于上采样解码时恢复图像信息。下图给出了SegNet与FCN之间的上采样方法对比。可以观察到，SegNet使用双线性插值并结合最大池化位置索引进行上采样，而FCN则是基于去卷积结合编码器卷积特征图进行上采样。

SegNet这种轻量化的上采样方式，不仅能够提升图像边界分割效果，在端到端的实时分割项目中速度也非常快，并且这种结构设计可以配置到任意的编解码网络中，是一种优秀的分割网络设计方式。下述代码给出了SegNet的一个简易的结构实现，因为SegNet解码器的特殊性，我们单独定义了一个解码器类，编码器部分直接使用VGG16的预训练权重层，然后在编解码器基础上搭建SegNet并定义前向计算流程。


# 导入PyTorch相关模块
import torch
import torch.nn as nn
import torch.nn.init as init
import torch.nn.functional as F
from torchvision import models

# 定义SegNet解码器类
class SegNetDec(nn.Module):
    def __init__(self, in_channels, out_channels, num_layers):
        super().__init__()
        layers = [
            nn.Conv2d(in_channels, in_channels // 2, 3, padding=1),
            nn.BatchNorm2d(in_channels // 2),
            nn.ReLU(inplace=True),
        ]
        layers += [
            nn.Conv2d(in_channels // 2, in_channels // 2, 3, padding=1),
            nn.BatchNorm2d(in_channels // 2),
            nn.ReLU(inplace=True),
        ] * num_layers
        layers += [
            nn.Conv2d(in_channels // 2, out_channels, 3, padding=1),
            nn.BatchNorm2d(out_channels),
            nn.ReLU(inplace=True),
        ]
        self.decode = nn.Sequential(*layers)

    def forward(self, x):
        return self.decode(x)

### 定义SegNet类
class SegNet(nn.Module):
    def __init__(self, classes):
        super().__init__()
    # 编码器使用vgg16预训练权重
        vgg16 = models.vgg16(pretrained=True)
        features = vgg16.features
        self.enc1 = features[0: 4]
        self.enc2 = features[5: 9]
        self.enc3 = features[10: 16]
        self.enc4 = features[17: 23]
        self.enc5 = features[24: -1]
    # 编码器卷积层不参与训练
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                m.requires_grad = False
    
        self.dec5 = SegNetDec(512, 512, 1)
        self.dec4 = SegNetDec(512, 256, 1)
        self.dec3 = SegNetDec(256, 128, 1)
        self.dec2 = SegNetDec(128, 64, 0)

        self.final = nn.Sequential(*[
            nn.Conv2d(64, classes, 3, padding=1),
            nn.BatchNorm2d(classes),
            nn.ReLU(inplace=True)
        ])
  # 定义SegNet前向计算流程
    def forward(self, x):
        x1 = self.enc1(x)
        e1, m1 = F.max_pool2d(x1, kernel_size=2, stride=2,
 return_indices=True)
        x2 = self.enc2(e1)
        e2, m2 = F.max_pool2d(x2, kernel_size=2, stride=2,
 return_indices=True)
        x3 = self.enc3(e2)
        e3, m3 = F.max_pool2d(x3, kernel_size=2, stride=2,
 return_indices=True)
        x4 = self.enc4(e3)
        e4, m4 = F.max_pool2d(x4, kernel_size=2, stride=2,
 return_indices=True)
        x5 = self.enc5(e4)
        e5, m5 = F.max_pool2d(x5, kernel_size=2, stride=2,
 return_indices=True)

        def upsample(d):
            d5 = self.dec5(F.max_unpool2d(d, m5, kernel_size=2,
 stride=2, output_size=x5.size()))
            d4 = self.dec4(F.max_unpool2d(d5, m4, kernel_size=2,
 stride=2, output_size=x4.size()))
            d3 = self.dec3(F.max_unpool2d(d4, m3, kernel_size=2,
 stride=2, output_size=x3.size()))
            d2 = self.dec2(F.max_unpool2d(d3, m2, kernel_size=2,
 stride=2, output_size=x2.size()))
            d1 = F.max_unpool2d(d2, m1, kernel_size=2, stride=2,
 output_size=x1.size())
            return d1

        d = upsample(e5)
        return self.final(d)

图像分割损失函数loss 总结+代码

汇总语义分割中常用的损失函数：

cross entropy loss
weighted loss
focal loss
dice soft loss
soft iou loss
Tversky Loss
Generalized Dice Loss
Boundary Loss
Exponential Logarithmic Loss
Focal Tversky Loss
Sensitivity Specificity Loss
Shape-aware Loss
Hausdorff Distance Loss

参考论文：Medical Image Segmentation Using Deep Learning:A Survey

论文地址:A survey of loss functions for semantic segmentation
代码地址：https://github.com/shruti-jadon/Semantic-Segmentation-Loss-Functions
项目推荐：https://github.com/JunMa11/SegLoss

图像分割一直是一个活跃的研究领域，因为它有可能修复医疗领域的漏洞，并帮助大众。在过去的5年里，各种论文提出了不同的目标损失函数，用于不同的情况下，如偏差数据，稀疏分割等。

图像分割可以定义为像素级别的分类任务。图像由各种像素组成，这些像素组合在一起定义了图像中的不同元素，因此将这些像素分类为一类元素的方法称为语义图像分割。在设计基于复杂图像分割的深度学习架构时，通常会遇到了一个至关重要的选择，即选择哪个损失/目标函数，因为它们会激发算法的学习过程。损失函数的选择对于任何架构学习正确的目标都是至关重要的，因此自2012年以来，各种研究人员开始设计针对特定领域的损失函数，以为其数据集获得更好的结果。

这些损失函数可大致分为4类：基于分布的损失函数，基于区域的损失函数，基于边界的损失函数和基于复合的损失函数（ Distribution-based,Region-based, Boundary-based, and Compounded）。

1、cross entropy loss

用于图像语义分割任务的最常用损失函数是像素级别的交叉熵损失，这种损失会逐个检查每个像素，将对每个像素类别的预测结果（概率分布向量）与我们的独热编码标签向量进行比较。

假设我们需要对每个像素的预测类别有5个，则预测的概率分布向量长度为5：

每个像素对应的损失函数为：

整个图像的损失就是对每个像素的损失求平均值。

特别注意的是，binary entropy loss 是针对类别只有两个的情况，简称 bce loss，损失函数公式为：

#二值交叉熵，这里输入要经过sigmoid处理  
import torch  
import torch.nn as nn  
import torch.nn.functional as F  
nn.BCELoss(F.sigmoid(input), target)  
#多分类交叉熵, 用这个 loss 前面不需要加 Softmax 层  
nn.CrossEntropyLoss(input, target)

2、weighted loss

由于交叉熵损失会分别评估每个像素的类别预测，然后对所有像素的损失进行平均，因此我们实质上是在对图像中的每个像素进行平等地学习。如果多个类在图像中的分布不均衡，那么这可能导致训练过程由像素数量多的类所主导，即模型会主要学习数量多的类别样本的特征，并且学习出来的模型会更偏向将像素预测为该类别。

FCN论文和U-Net论文中针对这个问题，对输出概率分布向量中的每个值进行加权，即希望模型更加关注数量较少的样本，以缓解图像中存在的类别不均衡问题。

比如对于二分类，正负样本比例为1: 99，此时模型将所有样本都预测为负样本，那么准确率仍有99%这么高，但其实该模型没有任何使用价值。

为了平衡这个差距，就对正样本和负样本的损失赋予不同的权重，带权重的二分类损失函数公式如下：

要减少假阴性样本的数量，可以增大 pos_weight；要减少假阳性样本的数量，可以减小 pos_weight。

class WeightedCrossEntropyLoss(torch.nn.CrossEntropyLoss):  
   """  
   Network has to have NO NONLINEARITY!  
   """  
   def __init__(self, weight=None):  
       super(WeightedCrossEntropyLoss, self).__init__()  
       self.weight = weight  
  
   def forward(self, inp, target):  
       target = target.long()  
       num_classes = inp.size()[1]  
  
       i0 = 1  
       i1 = 2  
  
       while i1 < len(inp.shape): # this is ugly but torch only allows to transpose two axes at once  
           inp = inp.transpose(i0, i1)  
           i0 += 1  
           i1 += 1  
  
       inp = inp.contiguous()  
       inp = inp.view(-1, num_classes)  
  
       target = target.view(-1,)  
       wce_loss = torch.nn.CrossEntropyLoss(weight=self.weight)  
  
       return wce_loss(inp, target)

3、focal loss

上面针对不同类别的像素数量不均衡提出了改进方法，但有时还需要将像素分为难学习和容易学习这两种样本。

容易学习的样本模型可以很轻松地将其预测正确，模型只要将大量容易学习的样本分类正确，loss就可以减小很多，从而导致模型不怎么顾及难学习的样本，所以我们要想办法让模型更加关注难学习的样本。

对于较难学习的样本，将 bce loss 修改为：

其中的 γ 通常设置为2。

通过这种修改，就可以使模型更加专注于学习难学习的样本。

而将这个修改和对正负样本不均衡的修改合并在一起，就是大名鼎鼎的 focal loss：

class FocalLoss(nn.Module):  
   """  
   copy from: https://github.com/Hsuxu/Loss_ToolBox-PyTorch/blob/master/FocalLoss/FocalLoss.py  
   This is a implementation of Focal Loss with smooth label cross entropy supported which is proposed in  
   'Focal Loss for Dense Object Detection. (https://arxiv.org/abs/1708.02002)'  
       Focal_Loss= -1*alpha*(1-pt)*log(pt)  
   :param num_class:  
   :param alpha: (tensor) 3D or 4D the scalar factor for this criterion  
   :param gamma: (float,double) gamma > 0 reduces the relative loss for well-classified examples (p>0.5) putting more  
                   focus on hard misclassified example  
   :param smooth: (float,double) smooth value when cross entropy  
   :param balance_index: (int) balance class index, should be specific when alpha is float  
   :param size_average: (bool, optional) By default, the losses are averaged over each loss element in the batch.  
   """  
  
   def __init__(self, apply_nonlin=None, alpha=None, gamma=2, balance_index=0, smooth=1e-5, size_average=True):  
       super(FocalLoss, self).__init__()  
       self.apply_nonlin = apply_nonlin  
       self.alpha = alpha  
       self.gamma = gamma  
       self.balance_index = balance_index  
       self.smooth = smooth  
       self.size_average = size_average  
  
       if self.smooth is not None:  
           if self.smooth < 0 or self.smooth > 1.0:  
               raise ValueError('smooth value should be in [0,1]')  
  
   def forward(self, logit, target):  
       if self.apply_nonlin is not None:  
           logit = self.apply_nonlin(logit)  
       num_class = logit.shape[1]  
  
       if logit.dim() > 2:  
           # N,C,d1,d2 -> N,C,m (m=d1*d2*...)  
           logit = logit.view(logit.size(0), logit.size(1), -1)  
           logit = logit.permute(0, 2, 1).contiguous()  
           logit = logit.view(-1, logit.size(-1))  
       target = torch.squeeze(target, 1)  
       target = target.view(-1, 1)  
       # print(logit.shape, target.shape)  
       #   
       alpha = self.alpha  
  
       if alpha is None:  
           alpha = torch.ones(num_class, 1)  
       elif isinstance(alpha, (list, np.ndarray)):  
           assert len(alpha) == num_class  
           alpha = torch.FloatTensor(alpha).view(num_class, 1)  
           alpha = alpha / alpha.sum()  
       elif isinstance(alpha, float):  
           alpha = torch.ones(num_class, 1)  
           alpha = alpha * (1 - self.alpha)  
           alpha[self.balance_index] = self.alpha  
  
       else:  
           raise TypeError('Not support alpha type')  
         
       if alpha.device != logit.device:  
           alpha = alpha.to(logit.device)  
  
       idx = target.cpu().long()  
  
       one_hot_key = torch.FloatTensor(target.size(0), num_class).zero_()  
       one_hot_key = one_hot_key.scatter_(1, idx, 1)  
       if one_hot_key.device != logit.device:  
           one_hot_key = one_hot_key.to(logit.device)  
  
       if self.smooth:  
           one_hot_key = torch.clamp(  
               one_hot_key, self.smooth/(num_class-1), 1.0 - self.smooth)  
       pt = (one_hot_key * logit).sum(1) + self.smooth  
       logpt = pt.log()  
  
       gamma = self.gamma  
  
       alpha = alpha[idx]  
       alpha = torch.squeeze(alpha)  
       loss = -1 * alpha * torch.pow((1 - pt), gamma) * logpt  
  
       if self.size_average:  
           loss = loss.mean()  
       else:  
           loss = loss.sum()  
       return loss

4、dice soft loss

语义分割任务中常用的还有一个基于 Dice 系数的损失函数，该系数实质上是两个样本之间重叠的度量。此度量范围为 0~1，其中 Dice 系数为1表示完全重叠。Dice 系数最初是用于二进制数据的，可以计算为：

|A∩B| 代表集合A和B之间的公共元素，并且 |A| 代表集合A中的元素数量（对于集合B同理）。

对于在预测的分割掩码上评估 Dice 系数，我们可以将 |A∩B| 近似为预测掩码和标签掩码之间的逐元素乘法，然后对结果矩阵求和。

计算 Dice 系数的分子中有一个2，那是因为分母中对两个集合的元素个数求和，两个集合的共同元素被加了两次。为了设计一个可以最小化的损失函数，可以简单地使用 1−Dice。这种损失函数被称为 soft Dice loss，这是因为我们直接使用预测出的概率，而不是使用阈值将其转换成一个二进制掩码。

Dice loss是针对前景比例太小的问题提出的，dice系数源于二分类，本质上是衡量两个样本的重叠部分。

对于神经网络的输出，分子与我们的预测和标签之间的共同激活有关，而分母分别与每个掩码中的激活数量有关，这具有根据标签掩码的尺寸对损失进行归一化的效果。

对于每个类别的mask，都计算一个 Dice 损失：

将每个类的 Dice 损失求和取平均，得到最后的 Dice soft loss。

下面是代码实现：

def soft_dice_loss(y_true, y_pred, epsilon=1e-6): 
    ''' 
    Soft dice loss calculation for arbitrary batch size, number of classes, and number of spatial dimensions.
    Assumes the `channels_last` format.
  
    # Arguments
        y_true: b x X x Y( x Z...) x c One hot encoding of ground truth
        y_pred: b x X x Y( x Z...) x c Network output, must sum to 1 over c channel (such as after softmax) 
        epsilon: Used for numerical stability to avoid divide by zero errors
    
    # References
        V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation 
        https://arxiv.org/abs/1606.04797
        More details on Dice loss formulation 
        https://mediatum.ub.tum.de/doc/1395260/1395260.pdf (page 72)
        
        Adapted from https://github.com/Lasagne/Recipes/issues/99#issuecomment-347775022
    '''
    
    # skip the batch and class axis for calculating Dice score
    axes = tuple(range(1, len(y_pred.shape)-1)) 
    numerator = 2. * np.sum(y_pred * y_true, axes)
    denominator = np.sum(np.square(y_pred) + np.square(y_true), axes)
    
    return 1 - np.mean(numerator / (denominator + epsilon)) # average over classes and batch

5、soft IoU loss

前面我们知道计算 Dice 系数的公式，其实也可以表示为：

其中 TP 为真阳性样本，FP 为假阳性样本，FN 为假阴性样本。分子和分母中的 TP 样本都加了两次。

IoU 的计算公式和这个很像，区别就是 TP 只计算一次：

和 Dice soft loss 一样，通过 IoU 计算损失也是使用预测的概率值：

其中 C 表示总的类别数。

6、Tversky Loss

论文地址为：https://arxiv.org/pdf/1706.05…

医学影像中存在很多的数据不平衡现象，使用不平衡数据进行训练会导致严重偏向高精度但低召回率（sensitivity）的预测，这是不希望的，特别是在医学应用中，假阴性比假阳性更难容忍。本文提出了一种基于Tversky指数的广义损失函数，解决了三维全卷积深神经网络训练中数据不平衡的问题，在精度和召回率之间取得了较好的折衷。

Dice loss的正则化版本，以控制假阳性和假阴性对损失函数的贡献，TL被定义为

class TverskyLoss(nn.Module):  
   def __init__(self, apply_nonlin=None, batch_dice=False, do_bg=True, smooth=1.,  
                square=False):  
       """  
       paper: https://arxiv.org/pdf/1706.05721.pdf  
       """  
       super(TverskyLoss, self).__init__()  
  
       self.square = square  
       self.do_bg = do_bg  
       self.batch_dice = batch_dice  
       self.apply_nonlin = apply_nonlin  
       self.smooth = smooth  
       self.alpha = 0.3  
       self.beta = 0.7  
  
   def forward(self, x, y, loss_mask=None):  
       shp_x = x.shape  
  
       if self.batch_dice:  
           axes = [0] + list(range(2, len(shp_x)))  
       else:  
           axes = list(range(2, len(shp_x)))  
  
       if self.apply_nonlin is not None:  
           x = self.apply_nonlin(x)  
  
       tp, fp, fn = get_tp_fp_fn(x, y, axes, loss_mask, self.square)  
  
  
       tversky = (tp + self.smooth) / (tp + self.alpha*fp + self.beta*fn + self.smooth)  
  
       if not self.do_bg:  
           if self.batch_dice:  
               tversky = tversky[1:]  
           else:  
               tversky = tversky[:, 1:]  
       tversky = tversky.mean()  
  
       return -tversky

7、Generalized Dice Loss

Dice loss虽然一定程度上解决了分类失衡的问题，但却不利于严重的分类不平衡。例如小目标存在一些像素的预测误差，这很容易导致Dice的值发生很大的变化。Sudre等人提出了Generalized Dice Loss (GDL)

GDL优于Dice损失，因为不同的区域对损失有相似的贡献，并且GDL在训练过程中更稳定和鲁棒。

8、Boundary Loss

为了解决类别不平衡的问题，Kervadec等人[95]提出了一种新的用于脑损伤分割的边界损失。该损失函数旨在最小化分割边界和标记边界之间的距离。作者在两个没有标签的不平衡数据集上进行了实验。结果表明，Dice los和Boundary los的组合优于单一组合。复合损失的定义为

其中第一部分是一个标准的Dice los，它被定义为

第二部分是Boundary los，它被定义为

9、Exponential Logarithmic Loss

在（9）中，加权Dice los实际上是得到的Dice值除以每个标签的和，对不同尺度的对象达到平衡。因此，Wong等人结合focal loss [96] 和dice loss，提出了用于脑分割的指数对数损失(EXP损失)，以解决严重的类不平衡问题。通过引入指数形式，可以进一步控制损失函数的非线性，以提高分割精度。EXP损失函数的定义为

其中，两个新的参数权重分别用ωdice和ωcross表示。Ldice是指数对数骰子损失，而交叉损失是交叉熵损失

其中x是像素位置，i是标签，l是位置x处的地面真值。pi(x)是从softmax输出的概率值。
在（17）中，fk是标签k出现的频率，该参数可以减少更频繁出现的标签的影响。γDice和γcross都用于增强损失函数的非线性。

10.Focal Tversky Loss

与“Focal loss”相似，后者着重于通过降低易用/常见损失的权重来说明困难的例子。Focal Tversky Loss还尝试借助γ系数来学习诸如在ROI（感兴趣区域）较小的情况下的困难示例，如下所示：

class FocalTversky_loss(nn.Module):  
   """  
   paper: https://arxiv.org/pdf/1810.07842.pdf  
   author code: https://github.com/nabsabraham/focal-tversky-unet/blob/347d39117c24540400dfe80d106d2fb06d2b99e1/losses.py#L65  
   """  
   def __init__(self, tversky_kwargs, gamma=0.75):  
       super(FocalTversky_loss, self).__init__()  
       self.gamma = gamma  
       self.tversky = TverskyLoss(**tversky_kwargs)  
  
   def forward(self, net_output, target):  
       tversky_loss = 1 + self.tversky(net_output, target) # = 1-tversky(net_output, target)  
       focal_tversky = torch.pow(tversky_loss, self.gamma)  
       return focal_tversky

11、Sensitivity Specificity Loss

首先敏感性就是召回率，检测出确实有病的能力：

特异性，检测出确实没病的能力：

而Sensitivity Specificity Loss为：

class SSLoss(nn.Module):  
   def __init__(self, apply_nonlin=None, batch_dice=False, do_bg=True, smooth=1.,  
                square=False):  
       """  
       Sensitivity-Specifity loss  
       paper: http://www.rogertam.ca/Brosch_MICCAI_2015.pdf  
       tf code: https://github.com/NifTK/NiftyNet/blob/df0f86733357fdc92bbc191c8fec0dcf49aa5499/niftynet/layer/loss_segmentation.py#L392  
       """  
       super(SSLoss, self).__init__()  
  
       self.square = square  
       self.do_bg = do_bg  
       self.batch_dice = batch_dice  
       self.apply_nonlin = apply_nonlin  
       self.smooth = smooth  
       self.r = 0.1 # weight parameter in SS paper  
  
   def forward(self, net_output, gt, loss_mask=None):  
       shp_x = net_output.shape  
       shp_y = gt.shape  
       # class_num = shp_x[1]  
         
       with torch.no_grad():  
           if len(shp_x) != len(shp_y):  
               gt = gt.view((shp_y[0], 1, *shp_y[1:]))  
  
           if all([i == j for i, j in zip(net_output.shape, gt.shape)]):  
               # if this is the case then gt is probably already a one hot encoding  
               y_onehot = gt  
           else:  
               gt = gt.long()  
               y_onehot = torch.zeros(shp_x)  
               if net_output.device.type == "cuda":  
                   y_onehot = y_onehot.cuda(net_output.device.index)  
               y_onehot.scatter_(1, gt, 1)  
  
       if self.batch_dice:  
           axes = [0] + list(range(2, len(shp_x)))  
       else:  
           axes = list(range(2, len(shp_x)))  
  
       if self.apply_nonlin is not None:  
           softmax_output = self.apply_nonlin(net_output)  
         
       # no object value  
       bg_onehot = 1 - y_onehot  
       squared_error = (y_onehot - softmax_output)**2  
       specificity_part = sum_tensor(squared_error*y_onehot, axes)/(sum_tensor(y_onehot, axes)+self.smooth)  
       sensitivity_part = sum_tensor(squared_error*bg_onehot, axes)/(sum_tensor(bg_onehot, axes)+self.smooth)  
  
       ss = self.r * specificity_part + (1-self.r) * sensitivity_part  
  
       if not self.do_bg:  
           if self.batch_dice:  
               ss = ss[1:]  
           else:  
               ss = ss[:, 1:]  
       ss = ss.mean()  
  
       return ss

12、Log-Cosh Dice Loss

Dice系数是一种用于评估分割输出的度量标准。它也已修改为损失函数，因为它可以实现分割目标的数学表示。但是由于其非凸性，它多次都无法获得最佳结果。Lovsz-softmax损失旨在通过添加使用Lovsz扩展的平滑来解决非凸损失函数的问题。同时，Log-Cosh方法已广泛用于基于回归的问题中，以平滑曲线。

将Cosh(x)函数和Log(x)函数合并，可以得到Log-Cosh Dice Loss：

def log_cosh_dice_loss(self, y_true, y_pred):  
       x = self.dice_loss(y_true, y_pred)  
       return tf.math.log((torch.exp(x) + torch.exp(-x)) / 2.0)

13、Hausdorff Distance Loss

Hausdorff Distance Loss（HD）是分割方法用来跟踪模型性能的度量。它定义为：

任何分割模型的目的都是为了最大化Hausdorff距离，但是由于其非凸性，因此并未广泛用作损失函数。有研究者提出了基于Hausdorff距离的损失函数的3个变量，它们都结合了度量用例，并确保损失函数易于处理。

class HDDTBinaryLoss(nn.Module):  
   def __init__(self):  
       """  
       compute haudorff loss for binary segmentation  
       https://arxiv.org/pdf/1904.10030v1.pdf          
       """  
       super(HDDTBinaryLoss, self).__init__()  
  
  
   def forward(self, net_output, target):  
       """  
       net_output: (batch_size, 2, x,y,z)  
       target: ground truth, shape: (batch_size, 1, x,y,z)  
       """  
       net_output = softmax_helper(net_output)  
       pc = net_output[:, 1, ...].type(torch.float32)  
       gt = target[:,0, ...].type(torch.float32)  
       with torch.no_grad():  
           pc_dist = compute_edts_forhdloss(pc.cpu().numpy()>0.5)  
           gt_dist = compute_edts_forhdloss(gt.cpu().numpy()>0.5)  
       # print('pc_dist.shape: ', pc_dist.shape)  
         
       pred_error = (gt - pc)**2  
       dist = pc_dist**2 + gt_dist**2 # \alpha=2 in eq(8)  
  
       dist = torch.from_numpy(dist)  
       if dist.device != pred_error.device:  
           dist = dist.to(pred_error.device).type(torch.float32)  
  
       multipled = torch.einsum("bxyz,bxyz->bxyz", pred_error, dist)  
       hd_loss = multipled.mean()  
  
       return hd_loss

总结：

交叉熵损失把每个像素都当作一个独立样本进行预测，而 dice loss 和 iou loss 则以一种更“整体”的方式来看待最终的预测输出。

这两类损失是针对不同情况，各有优点和缺点，在实际应用中，可以同时使用这两类损失来进行互补。