Cityscapes数据集

官网：https://www.cityscapes-dataset.com/

这个大型数据集包含了来自50个不同城市的街景场景中记录的多样化的双目视频序列，除了20000个弱注释帧以外，还有5000帧的高质量像素级注释。

主要参考如下：

下载前3个文件即可。其中3文件代表训练使用的原图，1文件代表精细标注label，2文件代表非精细标注label。有的同学要问了，那我下载1、3不就行了吗？我要这2有何用？其实Cityscapes数据集提供了34种分类，但有时我们不需要那么多，比如仅需要19分类（默认的）或任意多个分类，进行图像语意分割的神经网络训练，我们就需要用到他Cityscapes提供的自带工具进行label的转换，若缺少2文件，转换代码会报错无法进行。

该数据集由gtFine和leftImg8bit这两个目录组成，结构如下所示，其中aachen等表示拍摄场景的城市名：

├── gtFine
│   ├── train
│   │   ├── aachen
│   │   ├── bochum
│   │   └── bremen
│   └── val
│       └── frankfurt
└── leftImg8bit
    ├── train
    │   ├── aachen
    │   ├── bochum
    │   └── bremen
    └── val
        └── frankfurt

   原图存放在leftImg8bit文件夹中，精细标注的数据存放在gtFine (gt : ground truth) 文件夹中 。其中训练集共2975张（train)，验证集500张（val)，都是有相应的标签的。但测试集(test)只给了原图，没有给标签，官方用于线上评估大家提交的代码（防止有人用test集训练刷指标）。因此，实际使用中可以用validation集做test使用。

   标签文件中每张图像对应4个文件，其中_gtFine_polygons.json存储的是各个类和相应的区域（用多边形顶点的位置表示区域的边界）；_gtFine_labelIds.png的值是0-33，不同的值代表不同的类，值和类的对应关系在代码中cityscapesscripts/helpers/labels.py中定义；_gtFine_instaceIds.png是示例分割的; _gtFine_color.png是给大家可视化的，不同颜色与类别的对应关系也在labels.py文件中说明。

可以使用Cityscapes的coarse标签做初步训练然后再用精细标签训练

这个数据集包含语义分割，实例分割，深度估计等标签数据，对应的训练标签如下所示：

cd $CITYSCAPES_ROOT
# 训练和校准对应的数据集
ls leftImg8bit/train/*/*.png > trainImages.txt
ls leftImg8bit/val/*/*.png > valImages.txt

# 训练和校准标签对应的数据集
ls gtFine/train/*/*labelIds.png > trainLabels.txt
ls gtFine/val/*/*labelIds.png.png > valLabels.txt

# 训练和校准实例标签对应的数据集
ls gtFine/train/*/*instanceIds.png > trainInstances.txt
ls gtFine/val/*/*instanceIds.png.png > valInstances.txt

# 训练和校准深度标签对应的数据集
ls disparity/train/*/*.png > trainDepth.txt
ls disparity/val/*/*.png.png > valDepth.txt

另外，torchvision支持很多现成数据集：

Class Definitions：

cityscapesscripts 脚本工具：

cityscapes scripts公开以下工具：

csDownload: 命令行下载cityscapes包
csViewer: 查看图像并覆盖批注（overlay the annotations）。
csLabelTool: 标注工具.
csEvalPixelLevelSemanticLabeling: Evaluate pixel-level semantic labeling results on the validation set. This tool is also used to evaluate the results on the test set.像素级评估
csEvalInstanceLevelSemanticLabeling: Evaluate instance-level semantic labeling results on the validation set. This tool is also used to evaluate the results on the test set.实例级评估
csEvalPanopticSemanticLabeling: Evaluate panoptic segmentation results on the validation set. This tool is also used to evaluate the results on the test set.全景分割评估
csCreateTrainIdLabelImgs: Convert annotations in polygonal format to png images with label IDs, where pixels encode “train IDs” that you can define in labels.py.将多边形格式的注释转换为带标签ID的png图像，其中像素编码“序列ID”，可以在labels.py中定义。
csCreateTrainIdInstanceImgs: Convert annotations in polygonal format to png images with instance IDs, where pixels encode instance IDs composed of “train IDs”.将多边形格式的注释转换为具有实例ID的png图像，其中像素对由“序列ID”组成的实例ID进行编码。
csCreatePanopticImgs: Convert annotations in standard png format to COCO panoptic segmentation format.将标准png格式的注释转换为COCO全景分割格式。

cityscapes scripts文件夹

文件夹内容如下：

helpers: 被其他脚本文件调用的帮助文件
viewer: 用于查看图像和标注的脚本
preparation: 用于将GroundTruth注释转换为适合您的方法的格式的脚本
evaluation: 评价你的方法的脚本
annotation: 被用来标注数据集的标注工具
download: 下载Cityscapes packages

请注意，所有文件顶部都有一个小型documentation。非常重要

helpers/labels.py: 定义所有语义类ID的中心文件，并提供各种类属性之间的映射。
helpers/labels_cityPersons.py: 文件定义所有CityPersons行人类的ID并提供各种类属性之间的映射。
viewer/cityscapesViewer.py 查看图像并覆盖注释。
preparation/createTrainIdLabelImgs.py 将多边形格式的注释转换为带有标签ID的png图像，其中像素编码可以在“labels.py”中定义的“训练ID”。
preparation/createTrainIdInstanceImgs.py 将多边形格式的注释转换为带有实例ID的png图像，其中像素编码由“train ID”组成的实例ID。
evaluation/evalPixelLevelSemanticLabeling.py 该脚本来评估验证集上的像素级语义标签结果。该脚本还用于评估测试集的结果。
evaluation/evalInstanceLevelSemanticLabeling.py 该脚本来评估验证集上的实例级语义标签结果。该脚本还用于评估测试集的结果。
setup.py 运行 setup.py build_ext --inplace 启用cython插件以进行更快速的评估。仅针对Ubuntu进行了测试。

CCF（中国计算机学会）推荐国际学术会议和期刊目录（2022年拟定）

CCF（中国计算机学会）推荐国际学术会议和期刊目录（2022年拟定）终于来了！较前一版本（2019）拟新增期刊4个，会议6个；升级期刊18个，会议19个；移除期刊1个。值得注意的是：当前的目录正在公示期，并非2022最终版本，所以后面会再次发布最终版本。

https://www.ccf.org.cn/Academic_Evaluation/By_category/

本文将重点关注 AI 领域，特别是计算机视觉方向的会议/期刊变动情况

【重点总结—拟定】

MICCAI 首次被收录，空降B类会议
PRCV 首次被收录，空降C类会议
NAACL 从C类升级到B类会议
ICLR 继续陪跑，没有被收录推荐目录
AI和图形学/多媒体两大领域的A类会议/期刊均没有变化（无新增/无降级/无移除）
WINE（Conference on Web and Internet Economics）空降A类期刊（属于交叉/综合/新兴领域）
SCIS（Science China Information Sciences）从B类期刊升级到A类期刊（属于交叉/综合/新兴领域）

仅以当前目录（拟定）来看，Amusi猜测：MICCAI、PRCV 的投稿量一定会爆炸增长。

Amusi侃侃：2019-2022这几年里，关于CCF 人工智能会议中争议最多的应该就是：建议ICLR新增到A类，而这次ICLR居然还是连目录（拟定）都没有进，A类/B类/C类中都没有；如果最终版确定没有，那不知道CCF目录下次更新是何时了…

下面完整罗列了推荐目录（拟定）中的【人工智能】和【计算机图形学与多媒体】两大领域的会议和期刊：

人工智能会议

A类不变，仍是7个会议：AAAI、NeurIPS、ACL、CVPR、ICCV、ICML和IJCAI，如下图所示：

B类有13个会议，新增一个NAACL（NAACL从C类升级到B类），如下图所示：

C类有20个会议，减少一个NAACL（NAACL从C类升级到B类），如下图所示：

人工智能期刊

A类不变，仍是4个期刊：AI、TPAMI、IJCV、JMLR，如下图所示：

B类有22个期刊，新增（空降）TACL 期刊，如下图所示：

C类有37个期刊，新增（空降）TIIS 期刊，如下图所示：

计算机图形学与多媒体会议

A类不变，仍是4个会议：ACM MM、SIGGRAPH、VR和IEEE VIS，如下图所示：

B类有14个会议，新增（空降）MICCAI，如下图所示：

C类有15个会议，新增（空降）PRCV、ICVRV和CVM，如下图所示：

计算机图形学与多媒体期刊

A类不变，仍是3个期刊：TOG、TIP和TCVG，如下图所示：

B类不变，仍是10个期刊，如下图所示：

C类有13个期刊，新增（空降）CVMJ，如下图所示：

Visual Prompt–视觉模板

Visual Prompt Tuning
https://github.com/KMnP/vpt

Exploring Visual Prompts for Adapting Large-Scale Models
https://github.com/hjbahng/visual_prompting

Visual Prompt Tuning

最近NLP领域提出了Prompt范新式，企图革新原先的Fine-tuning方法，而在CV领域中，Prompt其实可以理解为图像label的设计，从这个角度看，Prompt(预测文本中mask的字符，类似完形填空)其实是介于Image caption(迭代预测出每一个字符)和one-hot label(one-hot可以认为是prompt的特例，单字符通过text encoder成one-hot)之间的任务。最近在Visual-Language Model(缩写VLM)任务中，prompt开始展现出强大的能力.

Fine-tuning中：是预训练语言模型“迁就“各种下游任务。具体体现就是上面提到的通过引入各种辅助任务loss，将其添加到预训练模型中，然后继续pre-training，以便让其更加适配下游任务。总之，这个过程中，预训练语言模型做出了更多的牺牲。

Prompting中，是各种下游任务“迁就“预训练语言模型。具体体现也是上面介绍的，我们需要对不同任务进行重构，使得它达到适配预训练语言模型的效果。总之，这个过程中，是下游任务做出了更多的牺牲。

Abstract

目前调整预训练模型的方法是full fine-tuning，即完全微调。本文介绍Visual Prompt Tuning（VPT）作为一种有效的用于大规模Transformer的视觉微调。它只需要在输入空间引入少量（不到1%的模型参数）的可训练参数，同时冻结backbone。会发现在很多情况下，优于完全微调。

Introduction

对于大规模模型适应下游任务时，通常的策略是进行端到端的全面微调，然而这种策略需要为每个人物存储部署单独的主干参数，代价比较高，毕竟现在的Transformer体系结构比较大。

一种简单的方法是使用已经完善的其他策略，如下图（a）：仅微调参数的子集，如分类器头部或者偏差项。之前的研究还会试着向主干添加额外的残差结构或者adapter，可以对Transformer实施类似的策略。然而，这些策略会在准确度上执行完全微调。

作者试图探索一种不同的方法：并不通过改变或者微调预训练好的Transformer本身，而是修改其输入。如下图（b）所示：将少量特定任务的可学习参数引入输入空间，同时在下游训练期间冻结backbone。实践中，这些附加参数只是预先加入到Transformer每层输入序列中，并在微调时和线性头一起学习。

在预训练主干用ViT的24个跨域的下游任务中，VPT优于了其他迁移学习的baseline，有20个超过了完全微调，同时保持了为每个单独任务储存较少参数的优势。（NLP任务中，prompt tuning旨在某些情况下才匹配完全微调的性能）。如下图（c）所示，VPT在地数据区尤其有效，结果也进一步表明，VPT是适应不断增长的视觉主干的最有效方法之一。

Visual-Prompt Tuning (VPT) vs . other transfer learning methods. (a) Current
transfer learning protocols are grouped based on the tuning scope: Full fine-tuning,
Head-oriented, and Backbone-oriented approaches. (b) VPT instead adds extra pa-
rameters in the input space. (c) Performance of different methods on a wide range
of downstream classification tasks adapting a pre-trained ViT-B backbone, with mean
and standard deviation annotated. VPT outperforms Full fine-tuning 20 out of 24 cases
while using less than 1% of all model parameters

Related Work

迁移学习两种代表性方法：Adapter在每个Transformer层后插入一个额外的小模块。通常包含一个线性向下头像、线性向上投影及一个残差连接。BitFit是在微调网络时更新偏置项并冻结其余backbone参数。这些方法在NLP已经成熟运用。作者则进一步实验表明了VPT在视觉任务的Transformer的模型调整上性能更加良好。

Prompt最初指的是在输入文本中预编语言汁了，以便预训练好的LM(Language Model)能够“理解”任务。最近的工作则是将prompt视为任务特定的连续向量，并在微调过程中通过梯度直接优化，即Prompt Tuning。prompting依然局限于文本编码器的输入。作者是第一个解决（同样的方法能成功的应用到视觉主干）并研究视觉prompt的普遍性和可行性的工作。

Approach

整体框架图如下图所示：

Visual-Prompt Tuning：

给定一个预先训练好的Transformer，在Embed层后的输入空间引入一组d维的p连续embedding。在微调过程中，只有prompt会被更新，主干将会冻结，根据加入prompt的层数量分为浅VPT和深VPT。

浅VPT :

Prompt仅插入第一层。每一个prompt token都是一个可学习的d维参数。集合和浅VPT表示如下：

VPT-Deep: Prompt被插入每一层的输入控件。集合和深VPT表示如下：

VPT对于多个下游任务都是有帮助的，只需要为每个任务存储学习到的prompt和分类头，重新使用预训练的Transformer，从而显着降低存储成本。

Experiments:

上图是关于prompt的位置，本文提出的是prepend，与直接在embedding上添加对比效果更好。除此之外，作为前置像素或者concat通道的效果也都在下降。

下图则是对prompt长度、深度的消融实验：

最佳提示长度因任务而异，即使只有一个prompt，深VPT的效果仍显着优于另外两种方法。

下图为最终输出的消融实验：

补充：

CoOp：

CoOp明显是受到了AutoPrompt的启发，并且CoOp发现CLIP实际上就是prompt在visual-language model中的一个应用，于是CoOp在CLIP的基础上进一步进行改进。

CoOp先在四个数据集上做实验，发现更合理的prompt能够大幅度的提升分类精度尤其是使用了本文提出的CoOp之后，最终的分类精度远超CLIP人为设计的prompt。

和CLIP的主要不同之处在于，CoOp在CLIP的第二个阶段中引入了context optimization。具体的，CoOp将prompt设计为：

t=[V]1[ V]2…[V]M[CLASS]

其中每个[V]M向量跟word embedding的维度相同，可以理解为可学习的context，并且所有类别对应的context共享参数。

Exploring Visual Prompts for Adapting Large-Scale Models

这篇文章参考了Ian Goodfellow等人（2018）对抗样本中的对抗重编程思想，对抗重编程的目标是我使用一个任务A的网络（无需重新训练该网络）来做任务B。我们设一个经过训练的模型，其原本的任务是，给定输入x，会得到输出f(x)现在有一个攻击者，其对抗任务是对于给定的输入x~，会得到输出g(x~),这里x~和x不一定需要是同域的。这看起来是不可行的，但是攻击者通过学习对抗重编程函数hf(.;θ)和hg(.;θ)来实现这两个任务之间的映射。hf(.;θ)用于将输入从x~所在的域转换到x所在的域，也就是说，经过hf的处理后得到的hf(x~;θ)对于f而言是有效的输入；而hg则将f的输出f(h(x~;θ))映射会g(x~)的输出。

图 1：对抗重编程图示。（a）将 ImageNet 标签映射至对抗任务标签（图像中的方块）。（b）来自对抗任务的图像（左）被嵌入对抗程序的中心（中），得到对抗图像（右）。该对抗程序使 Inception V3 网络执行计算图像中方块数量的任务。（c）使用对抗图像进行推断的图示。把对抗图像输入该网络时，网络预测映射至对抗任务的 ImageNet 标签。

图2提供了适应预训练模型的不同方法的摘要。微调和线性探测的用法非常灵活：它们可用于使模型适应新的输入域或具有不同输出语义的新任务。但是，在线性探针的情况下，在微调和模型输出（通常在倒数第二层的激活）的情况下，他们还需要一定程度的访问模型：参数。域的适应性是模型适应的有趣替代方法，因为它仅使用图像到图像翻译等技术来修改模型的输入[50，19]。像域的适应性一样，视觉提示也将输入修改为模型。因此，一旦最终用户找到了视觉提示，就不需要在测试时间控制模型本身。这打开了独特的应用程序；例如，用户可以将适应域的图像馈送到只能通过输入来操纵的在线API。域的适应性重点是调整源域以看起来像目标域，同时需要源和目标数据集。另一方面，我们认为视觉提示可以以更任意的方式引导模型。例如，可以通过扰动输入像素来使用新的输出语义进行一个完全不同的分类任务来执行完全不同的分类任务。同样，尽管域适应方法通常是输入条件，但我们在本文中探索的视觉提示是固定的（即输入 – agnostic），如NLP，例如在NLP中，将相同的自然语言提示添加到所有模型查询中

CLIPSeg：一个使用文本和图像prompt能同时作三个分割任务的模型

Image Segmentation Using Text and Image Prompts (CVPR 2022).

论文地址：https://arxiv.org/abs/2112.10003

代码地址：https://github.com/timojl/clipseg

图像分割通常是通过为一组固定的对象类训练模型来解决的。之后合并其他类或更复杂的查询是昂贵的，因为它需要在包含这些表达式的数据集上重新训练模型。在本文中，作者提出了一个可以在测试时根据任意prompt生成图像分割的系统。prompt可以是文本或图像。这种方法使模型能够为三个常见的分割任务创建一个统一的模型（只训练一次），这些任务具有不同的挑战：引用表达式分割、zero-shot分割和one-shot分割。本文以 CLIP 模型为骨干，使用基于Transformer的解码器进行扩展，以实现密集预测。在对 PhraseCut 数据集的扩展版本进行训练后，本文的系统会根据自由文本prompt或表达查询的附加图像为图像生成二进制分割图。这种新颖的混合输入不仅可以动态适应上述三个分割任务，还可以适应任何可以制定文本或图像查询的二进制分割任务。最后，作者发现本文的系统能够很好地适应通用查询。

图像分割需要一个模型来输出每个像素的预测。与图像分类相比，分割不仅需要预测可以看到的内容，还需要预测可以找到的位置。经典语义分割模型仅限于分割训练集中的类别。目前，已经出现了不同的方法来扩展这种相当受限的设置：

1）在广义的zero-shot分割中，需要通过将未见类别与已见类别相关联来分割已见和未见类别。

2）在one-shot分割中，除了要分割的查询图像之外，还以图像的形式提供所需的类。

3）在引用表达式分割（RES）中，模型在复杂的文本查询上进行训练，但在训练期间可以看到所有类（即没有对未见过的类进行泛化）。

在这项工作中，作者引入了 CLIPSeg 模型（如上图），该模型能够基于任意文本查询或图像进行分割。 CLIPSeg 可以解决上述所有三个任务。这种多模态输入格式超越了现有的多任务基准，例如 Visual Decathlon，其中输入始终以图像的形式提供。为了实现这个系统，作者使用预训练的 CLIP 模型作为主干，并在顶部训练一个轻量的条件分割层（解码器）。作者使用CLIP 的联合文本-视觉嵌入空间来调节本文的模型，这使模型能够处理文本形式的prompt以及图像。本文的想法是教解码器将 CLIP 内的激活与输出分割相关联，同时允许尽可能少的数据集偏差并保持 CLIP 的出色和广泛的预测能力。

本文采用通用的二进制预测设置，其中与prompt匹配的前景必须与背景区分开来。这种二进制设置可以适应Pascal zero-shot分割所需的多标签预测。虽然本文工作的重点是建设一个通用模型，作者发现 CLIPSeg 在三个low-shot分割任务中实现了竞争性能。此外，它能够泛化到它从未见过分割的类和表达式。

本文的主要技术贡献是 CLIPSeg 模型，它通过提出一种基于Transformer的轻量级解码器，扩展了著名的 CLIP Transformer用于zero-shot和one-shot分割任务。该模型的一个关键新颖之处在于分割目标可以通过不同的方式指定：通过文本或图像。这使模型能够为多个基准训练一个统一的模型。对于基于文本的查询，与在 PhraseCut 上训练的网络不同，本文的模型能够泛化到涉及看不见的单词的新查询。对于基于图像的查询，作者探索了各种形式的视觉prompt 工程——类似于语言建模中的文本prompt 工程。

方法

作者使用基于视觉Transformer的 (ViT-B/16) CLIP模型作为主干，并使用小型、参数高效的Transformer解码器对其进行扩展。解码器在自定义数据集上进行训练以执行分割，而 CLIP 编码器保持冻结状态。一个关键的挑战是避免在分割训练期间对预测施加强烈的bias并保持 CLIP 的多功能性。

考虑到这些需求，作者提出了 CLIPSeg：一个简单的、纯基于Transformer的解码器。当查询图像通过 CLIP 视觉Transformer时，某些层 S 的激活被读取并投影到解码器的token嵌入大小 D。然后，这些提取的激活（包括 CLS token）在每个Transformer之前添加到解码器的内部激活中。

解码器具有与提取的 CLIP 激活一样多的Transformer块。解码器通过在其Transformer（最后一层）的token上应用线性投影来生成二进制分割，其中 P 是 CLIP 的patch大小。为了告知解码器分割目标，作者使用 FiLM通过条件向量调制解码器的输入激活。

这个条件向量可以通过两种方式获得：(1) 使用文本查询的 CLIP 文本Transformer嵌入和 (2) 在特征工程prompt图像上使用 CLIP 视觉Transformer。CLIP 本身没有经过训练，仅用作冻结特征提取器。由于紧凑的解码器，对于 D = 64，CLIPSeg 只有 1,122,305 个可训练参数。

由于学习到的位置嵌入，原始 CLIP 被限制为固定的图像大小。本文通过插入位置嵌入来启用不同的图像大小（包括更大的图像）。为了验证这种方法的可行性，作者比较了不同图像尺寸的预测质量，发现对于大于 350 像素的图像，ViT-B/16 的性能只会降低。

在本文的实验中，作者使用 CLIP ViT-B/16，patch大小 P 为 16，如果没有另外说明，则使用 D = 64 的投影尺寸。作者在 S = [3 , 7 , 9] 层提取 CLIP 激活，因此本文的解码器只有三层。

模型通过条件向量接收有关分割目标的信息（“要分割什么？”），这可以通过文本或图像（通过视觉prompt工程）提供。由于 CLIP 为图像和文本标题使用共享嵌入空间，可以在嵌入空间和插值向量上的条件之间进行插值。形式上，设是支持图像的嵌入，是样本 i 的文本嵌入，作者通过线性插值获得条件向量，其中 a 是从[0 , 1]均匀采样。作者在训练期间使用这种随机插值作为数据增强策略。

1 PhraseCut + Visual prompts (PC+)

本文使用 PhraseCut 数据集，其中包含超过 340,000 个具有相应图像分割的短语。最初，该数据集不包含视觉支持，而仅包含短语，并且每个短语都存在相应的对象。作者以两种方式扩展这个数据集：视觉支持样本和负样本。为了为prompt p 添加视觉支持图像，作者从共享prompt p 的所有样本的集合S_p中随机抽取。

此外，作者将负样本引入数据集，即没有对象与prompt匹配的样本。为此，样本的短语被替换为概率为q_neg的不同短语。短语使用一组固定前缀随机扩充。在考虑到对象位置的情况下，作者在图像上应用随机裁剪，确保对象至少部分可见。在本文的其余部分，将此扩展数据集称为 PhraseCut+（缩写为 PC+）。与仅使用文本来指定目标的原始 PhraseCut 数据集相比，PC+ 支持使用图像-文本插值进行训练。这样，本文可以训练一个对文本和视觉输入进行操作的联合模型。

2 Visual Prompt Engineering

在传统的基于 CNN 的one-shot语义分割中，masked pooling 已成为计算用于条件的原型向量的标准技术。提供的支持mask被下采样并与来自 CNN 沿空间维度的后期特征图相乘，然后沿空间维度汇集。这样，只有与支持对象有关的特征才被考虑在原型向量中。

这种方法不能直接应用于基于Transformer的架构，因为语义信息也在整个层次结构中的 CLS token中积累，而不仅仅是在特征图中。绕过 CLS token并直接从特征图的masked pooling中导出条件向量也是不可能的，因为它会破坏文本嵌入和 CLIP 视觉嵌入之间的兼容性。

为了更多地了解如何将目标信息整合到 CLIP 中，作者在一个没有分割的简单实验中比较了几个变体及其混杂效应。作者考虑视觉和基于文本的嵌入之间的余弦距离（对齐），并使用原始 CLIP 权重而无需任何额外的训练。

具体来说，作者使用 CLIP 来计算对应于图像中对象名称的文本嵌入t_i。然后，将它们与原始图像的视觉嵌入s₀和使用修改后的 RGB 图像或注意力mask突出显示目标对象的视觉嵌入s_h进行比较。通过对对齐向量[s_ht₀,s_ht₁,…]进行softmax，获得了如上图所示的分布。

对于定量分数，作者只考虑目标对象名称嵌入t₀，希望它与突出显示的图像嵌入s_h比与原始图像嵌入s₀具有更强的对齐。这意味着，如果突出显示技术改进了对齐方式，则对象概率的增加应该很大。作者基于LVIS 数据集进行分析，因为它的图像包含多个对象和一组丰富的类别。

CLIP-Based Masking

直接等效于视觉Transformer中的masked pooling是将mask应用于token。通常，视觉Transformer由一组固定的token组成，这些token可以通过多头注意力在每一层进行交互：用于读取的 CLS token和最初从图像patch中获得的与图像区域相关的token。

现在，可以通过将一个或多个Transformer层的交互约束到mask内patch token以及仅 CLS token来合并mask。上表（左）表明这种引入mask的形式效果不佳。通过限制与 CLS token的交互（上表左，顶部两行），仅实现了小的改进，而限制所有交互会显着降低性能。由此得出结论，在内部结合图像和mask需要更复杂的策略。

Visual Prompt Engineering

除了在模型中应用mask，还可以将mask和图像组合成一个新图像，然后由视觉Transformer处理。类似于 NLP 中的prompt工程（例如在 GPT-3 中），作者将此过程称为视觉prompt工程。由于这种形式的prompt设计是新颖的，并且在这种情况下表现最好的策略是未知的，作者对设计视觉prompt的不同变体进行了广泛的评估。

发现mask和图像如何组合的确切形式非常重要。作者确定了三种图像操作来改善对象文本prompt和图像之间的对齐：降低背景亮度、模糊背景（使用高斯滤波器）和裁剪到对象。所有三者的组合表现最好。因此在其余部分，将使用这个变体。

实验

上表展示了在原始 PhraseCut 数据集上评估referring expression segmentation（RES）的性能对比。

在广义zero-shot分割中，测试图像除了包含已知类别外，还包含以前从未见过的类别。作者使用 Pascal-VOC 基准评估模型的zero-shot分割性能，性能如上表。

在 Pascal-5i 上，本文的通用模型 CLIPSeg (PC+) 在最先进的方法中实现了具有竞争力的性能，只有最近的 HSNet 表现更好。COCO-20i 上的结果表明 CLIPSeg 在除 PhraseCut(+) 之外的其他数据集上训练时也能很好地工作。

上图展示了CLIPSeg（PC+）对各种prompt的定性预测，深色表示预测强度。

从上表中，可以发现在 PC+ 上训练的 CLIPSeg 版本的性能优于 CLIP-Deconv baseline和在 L VIS 上训练的版本，后者仅包含对象标签而不是复杂的短语。这一结果表明，数据集的可变性和模型的复杂性都是泛化所必需的。

为了确定 CLIPSeg 性能的关键因素，作者对 PhraseCut 进行了消融研究。，如上表所示，作者分别评估基于文本和基于视觉prompt的性能以获得完整的图片。当使用随机权重而不是 CLIP 权重时（“无 CLIP 预训练”），基于文本的性能和视觉性能都会下降。当参数数量减少到 16 个（“D = 16”）时，性能大幅下降，这表明解码器中信息处理的重要性。使用不利的视觉prompt技术会降低视觉输入的性能。

SegFix: Model-Agnostic Boundary Refinement for Segmentation

paper：https://arxiv.org/abs/2007.04269
code:https://github.com/openseg-group/openseg.pytorch

本文提出了一种模型无关的后处理方案，即用内部像素的预测代替原来不可靠的边界像素预测，以提高由任何现有分割模型生成的分割结果的边界质量。该方法仅对输入图像进行两步处理：(i)定位边界像素；(ii)识别每个边界像素对应的内部像素（通过学习从边界像素到内部像素的方向来建立对应关系）。

该方法不需要先验信息的分割模型，达到接近实时的速度。实验验证，SegFix减少了cityspace数据集中各种先进模型(ADE20K和GTA5)所生成的分割结果的边界误差。

动机：现有的分割模型大多不能很好地处理边界上的误差预测。作者对比了三个模型的直方图误差，如图1(错误像素数到物体边缘的距离的统计)可以看到，距离边界越远的像素越有可能被很好地分类，并且有很多误差分布在沿边界约为5像素的范围内。

提出了一种新方法来学习边界像素和内部像素的对应关系，即提出了一种新的模型无关的后处理方法来减少边缘误差，即用对应的内部像素的标签代替边缘像素的标签。使用边界映射和方向映射隐式编码边界像素的相对距离信息，偏移映射可以直接应用于各种方法，而不需要进行任何再训练。

主要包括2步：第一步是定位边界像素，第二步是找出每一个边界像素所关联的内部像素。我们采用一个向量去表示每个边界像素跟其对应内部像素的对应关系，这个向量从边界像素出发，指向一个内部像素。

1）首先要先确定物体边界：用卷积来预测一个binary mask来表示边界。1表示边界，0表示other
2）学习一个从边界pixel到内（外）部pixel的方向
3）让边界pixel沿着这个方向移动特定的距离即可确定该边界pixel。

训练阶段，我们首先将图像输入到主干网络中来预测特征图，然后应用边界分支预测二值边界图和应用方向分支预测方向图，我们将边界损失和方向损失分别应用到预测的边界图和方向图上。在测试阶段，我们首先将模型执行到图像上，以生成偏移量映射，然后根据偏移量图对现有方法的分割结果进行细化。

边缘预测分支

边界分支实现为1×1conv→BN→ReLU，输出通道256个。然后我们应用线性分类器和上采样预测，生成最终的边界图B；训练时由真值boundary map监督约束，使用二值交叉熵损失作为边界损失，学习良好的边缘检测。

方向预测分支

边界分支实现为1×1conv→BN→ReLU，输出通道256个。然后我们应用线性分类器和上采样预测，生成最终的方向图D；预测所有位置的像素与之最近的同类像素的方向，这里的方向不是连续的，而是对[0,2π)量化成m个值后的结果；

训练时使用真值direction map监督该分支生成的离散方向，使用多分类交叉熵损失（standard category-wise cross-entropy loss）来作为方向预测损失。

offset branch

用来转换预测得到的D（已经乘过了B ）到坐标偏移图offset_map：不同的方向会被映射到不同的坐标偏移值。重新对现有方法在边界区域的预测结果进行调整。

最终通过坐标映射（the grid-sample scheme [Spatial transformer networks]），重新对现有方法在边界区域的预测结果进行调整。基于偏移映射对粗略标记图进行细化。用不同的箭头表示不同的偏移向量。在粗略标签图中红色标记错误位置，在精确标签图中箭头方向标记相应的修正位置。

真值生成和分析

先从ground-truth分割图生成distance map，再在此基础上生成boundary map和direction map，过程如图3(b)。

(1) distance map

对于每个像素而言，distance map上都记录了它相距属于其他类别像素的最小欧式距离。这实际上也表示了像素到边界的距离。

首先将真值mask分解成K个binary map (0 or 1)，每个map关联着不同的类别（语义类别、实例类别），K表示图像中包含的类别数量。之后在每个binary map上独立计算distance map，这里使用了scipy的函数scipy.ndimage.morphology.distance_transform_edt() 。这个函数用于距离转换，计算图像中非零点到最近背景点（即0）的距离。它被用在每个类别独立的binary mask上，正好计算的就是相距于其他类别（每个binary mask上的0表示的就是“其他类别”）的最小欧氏距离。

计算完各个mask后，再计算一个融合的distance map来实现对于所有的K个distance map的集成。

(2) boundary map

使用融合后的distance map，对其使用一个预设的阈值进行划分，小于阈值的作为边界区域的像素，大于阈值的认为在特定目标区域内部。因为距离值越小，说明越接近边界。

(3) direction map

这里在未合并的K层distance map上，分别使用9×9的Sobel滤波器。基于Sobel滤波器的方向是在[0°，360°)内，并且每个像素位置的方向都指向邻域内部距离目标边界最远的像素。整个方向范围被均匀划分成m=8类，然后每个像素的方向被赋值成对应的方向类别。

实验结果

backbone：HRNet、DeepLab V3等。

数据集：Cityscapes and GTA5

参数设置：初始学习率为0.04，权值衰减为0.0005，裁剪大小为512×512，批量大小为16，并训练80K次迭代。0.9的“poly”学习率策略。

数据增强：随机水平翻转、随机裁剪和随机亮度抖动。

评价指标：mask F-score and top-1 direction accuracy 对预测的二值边界图进行mask F-score，对预测的方向图进行方向精度评定。

定量评价：用mIoU分类度量区域分割的整体性能边界；F-score用于测量距离上有小松弛的预测掩模的边界质量。

计算机图形学——网格

网格有多种，三角形，四边形或者其他的多边形。但是目前使用最多的，也是本文着重介绍的是三角网格。三角网格是计算机中表示三维模型最重要的方法。这篇文章主要介绍一下网格的相关概念以及技术算法。

定义

网格就是使用多边形来表示物体的表面。一个网格模型的描述之前也说到过，它包含一系列的面片和顶点。

面片F=(f1,…,fn)F=(f1,…,fn)，对于三角网格，每个面片都是三角形。

顶点V=(v1,…,vm)V=(v1,…,vm)。其中，每个面片又是由3个顶点构成的三角形，因此:fi=(vi1,vi2,vi3);vi1,vi2,vi3∈V.fi=(vi1,vi2,vi3);vi1,vi2,vi3∈V.

网格的由来

计算机生成的三维模型和实际获取的数据表示模式是不同的。计算机生成的模型可能是平滑曲线曲面，而实际获取的数据，如激光扫描得到的，一般都是以点云的形式存在。图形学中需要一个统一的表示方式，同时要求视觉精度和处理速度都在可以接受的范围内。于是就选择了网格，用多边形来近似曲面，三角网格最为简单高效，再加上图形硬件的快速发展，三角网格和光栅化已经可以嵌入到硬件中去渲染。

三维数据的来源

一般来说，获取三维模型数据的方法有多种。我们可以直接在几何文件中输入，也可以通过程序创建，比较高级的建模软件有3Ds/max，maya等。第二种就是通过激光扫描，结构光技术等等获取深度，得到点云模型。也有一些别的方法，如SFM，从多视图（多张照片）中构建三维模型。

三维模型又可以分为实体模型和表面模型。

实体模型，多用于CAD领域，通常强调对应实际工业生产中的加工过程，如切割，钻孔等。它是实心的而非空心，在显示过程中需要考虑很多的东西，占用内存较大，因此不利于显示。
表面模型，我们平时见到的模型多是表面模型，只考虑物体的表面细节并直接进行处理，这种模型易于显示。

网格化

网格化是指将模型（点云，多边形等等）分割称为更容易处理的图元，如凸多边形，三角形或者四边形。如果分割成三角形，被称为三角化。我们先看看2D网格化，而3D空间中的网格化也和2D中类似。

如上图，最左侧的多边形不能被称作网格化，第二个是凸多边形网格化，第三个是三角化，最右侧是被均匀分割。

这里介绍两个三角网格化的非常简单的算法。

基本的网格化算法

给定多边形，检验其任意两个顶点之间的线段是否与该多边形的边相交或者部分重叠。如果是，则不能用于分割三角形，否则，用该线段来将多边形分成两个多边形，对每个部分继续上述算法。

割耳（ear clipping）算法

首先找到多边形的ear：查看所有具有顶点序列i,i+1,i+2(modn)i,i+1,i+2(modn)的三角形，称这个三角形为顶点为i+1i+1的三角形，检查线段i,i2i,i2是不是没有与任何边相交。如果是，则这个三角形构成一个ear，去掉该ear，检查顶点ii和i+2i+2处的三角形是不是构成ear。重复上述过程。这个算法每次都会分出一个新的三角形。

上述两种算法对凹多边形进行三角化，会使得其变成凸多边形的样子。原本不是面的部分由于三角化而多了面片。

除此之外，我们还需要注意一种特殊的情况叫T型顶点：

它最常出现在网格细分或者网格简化过程中，使得一个顶点出现在了某个面片的边上。理论上这个点是完全在边上，但是实际渲染中顶点的位置可能不会那么精确。当一个模型中有T顶点存在，一些算法可能会失败。

网格简化

网格的简化有很多好处。比如当前我做的项目中，就需要网格简化来节省内存。同时，网格简化还有很多好处。

减少几何冗余：如果一个具有很多共面小三角形的平坦区域，可以将这些小三角形合并成大的多边形来降低模型复杂度。
减小模型大小
提高运行性能

而且有时候，对于网格的简化，并不会引起多大的感官差异，例如我们可以对较远的场景进行网格简https://www.baidu.com/baidu?wd=163&tn=ubuntuu_cb&ie=utf-8的东西看不清，复杂的网格和简化之后的网格差别不大。这也是当前很多游戏能实时运行的一个重要的技术，叫做生成场景中物体的层次细分。

拓扑结构

拓扑结构指的是多边形网格的连接结构。有一些专业术语需要了解一下，对于网格简化，细分等会用到。

亏格（genus）
亏格指的是网格表面孔洞的数目。如下：

面片，边或顶点的拓扑结构，指相邻元素的局部连接关系。如下图：

临界边只接一个三角形，普通边接两个三角形，奇异边接三个三角形。对于没有临界边的网格称为closed mesh。

二维流形（2-manifold）

二维流行网格定义如下：

一条网格边为一个或两个网格三角面片共享；
一个网格顶点的一环邻域三角片构成一个闭合或者开放的扇面。

看上去不好理解，看图片就比较好明白。

非流形网格：

流形网格：

很显然，流形网格只包含临界边和普通边。

网格简化的方法有很多，但是不外乎是下面四种的改进或者组合。

采样（sample）。很好理解，简单的选取模型表面上的点进行几何采样，编程较为复杂。这种方法对高频特征难以精确采样，通常在没有尖角的光滑表面上能取得最好的效果。
自适应细分（adaptive subdivision）通过寻找一个可以递归细分逼近最初模型的基网格，该算法在基模型容易获取的情况下能取到很好的效果，但是它会保持表面拓扑细节，因此对模型进行大规模简化的能力不足。
去除（decimation）。去除方法迭代地去除网格上的顶点或者面片，并三角化每次去除后的空洞。这类方法比较简单，易于编程实现而且运行效率也较高，且通常保持原有的亏格，尤其适用于处理像共面多边形这种冗余的几何。
顶点合并（vertex merging）。顶点合并一般将多个顶点合并成一个顶点，该算法也比较好实现，但是需要采用多种技术来确定哪些点被合并以及合并次序。
有一个例子是边坍塌算法，将共边的两个顶点合并为一个点，该算法通常保持局部拓扑，但也允许修改拓扑。

细分

网格的细分和简化相反。对于一个给定的原始网格，通过网格细分产生更光滑的效果。细分广泛应用于电影行业，实际上算法提出者之一Catmull还是皮克斯和迪士尼的总裁。

下面是几个细分的例子：

一维细分，原本是4个点的线段，通过向中间插入点得到下一张图，不断迭代得到圆滑曲线。

三维网格细分，根据特定细分规则，每次细分每一个三角形被细分成4个小的三角形。

细分可以看做是一个两阶段过程，最初的网格被称为控制网格。

细化阶段，创建新的顶点并与先前顶点相连，产生新的更小的三角形
平滑阶段，计算新顶点的位置

这两步的细节决定了不同的细分方案，在第一步中一个三角形可以以不同的形式进行分割，第二部新顶点的位置可以以不同的方式插值产生。

Loop细分

Loop细分是第一个基于三角网格的细分方案。它更新每个已有的顶点，并对每条边创建一个新的顶点，这样每个三角形被分割成4个新的三角形。经过n步细分，一个三角形被分割成4n4n个三角形。

下图为一个loop细分的例子，新的顶点以黑色显示。

为了更好说明Loop细分的步骤

下图中左侧给出了第二个公式的相关点，右侧给出了第一个公式的相关点：

β是n的函数

√3细分

另外有一种细分方法，被称为3–√3细分。和Loop细分不同的地方在于，Loop把每个三角形划分成4个三角形，而3–√3细分把每个三角形细分成3个三角形。这意味着新增加的顶点在原三角形内部。不过，很明显内部点直接与各个点连线构成的三角形很奇怪，如下图中的第二张。而3–√3在连线之后，会做一个边翻转，把原来的边删掉，而连接新的顶点的作为边，像是把原来的边进行了一个翻转，如下图中最后一张：

DenseCLIP：CVPR2022 用文本指导图像分割

代码链接：https://github.com/raoyongming/DenseCLIP
论文链接：https://arxiv.org/abs/2112.01518

最近的研究表明，使用对比图像文本对进行大规模的预训练可能是从自然语言监督中学习高质量视觉表示的有前途的方法。得益于更广泛的监督来源，这一新范式在下游分类任务和可迁移性方面展现出了不错的结果。

然而，将从图像-文本对中学习到的知识转移到更复杂的密集预测任务的问题几乎没有被研究 。在这项工作中，作者通过隐式和显式地利用CLIP的预训练的知识，提出了一个新的密集预测框架。

具体而言，作者将CLIP中的原始图像-文本匹配问题 转换为像素-文本匹配问题 ，并使用像素-文本得分图来指导密集预测模型的学习。通过进一步使用来自图像的上下文信息来提示语言模型，能够促进模型更好地利用预训练的知识。

本文的方法与模型无关，可以应用于任意密集预测模型和各种预训练的视觉主干，包括CLIP模型和ImageNet预训练的模型。广泛的实验证明了本文的方法在语义分割，目标检测和实例分割任务上的卓越性能。

在本文中，作者研究了如何将预训练的CLIP模型迁移到密集的预测任务 。与传统的ImageNet预训练模型相比，一个明显的挑战是上游对比预训练任务和下游像素预测任务之间的差距，前者涉及图像和文本的实例级表示，而后者仅基于像素级别的视觉信息。

为了解决这个问题，作者提出了一个新的语言指导的密集预测框架，名为DenseCLIP 。

如上图所示，它是通过隐式和显式地利用来自CLIP模型的预训练的知识而为各种密集预测任务而设计的。利用预训练的知识的一种隐式方法是直接微调下游数据集上的模型。结果表明，通过对超参数进行一些修改，CLIP模型可以优于传统的ImageNet预训练模型（如下图所示）。

但是直接的方法不能充分利用CLIP模型的潜力。受CLIP中的原始对比学习框架的启发，作者提出将CLIP中的原始图像-文本匹配问题转换为像素-文本匹配问题，并使用像素-文本得分图来明确地指导密集预测模型的学习 。

通过进一步使用图像中的上下文信息，使用Transformer模块来提示语言模型，能够通过优化文本嵌入，使模型更好地利用预训练的知识。

Preliminaries: Overview of CLIP

CLIP由两个编码器组成，包括一个图像编码器 (ResNet或ViT) 和一个文本编码器 (Transformer)。CLIP的目标是通过对比目标在预训练期间对齐视觉和语言的嵌入空间。

为了学习更多可迁移的预训练知识，CLIP收集4亿图像-文本对进行模型训练。迁移CLIP的知识，对于下游分类任务，一种简单但有效的方法是基于模板（如“a photo of a [CLS]”）构建一组文本提示，其中[CLS]可以替换为实际的类名。

然后给定一个图像，可以使用CLIP来计算图像和嵌入空间中的文本提示之间的相似性，并且得分最高的类被视为最终预测。最近，一些作品已经表明CLIP可以通过很少的样本获得强大的分类性能。因此，这就出现了一个有趣的问题: CLIP强大的能力是否可以迁移到像密集预测这样更复杂的视觉任务中？

但是，这种扩展是不容易的。首先，如何在密集预测任务中利用视觉语言预训练模型是一个几乎没有被研究的问题。尽管一种简单的解决方案是仅像预训练的2D主干一样使用图像编码器，但作者认为文本编码器中包含的语言先验也非常重要 。

其次，由于上游对比预训练任务与下游每像素预测任务之间存在巨大差距，因此将知识从CLIP转移到密集预测更加困难 ，前者考虑图像和文本的实例级表示，后者仅基于视觉信息，但需要像素级输出。

Language-Guided Dense Prediction

为了解决上述问题，作者提出了本文的语言指导的密集预测框架，该框架可以更好地利用CLIP预训练模型中的语言先验。本文的模型结构如上图所示。作者发现，除了全局图像特征之外，还可以从CLIP图像编码器的最后一层中提取语言兼容的特征图。

为了说明这一点，下面首先详细描述CLIP图像编码器的结构。以ResNet 编码器为例，总共有4个阶段，将特征图表示为。与原始的ResNet不同，CLIP添加了一个注意力池化层。

具体而言，CLIP首先对执行全局平均池化，以获得全局特征，其中是从主干网络第4阶段开始的特征图的高度，宽度和通道数。然后将concat的特征输入到多头自注意层(MHSA) 中:

在CLIP的标准训练过程中，全局特征用作图像编码器的输出，而其他输出通常被忽略。然而，作者发现z有两个有趣的特性：

1）z仍然保留了足够的空间信息，因此可以用作特征图 。

2）因为MHSA对每个输入元素都是对称的，所以z可能和 相似。根据以上观察结果，作者可以将z用作语言兼容的特征图。

为了获得文本特征，可以从模板“a photo of a [CLS].”中构造文本提示使用K类名称，并使用CLIP文本编码器将特征提取。然后，使用语言兼容的特征图z和文本特征t通过以下方式计算像素文本得分图

其中和是沿通道维度的z和t的l2归一化版本。得分图表示了像素文本匹配的结果，这是本文框架中最关键的要素之一。首先，可以将分数图视为具有较低分辨率的分割结果，因此可以使用它们来计算辅助分割损失。

其次，将分数映射concat到最后一个特征映射，以显式地合并语言先验，即。本文的框架是与模型无关的，因为修改的特征图可以像往常一样直接用于分割或检测。

Context-Aware Prompting

先前的研究已经证明，减少视觉或语言领域的差距可以显着提高CLIP模型在下游任务中的性能。因此，作者寻求其他方法来改进文本特征t，而不是使用人类预先定义的模板。

Language-domain prompting

与原始CLIP不同，原始CLIP使用人工设计的模板，如“a photo of a [CLS]”。CoOp引入了可学习的文本上下文，通过使用反向传播直接优化上下文，在下游任务中实现更好的可迁移性。受CoOp的启发，作者还在框架中使用可学习的文本上下文作为baseline，其中仅包括语言域提示。文本编码器的输入变为：

其中是可学习的文本上下文，而是第k类名称的嵌入。

Vision-to-language prompting

包括视觉上下文的描述可以使文本更加准确。例如，“a photo of a cat in the grass.”比“a photo of a cat.”更准确。因此，作者研究了如何使用视觉上下文来重新提取文本特征。通常可以使用Transformer decoder中的交叉注意机制来建模视觉和语言之间的相互作用。

作者提出了两种不同的上下文感知提示策略，如上图所示。作者考虑的第一个策略是pre-model prompting 。将特征传递给Transformer解码器以编码视觉上下文

其中是一组可学习的查询，而是提取的视觉上下文。

另一种选择是在文本编码器之后重新定义文本特征，即post-model prompting 。在此变体中，作者使用CoOp生成文本特征，并直接将其用作Transformer解码器的查询

尽管这两个变体的目标是相同的，但作者认为post-model prompting更好 ，主要有两个原因:

1）模型后提示是高效的。由于文本编码器的输入依赖于图像，因此在推理过程中，预模型提示需要额外的文本编码器前向传递。在后模型提示的情况下，可以存储训练后提取的文本特征，从而减少文本编码器在推理过程中带来的开销。

2) 实验结果表明，模型后提示可以比模型前提示获得更好的性能。

Improved DDPM

作者：Alex Nichol*, Prafulla Dhariwal*

关键词：diffusion model, fast sampling

论文：Improved Denoising Diffusion Probabilistic Models

知乎：https://zhuanlan.zhihu.com/p/557971459

摘要

去噪扩散概率模型（DDPM）是一类生成模型，最近已被证明能产生良好的样本。我们表明，通过一些简单的修改，DDPM也可以在保持高样本质量的同时实现具有竞争力的对数似然。此外，我们发现，反向扩散过程的学习方差允许以数量级更少的正向传递进行采样，样本质量差异可以忽略，这对于这些模型的实际部署非常重要。我们还使用精度和重新调用来比较DDPM和GANs覆盖目标分布的程度。最后，我们表明，这些模型的样本质量和似然性随模型容量和训练计算而平滑扩展，使其易于扩展。

贡献

噪声机制更新，使用cosine
引入了方差项的学习

方差学习

faster sampling

DDPM是一步一步的往上采样，这里有一个strided sampling schedule，也就是每次网上采样100步，参数都没变化。

Paper List

(DDPM) Denoising Diffusion Probabilistic Models. NIPS 20. (Diffusion and deep-learning-based 图像生成开山之作)
More Control for Free! Image Synthesis with Semantic Diffusion Guidance. arXiv 21. (对DDIM进行了推广，引入了一般形式的判别器引导)
Denoising Diffusion Implicit Models. ICLR 21. (提出了一种新的sampling的方法，可以通过改变eta来skip一些step，进而达到加速sampling的目的)
Improved denoising diffusion probabilistic models. ICML 21.
Classifier-Free Diffusion Guidance. NIPSW 21. （引入了等价结构替代了分类器引导）
GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models. ICML 22.
Hierarchical Text-Conditional Image Generation with CLIP Latents. NIPS 22 在投. (DALL-E 2)
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. NIPS 22 在投. (Imagen, SOTA)
High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 22. (隐空间LDM)

基于扩散模型的语义分割

论文标题：LABEL-EFFICIENT SEMANTIC SEGMENTATION WITH DIFFUSION MODELS

论文地址：https://arxiv.org/pdf/2112.03126.pdf

论文代码：https://github.com/yandex-research/ddpm-segmentation

摘要

背景介绍：去噪扩散概率模型DDPM最近受到了很多研究关注，因为它们优于其他方法，如GAN，并且目前提供了最先进的生成性能。差分融合模型的优异性能使其在修复、超分辨率和语义编辑等应用中成为一个很有吸引力的工具。
研究方法：作者为了证明扩散模型也可以作为语义分割的工具，特别是在标记数据稀缺的情况下。对于几个预先训练的扩散模型，作者研究了网络中执行逆扩散过程马尔可夫步骤的中间激活。结果表明这些激活有效地从输入图像中捕获语义信息，并且似乎是分割问题的出色像素级表示。基于这些观察结果，作者描述了一种简单的分割方法，即使只提供了少量的训练图像也可以使用。
实验结果：提出的算法在多个数据集上显着优于现有的替代方法。

K-L散度（相对熵）

Kullback-Leibler Divergence，即K-L散度，是一种量化两种概率分布P和Q之间差异的方式，又叫相对熵。在概率学和统计学上，我们经常会使用一种更简单的、近似的分布来替代观察数据或太复杂的分布。K-L散度能帮助我们度量使用一个分布来近似另一个分布时所损失的信息量。

数据的熵

K-L散度源于信息论。信息论主要研究如何量化数据中的信息。最重要的信息度量单位是熵Entropy，一般用H表示。分布的熵的公式如下：

上面对数没有确定底数，可以是2、e或10，等等。如果我们使用以2为底的对数计算H值的话，可以把这个值看作是编码信息所需要的最少二进制位个数bits。上面空间蠕虫的例子中，信息指的是根据观察所得的经验分布给出的蠕虫牙齿数量。计算可以得到原始数据概率分布的熵值为3.12 bits。这个值只是告诉我们编码蠕虫牙齿数量概率的信息需要的二进制位bit的位数。

可是熵值并没有给出压缩数据到最小熵值的方法，即如何编码数据才能达到最优（存储空间最优）。优化信息编码是一个非常有意思的主题，但并不是理解K-L散度所必须的。熵的主要作用是告诉我们最优编码信息方案的理论下界（存储空间），以及度量数据的信息量的一种方式。理解了熵，我们就知道有多少信息蕴含在数据之中，现在我们就可以计算当我们用一个带参数的概率分布来近似替代原始数据分布的时候，到底损失了多少信息。

K-L散度度量信息损失

只需要稍加修改熵H的计算公式就能得到K-L散度的计算公式。设p为观察得到的概率分布，q为另一分布来近似p，则p、q的K-L散度为：

显然，根据上面的公式，K-L散度其实是数据的原始分布p和近似分布q之间的对数差值的期望。如果继续用2为底的对数计算，则K-L散度值表示信息损失的二进制位数。下面公式以期望表达K-L散度：

一般，K-L散度以下面的书写方式更常见：

注：log a - log b = log (a/b)

OK，现在我们知道当用一个分布来近似另一个分布时如何计算信息损失量了

散度并非距离

很自然地，一些同学把K-L散度看作是不同分布之间距离的度量。这是不对的，因为从K-L散度的计算公式就可以看出它不符合对称性（距离度量应该满足对称性）。也就是说，用p近似q和用q近似p，二者所损失的信息并不是一样的。

如果你熟悉神经网络，你肯能已经猜到我们接下来要学习的内容。除去神经网络结构的细节信息不谈，整个神经网络模型其实是在构造一个参数数量巨大的函数（百万级，甚至更多），不妨记为f(x)，通过设定目标函数，可以训练神经网络逼近非常复杂的真实函数g(x)。训练的关键是要设定目标函数，反馈给神经网络当前的表现如何。训练过程就是不断减小目标函数值的过程。