ICCV’23|全场景单目深度绝对距离估计

作者丨尹炜转自丨极市平台

本文提出了一个统一相机空间（canonical camera space）变换模块，明确解决了尺度模糊性问题，并且可以轻松地嵌入到现有的单目模型中。配备了论文的模块，单目模型可以在800万张图像和数千个相机模型上稳定地训练，从而实现了对室外图像的零样本泛化，其中包含未见过的相机设置。该论文所提方法也是第二届单目深度估计挑战中的冠军方案，在比赛的各个场景上都排第一。

Arxiv: https://arxiv.org/abs/2307.10984

Github: https://github.com/YvanYin/Metric3D

大家好，在这里给大家分享一下我们最近被 ICCV2023 接受的工作《Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image》。如何从单张图像恢复出绝对尺度的深度，并且重建出带有绝对尺度的3D场景是一个长期待解决的问题。当前最先进的单目深度估计具体分为两类：

第一类方法的目标是恢复准确的绝对深度，但是这一类的方法泛化性比较差，只能处理单个相机模型，并且由于不同相机存在尺度模糊性，导致无法执行混合数据训练来提升域泛化性。第二类方法针对性解决深度模型的零样本泛化问题，如LeReS/MiDaS/DPT/HDN等文章的方法，经过大规模混合数据集训练，并约束模型只学习相对深度。因此，该类方法都没法恢复绝对尺度。

在这项工作中，论文表明零样本单目度量深度估计的关键在于大规模数据训练以及解决来自各种相机模型的尺度模糊性。论文提出了一个统一相机空间（canonical camera space）变换模块， 明确解决了尺度模糊性问题，并且可以轻松地嵌入到现有的单目模型中。配备了论文的模块，单目模型可以在800万张图像和数千个相机模型上稳定地训练，从而实现了对室外图像的零样本泛化，其中包含未见过的相机设置。

下图（论文首页图）通过两个下游的应用，即SLAM和物体测量，来展示了针对零样本的泛化性以及尺度恢复的准确性。可以看出测量的结构尺寸和GT非常接近。值得注意的是，mono-slam系统通过引入预测的深度，能够消除scale drift的问题，并且slam系统能够实现metric mapping.

主要贡献：

提出了一种标准空间相机变换（canonical camera space transformation）和对应的逆变换（de-canonical camera space transformation）方法来解决来自不同相机设置的深度尺度模糊性问题。这使得论文方法可以从大规模数据集中学习强大的零样本（zero-shot）单目度量深度模型；
在模型训练过程中，论文还提出了一种随机提议正则化损失函数，有效提高了深度准确性；
论文方法在第二届单目深度估计挑战中获得了冠军，在比赛的各个场景上都排第一。
论文的模型在7个零样本基准测试上达到了最先进的性能。它能够在户外进行高质量的3D度量结构恢复，并且在几个下游任务中受益，如单目SLAM、3D场景重构和测量学。

CVPR2023挑战赛结果：

方法：

1.什么是尺度模糊性？

论文针对混合数据中的尺度模糊性做了详细的讲解。如下图所示：

上图通过一个简单的例子来说明什么是尺度的模糊性。不同相机在不同距离下拍摄的照片示例。仅从图像内容来看，人们可能会认为最后两张照片是由同一个相机在相似的位置拍摄的。但实际上，由于拍摄图片采用了不同焦距的相机，这些照片是在不同的位置拍摄的。因此，相机的内部参数的变化导致了尺度的不确定性。对于从单张图像估计度量是至关重要的，否则问题就是不适定的。

2.什么影响深度的预测？

针对相机的传感器尺寸、像素的大小、还有相机的焦距，论文有如下观察。

2.1 传感器尺寸和像素大小不会影响度量深度估计

如下图所示，当用不同像素大小的相机拍摄同一个物体时候，虽然像元大小不同，物体在图像的分辨率不同，但是距离是一致的。因此，不同的摄像机传感器不会影响度量深度的估计。此外，传感器的尺寸只是影响了图像拍摄的视野，因此也不会影响深度的估计。

2.2 焦距对于深度估计的准确性非常重要

如下图所示，由于焦距不同，不同距离的物体在相机上的成像大小相同，在网络训练的时候，相似的图像，但是标签却不一致，就导致了一对多的标签映射，因此会导致网络混淆，影响训练。

3.方法的pipeline

方法的pipeline如下图所示。

本文提出了2种训练方法。两种方法都可以很容易的嵌入到当前任意的单目深度估计的框架中。整个方法的核心思想就是建立一个标准相机空间��, 然后将所有的训练数据都映射到这个空间，那么，所有的训练数据都可以被看做是同一个相机拍摄的。论文提出了2种方法进行这种变换，一种是通过变换训练图像，另一种是变换变换GT label。详细如下：

方法1：将标签进行转换

深度的模糊性是针对深度的。因此，第一种方法直接通过转换ground truth深度标签来解决这个问题。在训练阶段，通过乘以一个缩放因子来转换深度标签。在推理阶段，预测的深度处于规范化空间，需要进行反规范化转换以恢复度量信息。

方法2：将输入图像转换

第二种方法是将输入图像转换为模拟规范相机成像效果。具体来说，在训练阶段训练图像根据焦距按比例缩放resize，相机光心也进行了调整，然后进行随机裁剪图像用于训练。在推理阶段，反规范化转换将预测深度调整回原始大小而不进行缩放。

4.监督

论文采用了各种约束。包括LeReS论文提出的pair-wise normal regression loss，VirtualNormal论文提出的虚拟法矢的loss，还有Scale-invariant Log loss。除此之外，该论文还提出了一种新的loss，叫随机提议标准化损失（RPNL）。尺度平移不变损失被广泛应用于仿射不变深度估计，但它会压缩细粒度深度差异，特别是在近距离区域。因此，论文从真值深度和预测深度中随机裁剪若干小块，然后采用中位绝对偏差标准化对它们进行处理。这样，可以增强局部对比度。整体loss如下。

�=�PWN+�VNL+�silog +�RPNL

实验

1.零样本泛化测试

以下的几个表格都是做的零样本泛化实验。其中表格1中，在NYU和KITTI上和当前在他们上fitting的SOTA方法做了对比，发现在不引入该数据做训练，模型就能够恢复出精确的尺度。表格3，论文做了更多的这种零样本泛化的对比，比较了6个数据集。

另外，论文与SOTA仿射不变深度估计方法在5个zero-shot基准上的比较。论文的模型明显优于以前的方法

2.下游应用实验

三维重建实验： 论文展示出，直接将预测的连续帧深度重建成点云，并与各类的方法做了对比，包括MVS的方法，放射不变形深度估计的方法，无监督深度估计的方法，videodepth 深度估计的方法等做了对比，发现整体重建精度上会更好。

SLAM实验： 在如下的表格中，论文的度量深度估计方法可以作为单目SLAM系统的强大深度先验。在KITTI数据集上，将论文的度量深度直接输入到最先进的SLAM系统Droid-SLAM中，结果显示论文的深度使得SLAM系统的性能显著提升。

在ETH3D SLAM数据集上，论文的深度同样带来了更好的SLAM性能，并且能够极大的缓解尺度漂移的问题。

从下图可以看出，droid-slam系统在输入预测的深度后，轨迹和GT更加接近，并且没有尺度漂移的问题，见下面第一个例子。

3.In-the-wild 测量实验

论文从Flickr下载了一些图片，通过从metadata中读取相机的像元大小以及焦距（以mm为单位），粗略估算出相机的焦距（以像素为单位），从而预测出metric depth，然后重建出点云。从点云中可以测量出一些结构的大小，发现和GT相差并不那么大。

4.更多的深度图展示：

总结

本文解决了从单目图像重构三维度量场景的问题。为了解决由不同焦距引起的图像外观深度不确定性，论文提出了一种规范化相机空间转换方法。使用论文的方法，可以轻松地合并由10,000个相机拍摄的数百万数据，以训练一个度量深度模型。为了提高鲁棒性，论文收集了超过800万数据进行训练。几个零样本评估展示了论文工作的有效性和鲁棒性。论文进一步展示了在随机收集的互联网图像上进行计量学测量以及在大规模场景上进行密集建图的能力。

Learning Stereo from Single Images

论文：https://github.com/nianticlabs/stereo-from-mono/

[ECCV 2020] Learning stereo from single images

导读：在进行立体匹配的过程中成对且带标签的训练数据是很难去获取的，对此现有的很多方法都是在虚拟的合成数据（如SceneFlow、FlayingThings3D等数据集）上训练完成的，自然其在实际多样化的场景中泛化迁移能力是很弱的。对此文章通过使用MiDas对任意的输入图像进行深度估计，并将深度图转换到视差图，之后按照视差图对源图像进行变换得到另外一个视图，其中会对生成的另外一个视图进行修复和补偿优化从而构建一个双目立体图像对。自此，双目立体图像对构造完成，接下来便是使用一个双目立体匹配网络在这些数据上进行训练。正是由于训练数据的多样化文章提出的算法相比合成数据上训练得到的匹配网络更加鲁棒。

文章的算法在做立体匹配的时候并没有采用合成数据，而是在多样化真实数据基础上通过策略得到合成的图像对，从而极大增加了网络的泛化能力，下面图中展示的就是两种训练策略的对比：

文章中使用到的风格多样化数据集称之为MfS（Mono for Stereo’ dataset），其中包含的数据集有：COCO 2017 ，Mapillary Vistas，ADE20K ，Depth in the Wild，DIODE 。经过整理之后其中包含的数据总量为：597727。

方法设计

文章算法的整体pipeline见下图所示：

数据生成优化策略

depth sharpening：文章使用的是一个单目深度估计网络进行深度预标注，自然其中的几何约束性比较弱，因而按照深度估计结果对原图向进行warp之后存在一些孤立的像素点（flying points），也就是下图中中间部分的效果：

对此，文章为了解决该问题首先通过Sobel梯度算子去检测那些梯度响应大于3的区域（也就是文章说的flying points），之后将这些点的深度之设置为最近非flying points区域的值。从而实现depth sharpening，在图3中也比较了有无该策略对于做后效果的影响。这部分实现的代码可以参考：

datasets/warp_dataset.py#L112

if not self.disable_sharpening:
# now find disparity gradients and set to nearest – stop flying pixels
edges = sobel(disparity) > 3 # 选择梯度大的区域，大概率为flying points
disparity[edges] = 0 # 将其设置为0
mask = disparity > 0 # 取出需要插值的位置

try:  # 对视差图不为0的区域进行插值，重点关注的就是flying points
    disparity = griddata(np.stack([self.ys[mask].ravel(), self.xs[mask].ravel()], 1),
                         disparity[mask].ravel(), np.stack([self.ys.ravel(),
                                                            self.xs.ravel()], 1),
                         method='nearest').reshape(self.feed_height, self.process_width)
except (ValueError, IndexError) as e:
    pass  # just return disparity

occlusion和collision区域处理:

对于这一部分的代码可以参考下面的实现过程：

# datasets/warp_dataset.py#L227
def project_image(self, image, disp_map, background_image):

    image = np.array(image)
    background_image = np.array(background_image)

    # set up for projection
    warped_image = np.zeros_like(image).astype(float)
    warped_image = np.stack([warped_image] * 2, 0)
    pix_locations = self.xs - disp_map  # 根据视差计算新的坐标

    # find where occlusions are, and remove from disparity map
    mask = self.get_occlusion_mask(pix_locations)  # 根据可见性准则获取occlusion mask（对应部分为0）
    masked_pix_locations = pix_locations * mask - self.process_width * (1 - mask)

    # do projection - linear interpolate up to 1 pixel away
    weights = np.ones((2, self.feed_height, self.process_width)) * 10000

    for col in range(self.process_width - 1, -1, -1):  # 按照有效像素进行插值得到右视图
        loc = masked_pix_locations[:, col]
        loc_up = np.ceil(loc).astype(int)
        loc_down = np.floor(loc).astype(int)
        weight_up = loc_up - loc
        weight_down = 1 - weight_up

        mask = loc_up >= 0
        mask[mask] = \
            weights[0, np.arange(self.feed_height)[mask], loc_up[mask]] > weight_up[mask]
        weights[0, np.arange(self.feed_height)[mask], loc_up[mask]] = \
            weight_up[mask]
        warped_image[0, np.arange(self.feed_height)[mask], loc_up[mask]] = \
            image[:, col][mask] / 255.

        mask = loc_down >= 0
        mask[mask] = \
            weights[1, np.arange(self.feed_height)[mask], loc_down[mask]] > weight_down[mask]
        weights[1, np.arange(self.feed_height)[mask], loc_down[mask]] = weight_down[mask]
        warped_image[1, np.arange(self.feed_height)[mask], loc_down[mask]] = \
            image[:, col][mask] / 255.

    weights /= weights.sum(0, keepdims=True) + 1e-7  # normalise
    weights = np.expand_dims(weights, -1)
    warped_image = warped_image[0] * weights[1] + warped_image[1] * weights[0]  # 按照插值权重进行融合
    warped_image *= 255.

    # now fill occluded regions with random background
    if not self.disable_background:  # occlusion部分补充
        warped_image[warped_image.max(-1) == 0] = background_image[warped_image.max(-1) == 0]

    warped_image = warped_image.astype(np.uint8)

    return warped_image

实验结果

文章提出的两种数据优化策略，其有效性对比见下表所示：

立体匹配数据生成方法在最后性能上的比较：

文章的方法与基准的对比：

Enforcing Temporal Consistency in Video Depth Estimation–视频深度估计

code：https://github.com/yu-li/TCMonoDepth

在视频估计领域，现有的单眼深度估计方法利用单张图像和差强人意的时间稳定性。这通常意味着需要后处理手段。一些基于深度的视频估计利用重建框架如SFM、序列建模。这些方法在某些方面做了系列假设，因此真实应用时具有一定的局限性。

文章提出一种简单的方法，旨在提高视频深度估计时的时间一致性。没有任何后处理和额外计算成本的情况。
具体：从视频数据中学习了一个先验，这个先验可以直接施加到任何单一图像的单目深度方法。
测试时只是逐帧进行端到端的正向推理，没有任何顺序模块或多帧模块。
此外提出了一个评估指标，定量衡量时间一致性的视频深度预测。它不需要标记深度地面真相，只评估连续帧之间的闪烁。一份主观研究表明，提出的度量标准与用户的视觉感知是一致的，一致性得分较高的结果确实是首选。
这些特点使文章方法成为一种实用的视频深度估计器，可以预测真实场景的密集深度，并支持多种基于视频深度的应用。

作者介绍了一种简单而有效的方法来加强视频深度估计的时间一致性。一个基本假设：如果连续帧中对应的像素漂移很多，闪烁就会出现。通过对这种对应下的预测进行约束和对齐，引导模型在单帧推理下产生具有强一致性的深度估计。同时，定义了一个度量来公平地评估深度估计结果随时间的稳定性，其不需要标记的地面真值进行处理。

一种新的评估指标，测量视频深度估计结果的稳定性。实验表明，该指标是OK的，并与人类视觉判断深度一致。提出了一种有效的方法在训练过程中施加时间限制。然后学习该模型，只有单一帧输入的情况下，产生稳定的深度预测。将该方法扩展到没有深度地面真值的动态视频。展示了可以很容易地使用未标记的视频强制约束和规范模型。主观研究表明，作者方法提供了更好的一致性值和可察觉的较少闪烁的结果。

时间一致性度量：

强制一致的模型应该在整个周期内，得到不包含明显闪烁的深度估计结果。两个连续的深度图的变化通常来自几个方面：

1、场景中物体的移动
2、镜头的变换和旋转
3、同一区域意外频繁的漂移
对于高帧率的视频，帧与帧之间的变化较小，连续两帧之间的深度值在对应像素上应该几乎相同。基于单图像的方法通常对帧间的这种变化没有任何限制，因此会出现闪烁现象，使得在三维坐标中属于同一单位的像素深度值在时间轴上发生频繁而随机的漂移。

为了测量连续深度结果的稳定性，需要在每对连续帧中识别相应的像素，并确定这些像素在整个视频中如何波动。在前人对语义分割一致性评估的基础上，很容易提出用光流搜索对应像素点的思想。

度量指标：

本文模型建立在单张图像深度估计，旨在将学习时间一致性强加到原始深度网络上。

训练阶段：

将两个相邻帧，分别进行相应的深度估计，遵循单张图像深度估计方法，可以测量深度估计与地面真实深度的差，这只是传统的深度预测精度的损失，在训练中被最小化。前向传递、损失计算和后向传递分别适用于两帧。

时间一致性损失-目的：减少两个连续帧之间的深度偏移。由于两个坐标系之间存在运动，需要在测量距离之前对其进行补偿。

关于数据集的标签：

数据集：难以捕获大尺度、多样化的视频深度数据集。作者建议使用从最先进的单眼深度方法中提取的监督。具体来说，使用MiDaS网络作为教师，对来自多个数据集的大量数据进行预训练。MiDaS已被证明具有良好的泛化能力，适合一般深度估计目标。在这种情况下，前面描述的管道仍然适用，但只是将MiDaS网络的输出作为监督信号Dt *。

实验结果：

第一行:来自NYU的输入帧。
第二行:使用BTS生成的深度估计图。
第三行:使用CLSTM生成的深度估计映射。
最后一行:作者方法生成的深度估计图。
为了更好地可视化视频稳定性，将不同帧和深度估计的相同区域放大并拼接在最后一列上。

视频深度估计和数字条纹的视觉比较是从连续的帧中裁剪出来的。
最先进的基于单图像的方法MiDaS[32]可以产生帧级高质量的深度图，
**但随着时间的推移会有明显的闪烁。**
将时间一致性引入深度估计模型后，作者方法可以预测时间上更稳定的深度预测。

总结：

在这项工作中，作者介绍了一种简单而有效的方法来提高单帧深度估计下视频深度估计的时间一致性。同时还提出了一种时间一致性度量，该度量与人类对视频稳定性的感知相一致。实验表明，作者方法可以表现出更稳定的深度估计，并且可以推广到动态真实世界的视频中，而不需要相应的深度地面真值。

Boosting Monocular Depth Estimation-不同尺度的深度图融合的Refine网络

目标：实现具有一致整体结构的高频细节的深度图结果

GitHub地址：

1、https://github.com/compphoto/BoostingMonocularDepth（main repo）

2、https://github.com/compphoto/BoostYourOwnDepth（Merging Operator：基于深度图的Refine过程的实现）a stand-alone implementation of our merging operator

论文：Boosting Monocular Depth Estimation Models to High-Resolution via
Content-Adaptive Multi-Resolution Merging

卷积神经网络显示出从单个图像估计深度的非凡能力。然而，由于网络结构和硬件限制，估计的深度图分辨率较低，仅显示整体场景结构，缺乏精细细节，这限制了其适用性。我们证明了场景结构的一致性与有关输入内容和分辨率的高频细节之间存在权衡。基于这种二元性，我们提出了一个双重估计框架来改进整个图像的深度估计和一个块选择步骤来添加更多的局部细节。我们的方法通过基于图像内容合并不同分辨率的估计，获得具有清晰细节的数百万像素深度估计。 我们方法的一个关键优势是我们可以使用任何现成的基于 CNN 的预训练单眼深度估计模型，而无需进一步微调。

（融合网络）该方法是基于优化一个预训练网络的性能，通过合并不同分辨率和不同补丁的估计来生成一个高分辨率的估计。

首先图像以低分辨率和高分辨率的格式输入网络（MiDas网络+10层U-net的Pix2Pix架构作为生成器）
然后，合并MiDaS 的结果（不同高低分辨率估计融合），获得具有一致结构和良好边界定位的基础估计（b）。【高分辨率：细节，低分辨率：结构一致性】
接着，确定图像中的不同补丁，如图（c）显示了选定补丁的子集及其深度估计。
最后，将补丁估计合并到来自(b)的基本估计上，以获得最终的高分辨率结果（d）。

解决的问题：如何实现在高分辨和高细节度折中的单张图像深度估计

单张图像深度估计的目的是从单张图像中提取场景的结构。与深度相机或者多视角数据所提取的深度信息不同，单张图像深度估计主要依赖于高层单眼深度线索。基于深度学习的方法已然成为单张图像深度估计的标准解决方案。但是对于高分辨深度估计，使其具有好的边界准确性和一致的场景结构，这仍然存在难题。虽然有基于全卷积层结构的方法可以控制任意输入尺寸，但现实中GPU内存、高分辨率数据缺失、CNN感受野尺寸，这些都限制了对应方法的发展。

因此，本文提出采用预训练的单张图像深度估计模型，实现具有高边界准确性的高分辨率结果。

论文的贡献：

提出一种双重深度估计模型，提高单目图像深度估计的性能；一种基于块选择的方法能加入局部信息到最后的估计结果。
所提出的方法可以改进最新的单目图像深度估计方法，在提高分辨率与细节的同时，几乎不额外引入计算量。

想法：

我们的主要见解来自观察到单目深度估计网络的输出特性随输入图像的分辨率而变化。 在接近训练分辨率的低分辨率下，估计具有一致的结构，但缺乏高频细节。当以更高分辨率将相同的图像馈送到网络时，可以更好地捕获高频细节，同时估计的结构一致性逐渐降低。（因此：高低分辨率深度图各有优势）

我们的第二个观察是关于输出特征与输入中高级深度线索的数量和分布之间的关系。网络感受野尺寸主要依赖于网络结构以及训练分辨率。由于单目深度估计依赖于上下文线索，当图像中的这些线索比感受野更远时，网络无法在未接收到足够信息的像素周围生成连贯的深度估计。（选取Patch进行进一步深度图refine）

初步方法：

我们的目标是对要合并的单个图像生成多个深度估计，以实现具有一致整体结构的高频细节的结果。这需要：

(i) 检索图像中上下文线索的分布，我们将使用它来确定网络的输入，以及 (ii) 合并操作以将高频细节从一个估计转移到另一个具有结构一致性的估计。
1） 估计的上下文线索。我们使用通过对 RGB 梯度进行阈值处理获得的图像的近似边缘图作为代理。
2）合并单目深度估计。包括输入小分辨率到网络所对应的低分辨率图，相同图像的高分辨率深度图。
使用具有10层U-net的Pix2Pix结构作为生成器。我们训练网络将细粒度的细节从高分辨率输入传输到低分辨率输入
如下图，尽管增加的分辨率提供了更清晰的结果，但在 (c) 之外，深度估计在整体结构方面变得不稳定，通过背景中不正确的工作台深度范围和轮胎周围不切实际的深度梯度可见。

我们展示了在不同分辨率下获得的深度估计，（a）在 MiDaS [34] 的训练分辨率384 × 384下，（b）在所选分辨率下，边缘最多间隔 384 个像素，（c）在更高的分辨率下使 20% 的像素没有附近边缘。(d) 我们的合并网络能够将 (c) 中的细粒度细节融合到 (a) 中的一致结构中，以实现两全其美。

双重估计：

我们将二进制膨胀应用于具有不同分辨率的感受野大小内核的边缘图。然后，扩张边缘图停止产生全为一结果的分辨率是每个像素将在前向传递中接收上下文信息的最大分辨率，将其记为 R0 ,分辨率高于R0 的估计将失去结构一致性，但它们在结果中将具有更丰富的高频内容。
因此，我们提出双重估计：为了获得两全其美的结果，我们以两种不同的分辨率将图像馈送到网络，并合并估计以获得具有高频细节的一致结果。如图6所示。

局部提升的块估计

我们提出了一种块选择方法，为图像中的不同区域生成不同分辨率的深度估计，这些区域合并在一起以获得一致的完整结果。
理想情况下，块选择过程应由高级信息指导，以确定用于估计的最佳局部分辨率。但缺乏这样的数据集。因此本文提出一种简单的块选择方法，即做出谨慎的设计决策，以达到可靠的高分辨率深度估计管道，而无需额外的数据集或训练。
1）块选择。通过以基本分辨率平铺图像开始块选择过程，平铺大小等于感受野大小和 1/3 重叠。
2）块估计。采用双重估计方法进行估计。
3）基础分辨率调整。通过在块选择之前将基本深度估计上采样到更高的分辨率来解决这种情况下的这个问题。

实验结果

测试方法：改进两个最新方法MiDaS、 SGR

测试数据：Middleburry 2014 ^[3]、IBMS-1 ^[4].

度量标准: 视差空间中的均方根误差 (RMSE)、1.25的像素百分比、方向错误（ORD、序数关系误差的变化

对比实验

参考

^Rene Ranftl, Katrin Lasinger, David Hafner, Konrad ´ Schindler, and Vladlen Koltun. Towards robust monocular depth estimation: Mixing datasets for zero-shot cross-dataset transfer. IEEE Trans. Pattern Anal. Mach. Intell., 2020.
^^a^b^cKe Xian, Jianming Zhang, Oliver Wang, Long Mai, Zhe Lin, and Zhiguo Cao. Structure-guided ranking loss for single image depth prediction. In Proc. CVPR, 2020
^D. Scharstein, H. Hirschmuller, York Kitajima, Greg Krath- ¨ wohl, Nera Nesic, X. Wang, and P. Westling. High-resolution stereo datasets with subpixel-accurate ground truth. In Proc. GCPR, 2014.
^Tobias Koch, Lukas Liebel, Friedrich Fraundorfer, and Marco Korner. Evaluation of CNN-Based Single-Image ¨ Depth Estimation Methods. In Proc. ECCV Workshops, 2018.

通过同一水平线的两个视图获得深度图

神奇的达尔文进化定律告诉我们，单个眼睛的自然界生物大都灭绝了。自然界的大多物种都是和人一样，需要两只眼睛来做三维空间定位。那为什么需要两只眼睛呢？

因为一只眼睛看到的图像是二维的，二维的信息是无法用来表示三维的空间的，如上图所示，虽然处于同一水平面上的照相机L,R拍摄了同一个物体，两者之间产生的图片是不同的。并且这种不同是不能通过平移生成的图片所消除的。离照相机近的物体偏离的位置比较大，离照相机远的物体偏离的比较少。这种差异性的存在就是三维空间带来的。(这部分请参考双眼可以测距和建立立体环境，双摄像头可以吗？)。同时同一水平线上的两个照相机拍摄到的照片是服从以下物理规律的：

这种思路最先应用于使用单张图片生成新视角问题：DeepStereo 和 Deep3d之中, 在传统的视角生成问题之中，首先会利用两张图（或多张）求取图片之间的视差d，其次通过得到的视差（相当于三维场景）来生成新视角

Geometry-Free View Synthesis:基于transformer的大尺度转换的新视角合成

Geometry-Free View Synthesis: Transformers and no 3D Priors

引入一种基于 transformers 的概率方法，用于从具有大视角变化的单一源图像中进行新视图合成。作者对transformers 的各种显式和隐式 3D 感应偏置进行比较，结果表明，在架构中显式使用 3D 变换对其性能没有帮助。此外，即使没有深度信息作为输入，模型也能学会在其内部表示中推断深度。这两种隐式 transformer 方法在视觉质量和保真度上都比目前的技术状态有显着的改进。

将开源：https://github.com/CompVis/geometry-free-view-synthesis

论文：https://arxiv.org/abs/2104.07652

自回归transformer模型
问题：大角度变换，CNNs需要几何模型。
解决：不需要任何手工设计的三维偏差：(i)一种隐式学习源视图和目标视图之间的远程三维对应关系的全局注意机制来实现。 (ii)捕捉从单个图像预测新视图所固有的歧义所必需的概率公式，从而克服了以前局限于相对较小的视角变化的方法的局限性。(iii)发现以显式深度图的形式提供它们几何信息的好处相对较小，并研究了从transformer的层中恢复显式深度表示的能力，它已经学会了隐式地表示几何变换，而无需任何深度监督，甚至可以学习以无监督的方式预测深度。

相关工作：本文从GPT-2架构构建自适应transformer，即，多块多头自注意，层规范和位置向MLP。自回归两阶段方法：是基于在神经离散表示学习(VQVAE)中的工作，它旨在通过向量量化或离散分配的软松弛来学习一个离散的压缩表示。这种训练范式提供了一个合适的空间来训练潜在表示上的自回归似然模型，并已被用于训练生成模型来训练分层，类条件图像合成、文本控制图像合成和音乐生成。最近，证明了VQVAE的对抗性训练在保持高保真度重建的同时提高了压缩性能，随后，我们能够在学习的潜在空间上有效地训练自回归transformer模型，(产生一个所谓的VQGAN)。我们直接在这项工作的基础上，使用VQGANs来表示源视图和目标视图，并在需要时表示深度图。
方法：由于不确定性，我们遵循一种概率方法，并从以下分布中采样新视角。

潜在空间中的概率视图合成:
为了学习上式中分布，需要捕获源视图和目标视图之间的远程交互的模型，以隐式地表示几何变换。由于基于相似的模型已经被证明直接在像素空间中建模图像时，在像素的短程交互上花费了太多的容量，我们遵循VQGAN并采用了两个阶段训练。第一阶段执行反向（对抗性）引导的离散表示学习(VQGAN)，获得一个抽象的潜在空间，已被证明非常适合有效地训练生成式transformer。
建模条件图像模型：
VQGAN包括一个编码器E,解码器G和一个离散表征zi（dz）的codebook Z。训练后的VQGAN允许编码任意x（HxWx3）到离散隐空间E(x)(h x w x dz)。以栅格扫描的顺序展开，这个潜在的表示形式对应于一个序列s(h x w x dz)，可以等价地表示为一个整数序列，索引已学习的码本。按照通常的名称，我们将序列元素称为“tokens”。一个嵌入函数g=g(s) (hw x de)将每个tokens映射到transformer的嵌入空间中，并添加了可学习的位置编码。类似地，为了编码输入视图xsrc和照相机转换T，两者都由一个函数f映射到嵌入空间中：

其中，n表示条件处理序列的长度。通过使用不同的函数不同的归纳偏差被纳入架构。然后，transformer T处理所连接的序列[f(xsrc,T),g(sdst)]去学习以xsrc和T为条件的合理的新观点的分布。

编码Inductive Biases：比较几何变换的方法被显式地构建到条件函数f中，和没有使用这种转换的方法。
几何图像扭曲:这一部分说明显式几何变换怎么运用。我们假设有一个针孔照相机模型，这样三维点到齐次像素坐标的投影通过相机固有矩阵K确定。源坐标和目标坐标之间的转换是由旋转R和平移t组成的刚性运动给出的。这些参数一起指定了对要生成的新视图的所需控制，如T=(K,R,T)。

此关系定义了一个从源到目标的前向流场作为深度和相机参数的函数。然后，流场可以通过扭曲操作S将源图像xsrc扭曲到目标视图中。由于从流中获得的目标像素不一定是整数值，因此我们遵循，并通过跨越四个最近的目标像素的双线性溅射特征来实现S。当多个源像素映射到相同的目标像素时，我们使用它们的相对深度给予离相机更近的点权重——这是z缓冲的软变体。
在最简单的情况下，我们现在可以描述显式方法和隐式方法在接收关于源图像和期望的目标视图的信息的方式之间的区别。此处，显式方法接收使用相机参数扭曲的源信息，而隐式方法接收原始源图像和相机参数本身，如：

显式几何变换：
在下面，我们用transformer的条件函数f来描述所有被考虑的变体。此外，e还表示一个可学习的嵌入映射离散的VQGAN代码E(x)到转换器的嵌入空间。相似地，e pos(n x de)指一个可学习的位置编码。流场F总是从xsrc计算，以提高可读性，我们从扭曲操作的参数中忽略它，S(.)=S(Fsrc->dst(K,R,t,d)).
（1）我们的第一个显式变体，expl.-img，会扭曲源图像，并以与目标图像相同的方式对其进行编码：

（2）受之前的作品的启发，我们包含了一个expl.-feat变体，它首先编码原始源图像，然后在这些特征之上应用warp。我们再次使用了VQGAN编码器E，以获得：

（3）解释上式中扭曲的特征保持固定状态。

隐式几何变换：接下来，我们描述我们用来分析的隐式变量，transformer能否同样好地处理所有位置，是否需要在模型中内置一个显式的几何转换。我们使用与显式变体相同的符号。
（4）第一个变体impl.-catdepth为transformer提供了显式变体中使用的所有相同组件：相机参数K、R、t、估计深度d和源图像xsrc。相机参数被拉平并连接到T^，通过Wcam（de x 1）映射到嵌入空间。深度和源图像被VQGAN编码器Ed和E编码来获得

与其他变体相比，这个序列大约长32倍，这是计算成本的两倍。
（5）因此，我们还包括了一个impl.-depth变体，它连接了深度和源图像的离散代码，并用一个矩阵W(de x 2dz)映射它们到嵌入空间以避免序列长度增加：

（6）隐式方法提供了一个有趣的可能性：因为它们不需要明确地估计该深度来执行扭曲操作S，所以它们在没有这样的深度估计的情况下具有解决该任务的潜力。因此，输入深度仅使用相机参数和源图像-根据我们的任务描述的最低限度。Impl.nodepth：

（7）最后，我们分析了显式方法和隐式方法是否提供了互补的优势。因此，我们添加了一个混合变体，其条件函数是方法（3）中expl.-emb和方法（5）中impl.-depth的f的结合。
深度读数输出：为了研究学习不同视图之间几何关系的隐式模型的能力，我们建议从一个训练过的模型中提取一个深度的显式估计。为此，我们使用线性探测，通常用于研究无监督方法的特征质量。更具体地说，我们假设一个由L层和impl.nodepth类型组成的transformer模型，它仅基于源框架和变换参数。接下来，我们指定一个特定的层0≤l≤L(其中l=0表示输入)，并提取它的潜在表示el，对应于所提供的源框架xsrc的位置。然后，我们训练一个逐位置线性分类器W来预测深度编码器Ed的离散的、潜在的表示，通过一个来自el的交叉熵目标。请注意，transformer和VQGAN的权重均保持不变。
隐式，显式transformer比较：

数据集： RealEstate and ACID.
其他实验：比较密度估算的质量，实现预测的可视化熵，测量图像质量和保真度，与以前的方法进行比较，对几何图形的探测

【深度估计 Transformer】Vision Transformers for Dense Prediction

作者单位：Intel Labs
https://arxiv.org/abs/2103.13413
https://github.com/isl-org/DPT

Hugging Face

密集预测视觉Transformer(DPT)，其在单目深度估计、语义分割等任务上表现SOTA！

我们介绍了密集视觉Transformer，该架构利用视觉Transformer代替卷积网络作为密集预测任务的骨干。我们将视觉Transformer各个阶段的token组装成各种分辨率的图像表示形式，并使用卷积解码器将它们逐步组合为全分辨率预测。

Transformer主干以恒定且相对较高的分辨率处理表示，并且在每个阶段都具有全局感受野。与全卷积网络相比，这些特性使密集视觉Transformer可以提供更细粒度和更全局一致的预测。

实验表明，这种架构在密集的预测任务上产生了实质性的改进，特别是当有大量的训练数据可用时。对于单眼深度估计，与最先进的完全卷积网络（FCN，fully-convolutional networks.）相比，其相对性能提高了高达28%。应用于语义分割时，Dense vision transformer在ADE20K上是49.02%的mIoU。同时进一步表明，当处于新技术设置，该架构可以在较小的数据集上进行微调，如NYUv2、KITTI和Pascal Context。

Introduction

密集预测架构主要基于卷积网络，其设计通常遵循一种从逻辑上将网络分为编码器和解码器的模式。编码器通常基于一个图像分类网络（主干），在像ImageNet这样的大型语料库上进行预训练。解码器聚合来自编码器的特征，并将其转换为最终的密集预测。密集预测的体系结构研究往往集中在解码器及其聚合策略上。主干架构对整个模型有很大的影响，因为编码器中丢失的任何信息都不可能在解码器中恢复。

卷积主干逐步对输入图像进行向下采样，以提取多个尺度上的特征。下采样使接受域的逐渐增加，将低级特征分组为抽象的高级特征，同时确保网络的内存和计算需求保持易于处理。然而，下采样有明显的缺点，这在密集的预测任务中特别突出：特征分辨率和粒度在模型的更深层次的阶段丢失，因此很难在解码器中恢复。虽然特征分辨率和粒度可能对某些任务并不重要，如图像分类，但它们对于密集预测至关重要，在理想情况下，体系结构应该能够在或接近输入图像的分辨率时分辨特征。

现提出的减轻特征粒度损失的各种技术。这些包括训练在更高的输入分辨率（如果计算预算允许），扩大卷积，迅速增加接受域没有下采样，适当放置从编码器的多个阶段跳过连接到解码器，或者最近的通过在整个网络并行连接多分辨率表示。虽然这些技术可以显着提高预测质量，但网络仍然受到其基本构建块—卷积的瓶颈。卷积和非线性一起构成了图像分析网络的基本计算单元。根据定义，卷积是具有有限接受域的线性算子。有限的接受域和单个卷积的有限表达性需要顺序堆叠成非常深的结构，以获得非常广泛的背景和足够高的表征能力。 然而，这需要产生许多需要大量的间接表示。降采样中间表示是必要的，以保持内存消耗在现有计算机架构中可行的水平。

在本工作中，介绍了密集的预测变压器(DPT)。DPT是一种密集的预测体系结构，它基于编码器-解码器的设计，利用transformer作为编码器的基本计算构建块。具体来说，使用最近提出的Vision Transformer(ViT)作为主干架构，将ViT提供的bag-of-words表示重新组装为不同分辨率的类图像特征表示，并使用卷积解码器逐步将特征表示组合到最终的密集预测中。与完全卷积网络不同，ViT主干在计算初始图像嵌入后放弃显式下采样操作，并在所有处理阶段保持恒定维度的表示。此外，在每个阶段都有一个全局性的接受域，实验表明，这些特性对于密集的预测任务特别有利，因为它们会导致细粒度和全局相一致的预测。

单眼深度估计和语义分割的实验。对于通用单眼深度估计的任务，其中有大规模的训练数据可用，与该任务中性能最好的全卷积网络相比，DPT提供的性能提高了超过28%。该架构还可以微调到小的单眼深度预测数据集，如NYUv2和KITTI，当它也设置了新的技术状态。实验利用语义分割实验进一步提供了DPT的强性能的证据。对于这个任务，DPT在具有挑战性的ADE20K和Pascal Context数据集上设置了一个新的最新技术状态。定性结果表明，与卷积网络相比，这些改进可以归因于更细粒度和更全局一致的预测。

Transformer encoder

在一个高水平上，Vision Transformer在图像的bag-of-words表示上进行操作。单独嵌入到特征空间中的图像补丁，或者从图像中提取的深度特征，扮演“words”的角色。在本工作的其余部分中，将嵌入的“word”称为tokens 。Transformer使用multi-headed self-attention(MHSA)的顺序块对tokens进行转换，该块将tokens相互联系起来来转换表示。

image–extracted–image patch–word–token（变化）：特征空间中的图像patch

image patch：图像补丁是较大形式的像素容器例如，假设有一张 100 像素 x 100 像素的图像。如果您将这些图像划分为 10×10 块，那么将拥有一个包含 100 个块的图像（即每个块为 100 像素）。如果开发了一种算法，可以在 10px x 10px 上运行，那么 10px x 10px 就是补丁大小。例如，CNN 的池化层采用更大的块并将它们变成一个像素，可以将其视为信号处理中的窗口。在图像处理补丁和窗口大多数情况下是可以互换的，但是当您的算法主要关注一堆像素共享相似属性的事实时，通常会在上下文中使用补丁。例如，补丁用于稀疏表示或图像压缩的上下文，而窗口用于边缘检测或图像增强。

Multi-headed self-attention(MHSA) Net：一种新的人物再识别模型，称为多头自我注意网络(MHSA-Net)，用于从人物图像中剔除不重要的信息并捕捉关键的局部信息。MHSA-Net包含两个主要的新颖组件：多头自我注意分支(MHSAB)和注意力竞争机制(ACM)。MHSAM自适应地捕获关键的局域人信息，然后产生有效的图像多样性嵌入，用于人的匹配。ACM进一步帮助过滤剔除注意力、噪音和非关键信息。通过广泛的消融研究，验证了结构化的自我注意分支和注意竞争机制都有助于MHSA-Net的性能提高。MHSA-Net在有遮挡的图像上作用深远。

对于应用程序来说，重要的是，transformer在所有计算过程中保持token数量。由于token与image patches有一对一的对应关系，这意味着ViT编码器在所有transformer阶段保持初始嵌入的空间分辨率。此外，MHSA是一个全局操作，因为每个token都可以关注并影响其他token。因此，transformer在初始嵌入后的每个阶段都有一个全局的接受域。这与卷积网络形成了鲜明的对比，卷积网络随着特征通过连续的卷积和下采样层时，逐渐增加了它们的接受域。

具体而言，ViT通过处理所有不重叠的正方形斑块从图像中提取嵌入的补丁从图像中获得 $p^{2}$ 像素的大小。这些补丁被扁平(flattened into)到向量中，并使用线性投影单独嵌入。另一种，更具样本效率的ViT变体通过对图像应用ResNet50来提取嵌入，并使用生成的特征映射的像素特征作为标记。由于transformer是set-to-set functions，因此它们本质上并不保留单个token的空间位置信息。因此，图像嵌入与可学习的位置嵌入连接，以将这些信息添加到表示中。在NLP中的工作之后，ViT还添加了一个与输入图像不相关的special token（readout token），并作为最终用于分类的全局图像表示。在此将这个特殊的标记称为读出标记。

Convolutional decoder

解码器将tokens组合成不同分辨率的类图像特征表示。特征表示逐渐融合到最终的密集预测中。文章提出了一个简单的三阶段重组操作，以从transformer encoder任意层输出的token中恢复类图像的表示形式

不管具体的transformer主干如何，都在四个不同的阶段和四个不同的分辨率上重新组装特征。以更低分辨率组装transformer深层的特征，而早期层的特征以更高分辨率组装。当使用ViT-Large时，从 l ={5，12，18，24}层重新组装tokens，而使用ViT-Base，使用 l ={3，6，9，12}层。当使用ViT-Hybrid时，使用了来自嵌入网络的第一和第二个ResNet块和阶段 l ={9,12}的特性。默认体系结构使用投影作为读出操作，并使用 $\hat{D}$ =256维度生成特性映射，将这些架构分别称为DPT-Base、DPT-Large和DPTHybrid。

最后，使用基于RefineNet的特征融合块结合从连续阶段提取的特征图，并在每个融合阶段对表示向上采样两次。最终的表示大小的分辨率是输入图像的一半，在此，附加一个特定于任务的输出头来产生最终的预测。完整架构的示意图概述如上图所示。

鲁棒性的单目深度估计: Mixing Datasets for Zero-shot Cross-dataset Transfer

Towards Robust Monocular Depth Estimation: Mixing Datasets for Zero-shot Cross-dataset Transfer, TPAMI 2022

MiDaS v3.1：https://github.com/isl-org/MiDaS（最近也在更新）

Hugging Face

这篇文章提出了一种监督的深度估计方法，其中使用一些很有价值的策略使得最后深度估计的结果具有较大提升。具体来讲文章的策略可以归纳为：
1）数据集 : 现有的深度数据集的场景不够丰富, 不能训练出一个在任意场景下都健壮的模型. 因此作者选择结合这些数据集。使用多个深度数据集（各自拥有不同的scale和shift属性）加入进行训练，增大数据量与实现场景的互补

但是组合这些数据集有三个挑战:

深度表达不同, 有的是0表示最近, 有的是0表示最远
部分数据集没有提供缩放信息
部分数据集提供了单张图像的相对深度(disparity), 但是跨数据集的相对深度无法直接转换

2）提出了一种scale-shift invariable的loss（具有深度和偏移不变性的损失函数）用于去监督深度的回归过程，从而使得可以更加有效使用现有数据；
3）采用从3D电影中进行采样的方式扩充数据集，从而进一步增加数据量；
4）使用带有原则属性的多目标训练方法，从而得到一种更加行之有效的优化方法；
结合上述的优化策略与方法，文章的最后得到的模型具有较强的泛化能力，从而摆脱了之前一些公开数据集场景依赖严重的问题。

优势：

问题的转化
为了解决数据本身存在深度不一致的问题, 转化成设计一个对深度不敏感的loss
预训练模型
可以直接得到任意单张图像的深度信息, 用于下游任务的训练,

效果：

Single-View View Synthesis :图片-网络-深度图-网络-新视点

Single-View View Synthesis in the Wild with Learned Adaptive
Multiplane Images SIGGRAPH 2022.

现有方法已经显示出利用单眼深度估计和具有分层深度表示的颜色修复的有希望的结果。然而，这些方法处理复杂3D 几何场景的能力仍然有限。我们提出了一种基于多平面的新方法图像 (MPI) 表示。适应野外场景布局多样化，解决高维MPI内容生成难的问题，我们设计了一个网络结构，由两部分组成，一个用于平面深度调整，另一个用于深度感知颜色预测。前者使用 RGBD 上下文特征和注意机制调整初始平面位置。给定调整后的深度值，后者通过特征屏蔽策略实现适当的平面间交互，分别预测每个平面的颜色和密度。

为了训练我们的方法，我们通过简单而有效的 warp-back 策略仅使用不受约束的单视图图像集合来构建大规模立体训练数据。在合成数据集和真实数据集上进行的实验表明，我们训练的模型效果非常好，并取得了最先进的结果

Code：https://github.com/yxuhan/AdaMPI

网络结构：

训练过程:

结果：

MPViT : Multi-Path Vision Transformer for Dense Prediction

https://arxiv.org/abs/2112.11010（CVPR2022）
https://github.com/youngwanLEE/MPViT

Introduction

在这项工作中，作者以不同于现有Transformer的视角，探索多尺度path embedding与multi-path结构，提出了Multi-path Vision Transformer(MPViT)。
通过使用 overlapping convolutional patch embedding，MPViT同时嵌入相同大小的patch特征。然后，将不同尺度的Token通过多条路径独立地输入Transformer encoders，并对生成的特征进行聚合，从而在同一特征级别上实现精细和粗糙的特征表示。
在特征聚合步骤中，引入了一个global-to-local feature interaction(GLI)过程，该过程将卷积局部特征与Transformer的全局特征连接起来，同时利用了卷积的局部连通性和Transformer的全局上下文。

Vision Transformers for dense predictions.

密集的计算机视觉任务，如目标检测和分割，需要有效的多尺度特征表示，以检测或分类不同大小的物体或区域。Vision Transformer(ViT)构建了一个简单的多阶段结构（即精细到粗糙），用于使用单尺度patch的多尺度表示。然而ViT的变体专注于降低自注意的二次复杂度，较少关注构建有效的多尺度表示。
CoaT通过使用一种co-scale机制，同时表示精细和粗糙的特征，允许并行地跨层注意，从而提高了检测性能。然而，co-scale机制需要大量的计算和内存开销，因为它为基础模型增加了额外的跨层关注(例如，CoaT-Lite)。因此，对于ViT体系结构的多尺度特征表示仍有改进的空间。

Comparison to Concurrent work.

CrossViT利用了不同的patch大小和单级结构中的双路径，如ViT和XCiT。然而，CrossViT的分支之间的相互作用只通过[CLS]token发生，而MPViT允许所有不同规模的patch相互作用。此外，与CrossViT（仅限分类）不同的是，MPViT更普遍地探索更大的路径维度（例如，超过两个维度），并采用多阶段结构进行密集预测。

Method

Conv-stem

输入图像大小为：H×W×3，两层卷积：采用两个3×3的卷积，通道分别为C2/2，C2，stride为2，生成特征的大小为H/4×W/4×C2，其中C2为stage 2的通道大小。

说明：每个卷积之后都是Batch Normalization 和一个Hardswish激活函数。
In LeViT , a convolutional stem block shows better low-level representation (i.e., without losing salient information) than non-overlapping patch embedding.

从stage 2到stage 5，作者在每个阶段对所提出的Multi-scale Patch Embedding(MS-PatchEmbed)和Multi-path Transformer(MP-Transformer)块进行堆叠。

Multi-Scale Patch Embedding

通过改变stride和padding来调整token的序列长度。也就是说，可以输出具有不同patch大小的相同大小（即分辨率）的特征。因此，作者并行地形成了几个具有不同卷积核大小的卷积patch embedding层。例如，如图1所示，可以生成相同序列长度的不同大小的vision token，patch大小分别为3×3,5×5,7×7。

由于具有相同通道和滤波器大小的连续卷积操作扩大了接受域，并且需要更少的参数，在实践中选择了连续的3×3卷积层。为了减少参数量，在实践中选择了两个连续的3×3卷积层代替5×5卷积。对于triple-path结构，使用三个连续的3×3卷积，通道大小为C’，padding为1，步幅为s，其中s在降低空间分辨率时为2，否则为1。

说明：为了减少模型参数和计算开销，采用3×3深度可分离卷积，包括3×3深度卷积和1×1点卷积。
每个卷积之后都是Batch Normalization 和一个Hardswish激活函数。

接着，不同大小的token embedding features 分别输入到transformer encoder中。

Multi-path Transformer

原因：Transformer中的self-attention可以捕获长期依赖关系（即全局上下文），但它很可能会忽略每个patch中的结构性信息和局部关系。相反，cnn可以利用平移不变性中的局部连通性，使得CNN在对视觉对象进行分类时，对纹理有更强的依赖性，而不是形状。

因此，MPViT以一种互补的方式将CNN与Transformer结合起来。

为了表示局部特征

采用了一个 depthwise residual bottleneck block，包括1×1卷积、3×3深度卷积和1×1卷积和残差连接。
为了减轻多路径结构的计算负担，使用了CoaT中提出的有效的因素分解自注意：

Global-to-Local Feature Interaction

将局部特征和全局特征聚合起来：

为了保持可比性的参数和FLOPs，增加路径的数量需要减少通道C或层数L（即，transformer encoder的数量）。作者通过减少C而不是L，从单路径(即CoaT-Lite baseline)扩展到triple-path。在消融研究中，验证了减少C比减少L获得更好的性能（见表5）。由于stage2的特征分辨率较高，导致计算成本较高，作者在stage2中将triple-path模型的路径数设置为2。从stage3开始，三路径模型有3条路径。

作者还发现，虽然 triple-path和双路径在ImageNet分类中产生相似的精度，但 triple-path模型在密集预测任务中表现出更好的性能。因此，建立了基于 triple-path结构的MPViT模型。MPViT的详细情况见表1。