人工智能 – 第 22 页

MVS学习–《A Comparison and Evaluation of Multi-View Stereo Reconstruction Algorithms》

1. 前言

Middlebury是计算机视觉和三维中间领域著名的高校，特别是提供了著名的立体匹配benchmark数据库，并不断提供新数据的更新。在MVS领域，也同样提供了经典的benchmark数据库，包含两个物体-Temple和Dino，其中Temple有312张相片，Dino有363张相片，如下图所示。并且每个物体还提供了由激光Lidar测量得到的地面真值（Groud Truth）数据，因此可以用来准确的衡量不同MVS算法的准确性（重建的三维模型与真值的差异）和完整性（有多少真值包含在重建的三维模型中）。

在建立该数据库的过程中，Middlebury的研究团队分类总结了当时（2006年）的state-of-art的算法，提出了算法有效性评价标准。基于该标准，并使用该数据库验证这些算法的有效性，最终形成该文章¹。这篇文章是后来几乎每一篇研究MVS算法的文章的必引参考文献，其中对于算法的分类介绍和有效性验证规则十分经典，下面分别进行总结。

2. MVS算法分类

MVS是指Multiview Stereo，具体来说是通过多幅已知拍摄方位信息（外方位元素）的图像来估计目标三维信息的算法，数据基于图像的三维重建中一大类非常重要和实用的算法。文章中提到类似的方法还有双目或者三目立体匹配方法，这一类方法能够获得单一的视差图，但是受限于照片数量和拍摄角度，无法覆盖物体的全部表面。另一类方法是多基线立体重建方法，可以构建稀疏特征点集。

一般来说，MVS可以按照如下6个方面的标准进行分类：

场景表达方式（scene representation);
图像一致性计算方法（photo consistency measure）；
可见性模型（visible model）；
在重建时优先考虑的形状约束（shape prior）；
重建算法（reconstruction algorithm）；
初始化条件（initialization requirements）。

下面分别对每个方面进行简单的描述。

2.1 场景表达（Scene Representation）

场景表达是指重建得到的三维场景使用什么样的数学模型进行表达，一般来说有如下4种方式：

体素（Voxel）
层次级（level set）：记录每个点到某个最近平面的距离
多边形实体（polygon mesh）：这是应该是我们最熟悉的表达方式，也是人工三维建模最常见的数据表达方式
深度图（depth map）：一般基于像方立体匹配算法算法生成的结果就是深度图，每个像素的灰度值代表该像素距离当前图像平面的距离。

2.2 图像一致性计算方法（Photo Consistency Measure）

这部分和双目立体匹配中用到的图像一致性计算方法类似，但是考虑到MVS本身的特殊性，一般来说，MVS中图像一致性计算根据搜索内容的不同分为以下两种方法

1. 基于物方的图像一致性计算方法

通常使用体素表达方法，搜索空间中的每个体素在对应两幅图像中的投影位置的图像一致性，如果该一致性计算值小于某个阈值，则该体素可以认为是代表了真实物体。

2. 基于像方的图像一致性计算方法

根据极线约束，对于一幅图像的某个点，搜索其对应极线上最相似的匹配点（一致性最高），这种方法通常在双目立体视觉中使用。

需要注意的是这两种方法都是基于物体表面为Lambartian的假设，但是也有进一步的研究利用BRDF进行计算，或者考虑物体的阴影，消除物体阴影对于一致性计算的影响。

2.3 可见性模型（Visible Model）

可见性模型是在计算图像一致性时，决定究竟哪些图像和参考图像有共视区域，可以进行图像一致性计算的方法。一般来说，有如下三种模型

几何模型。
准几何模型。
基于粗差（outlier）的模型，通常是将遮挡视为粗差，因为对于一个点来说，在两视中被看到的可能性大于被遮挡的可能性。

2.4 在重建时优先考虑的形状约束（Shape Prior）

由于常见的弱纹理（大范围区域颜色相同或者相近）或者无纹理等原因，导致在匹配是在这些区域无法得到良好的匹配结果，因此需要引入形状约束来近似约束这些区域的可能形状，可以使得最终得到的场景具有某种特殊的性质。这种方法在双目立体匹配的研究中是极为常见的方法，但是在MVS中，由于多幅图像提供更强的约束，较少使用这种方法。常见的形状约束方法如下：

基于场景重建的技术通常采用“最少平面数”约束，因为过多的多边形面片会使得场景过于破碎。
基于体素和Space carve的重建方法通常增加“最多平面数”约束，使得表面具有更加丰富的细节。
在基于像方的匹配方法中，通常添加局部平滑约束：例如双目立体匹配中常见的piece-wise smothness，假设场景中的弱纹理区域是与摄影平面平行的小平面。

2.5 重建算法（Reconstruction Algorithm）

体素着色算法：从一个volumn中提取一个平面出来
通过递推的方法展开一个平面：在过程中最小化代价函数（based on voxels， level-set， mesh)
基于像方的匹配，生成深度图，并对不同图像间的深度图进行融合
提取特征点，拟合一个面来重建特征

2.6 初始化条件（Initialization Requirements）

需要图像集（毕竟是基于图像的三维重建，需要尽可能多的多角度拍摄的同一场景的图像）
几乎所有的算法都要求或者假设待重建三维目标的空间范围或者scene geometry
基于像方的方法要求最大/最小视差（这一点要求和2类似）

3. MVS算法的评价

文章中提出，对于MVS算法应该从一下两个方面进行评价

1. 准确性

准确性是指重建结果与真值间的差距，一般方法是，对于重建结果中的一个三维空间点，寻找其对应真值中的点，计算其距离，最后统计所有点距离真值的距离。根据统计结果来评价重建结果的准确性。

2. 完整性

完整性是指有多少真值被包含在重建结果中。一般方法与准确性计算类似，但是是计算真值中的点到重建结果中最近点的距离，统计所有真值点的计算结果来评价重建的完整性。需要注意的是，如果真值中的点距离重建结果中最近点的距离大于某个阈值，则认为是没有找打匹配点，也就是该真值点没有被覆盖。

SFM的重建成果是稀疏三维点云，而MVS可以获得更好的结果

（１）如何理解密集点云的生成原理

　　MVS是生成密集点云的方法，事实上，为什么我们在SFM中不能得到密集点云？因为，SFM中我们用来做重建的点是由特征匹配提供的！这些匹配点天生不密集！而使用计算机来进行三维点云重建，我们必须认识到，点云的密集程度是由人为进行编程进行获取的。SFM获得点的方式决定了它不可能直接生成密集点云。

　　而MVS则几乎对照片中的每个像素点都进行匹配，几乎重建每一个像素点的三维坐标，这样得到的点的密集程度可以较接近图像为我们展示出的清晰度。

　　其实现的理论依据在于，多视图照片间，对于拍摄到的相同的三维几何结构部分，存在极线几何约束。

描述这种几何约束：

　　想象，对于在两张图片中的同一个点。现在回到拍摄照片的那一刻，在三维世界中，存在一条光线从照片上这一点，同时穿过拍摄这张照片的相机的成像中心点，最后会到达空间中一个三维点，这个三维点同时也会在另一张照片中以同样的方式投影。

　　这个过程这样看来，很普通，就如同普通的相机投影而已。但是因为两张图片的原因，他们之间存在联系，这种联系的证明超过了能力范围，但是我们只需要知道，此种情况下，两张照片天然存在了一种约束。

　　X表示空间中的一点，x1、x2为X在两张图片中的同一点。由于天然的约束，已知x1，想要在另一张图片中找到x2，可以在直线L2上进行一维寻找。　　MVS主要做的就是如何最佳搜索匹配不同相片的同一个点。

２）初步探究MVS中的点匹配方法

　　在有了约束的基础上，接下来就是在图片上的一条线上进行探测，寻找两张图片上的同一点。主要方法为逐像素判断，两个照片上的点是否是同一点——为此提出图像点间的“一致性判定函数”

　　 π (p)是使得点p投影到照片上一点的函数， Ω(x) 函数定义了一个点x周围的区域，I(x) 函数代表了照片区域的强度特征，ρ(f, g) 是用来比较两个向量之间的相似程度的

　　ρ函数和Ω函数的具体选择决定这个”一致性判别“的准确度。这个函数的具体实现，由编程实现。

参考文献

Seitz, S. M., Curless, B., Diebel, J., Scharstein, D., & Szeliski, R. (n.d.). A Comparison and Evaluation of Multi-View Stereo Reconstruction Algorithms. In 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition – Volume 1 (CVPR’06) (Vol. 1, pp. 519–528). IEEE. https://doi.org/10.1109/CVPR.2006.19

基于SfM(Structure from motion)的三维重建

SfM（Structure from motion）是一种三维重建的方法，用于从motion中实现3D重建。也就是从时间系列的2D图像中推算3D信息。

人的大脑可以从动的物体中取得其三维的信息，是因为大脑在动的2D图像中找到了匹配的地方，即Corresponding area （points）。然后通过匹配点之间的视差得到相对的深度信息，在这一点上，原理和基于Stereo的三维重建相同。

SfM的输入是一段motion或者一时间系列的2D图群，如下图所示 [1]，这里不需要任何相机的信息。然后通过2D图之间的匹配可以推断出相机的各项参数。Corresponding points可以用SIFT，SURF来匹配，也可以用最新的AKAZE（SIFT的改进版，2010）来匹配。而Corresponding points的跟踪则可以用Lucas-Kanede的Optical Flow来完成。

在SfM中，误匹配会造成较大的Error，所以要对匹配进行筛选，目前流行的方法是RANSAC（Random Sample Consensus）。2D的误匹配点可以应用3D的Geometric特征来进行排除。

Bundler [2] 就是一种SfM的方法，Bundler使用了基于SIFT的匹配算法，并且对匹配进行了过滤去噪处理。下图显示了一组测试数据（一时间系列的2D图群）：

将这些图片保存到同一个文件夹，然后将文件夹的目录输入，Bundler会自行处理，之后会得到一群Corresponding points。比如其中的一组Corresponding points (A1,A2,A3,…Am)，其实他们来自同一个三维点A的Projection。所以通过这些点可以重建三维点A。然后将很多组Corresponding points 进行重建，则得到了一群三维的点，这里称为3D点阵。

然后3D点阵可以通过MeshLab（开源Source，支持Windows/Linux/Mac）来重建稀疏的Mesh。也可以通过PMVS（Patch-based Multi-view Stereo）来重建Dense的Mesh[3]。

[1] 満上育久　”Structure from Motion – Osaka University“　映像情报メディア学会志　Vol.65, No.4, pp.479-482, 2011.

[2] N.Snavely, S.M. Seitz, R.Szeliski, “Modeling the World from Internet Photo Collections”, International Journal of Computer Vision, vol.80, no.2, 2008.

[3] Y. Furukawa, J.Ponce, “Accurate, Dense and Robust Multi-view Stereopsis” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009.

补充：通过视差d求解深度图：

同一水平线上的两个照相机拍摄到的照片是服从以下物理规律的：

这种思路最先应用于使用单张图片生成新视角问题：DeepStereo 和 Deep3d之中, 在传统的视角生成问题之中，首先会利用两张图（或多张）求取图片之间的视差d，其次通过得到的视差（相当于三维场景）来生成新视角

通过同一水平线的两个视图获得深度图

神奇的达尔文进化定律告诉我们，单个眼睛的自然界生物大都灭绝了。自然界的大多物种都是和人一样，需要两只眼睛来做三维空间定位。那为什么需要两只眼睛呢？

因为一只眼睛看到的图像是二维的，二维的信息是无法用来表示三维的空间的，如上图所示，虽然处于同一水平面上的照相机L,R拍摄了同一个物体，两者之间产生的图片是不同的。并且这种不同是不能通过平移生成的图片所消除的。离照相机近的物体偏离的位置比较大，离照相机远的物体偏离的比较少。这种差异性的存在就是三维空间带来的。(这部分请参考双眼可以测距和建立立体环境，双摄像头可以吗？)。同时同一水平线上的两个照相机拍摄到的照片是服从以下物理规律的：

MVSNeRF：多视角立体图像的快速广义辐射场重建

MVSNeRF: Fast Generalizable Radiance Field Reconstruction
from Multi-View Stereo

https://github.com/apchenstu/mvsnerf

提出了一种新的神经渲染方法neural rendering approach MVSNeRF，它可以有效地重建用于视图合成的神经辐射场。与先前关于神经辐射场的工作不同，这些工作考虑对密集捕获的图像进行逐场景优化，我们提出了一种通用的深度神经网络，该网络可以通过快速网络推理仅从三个附近的输入视图重建辐射场。我们的方法利用平面扫描成本体plane-swept cost volumes(广泛用于多视图立体multi-view stereo)进行几何感知场景推理，并将其与基于物理的体渲染相结合进行神经辐射场重建。我们在DTU数据集中的真实对象上训练我们的网络，并在三个不同的数据集上测试它以评估它的有效性和可推广性generalizability我们的方法可以跨场景(甚至室内场景，完全不同于我们的对象训练场景)进行推广generalize across scenes，并仅使用三幅输入图像生成逼真的视图合成结果，明显优于目前的广义辐射场重建generalizable radiance field reconstruction工作。此外，如果捕捉到密集图像dense images are captured，我们估计的辐射场表示可以容易地微调easily fine-tuned；这导致快速的逐场景重建fast per-scene reconstruction，比NeRF具有更高的渲染质量和更少的优化时间。

我们利用最近在深度多视图立体(MVS)deep multi- view stereo (MVS)上的成功[50，18，10]。这一系列工作可以通过对成本体积应用3D卷积applying 3D convolutions on cost volumes来训练用于3D重建任务的可概括的神经网络。与[50]类似，我们通过将来自附近输入视图的2D图像特征(由2D CNN推断)扭曲warping到参考视图的平截头体中的扫描平面上sweeping planes in the reference view’s frustrum，在输入参考视图处构建成本体。不像MVS方法[50，10]仅在这样的成本体积上进行深度推断depth inference，我们的网络推理关于场景几何形状和外观reasons about both scene geometry and appearance，并输出神经辐射场(见图2)，实现视图合成。具体来说，利用3D CNN，我们重建(从成本体)神经场景编码体neural scene encoding volume，其由编码关于局部场景几何形状和外观的信息的每个体素神经特征per-voxel neural features 组成。然后，我们利用多层感知器(MLP)在编码体积encoding volume内使用三线性插值神经特征tri-inearly interpolated neural features来解码任意连续位置处的体积密度volume density和辐射度radiance。本质上，编码体是辐射场的局部神经表示；一旦估计，该体积可以直接用于(丢弃3D CNN)通过可微分射线行进differentiable ray marching(如在[34]中)的最终渲染。

我们的方法结合了两个世界的优点，基于学习的MVS和神经渲染。与现有的MVS方法相比，我们实现了可微分神经渲染differentiable neural rendering，允许在没有3D监督和推理时间优化的情况下进行训练，以进一步提高质量。与现有的神经渲染作品相比，我们的类MVS架构可以自然地进行跨视图对应推理cross-view correspondence reasoning，有利于推广到未知的测试场景，也导致更好的神经场景重建和渲染。因此，我们的方法可以明显优于最近的并行可概括NeRF工作concurrent generalizable NeRF work[54，46]，该工作主要考虑2D图像特征，而没有明确的几何感知3D结构(参见表。1和图4)。我们证明，仅使用三个输入图像，我们从DTU数据集训练的网络可以在测试DTU场景上合成照片级逼真的图像，甚至可以在具有非常不同的场景分布的其他数据集上生成合理的结果。此外，我们估计的三个图像辐射场(神经编码体积)可以在新的测试场景上进一步轻松优化，以在捕获更多图像的情况下改善神经重建，从而产生与每个场景过拟合NeRF相当甚至更好的照片级逼真结果，尽管我们的优化时间比NeRF少得多。

该方法利用深度MVS的成功，在成本体上应用3D卷积来训练用于3D重建任务的可泛化神经网络。与MVS方法不同的是，MVS方法仅对这样的成本体进行深度推断，而该网络对场景几何和外观进行推理，并输出神经辐射场，从而实现视图合成。具体而言，利用3D CNN，重建（从成本体）神经场景编码体，由编码局部场景几何和外观信息的体素神经特征组成。然后，多层感知器（MLP）在编码体内用三线性插值的神经特征对任意连续位置处的体密度和辐射度进行解码。本质上，编码体是辐射场的局部神经表征；其一旦估计，可直接用于（丢弃3D CNN）可微分光线行进（ray-marching）进行最终渲染。

与现有的MVS方法相比，MVSNeRF启用可微分神经渲染，在无3D监督的情况下进行训练，并优化推断时间，以进一步提高质量。与现有的神经渲染方法相比，类似MVS的体系结构自然能够进行跨视图的对应推理，有助于对未见测试场景进行泛化，引向更好的神经场景重建和渲染。

如图1是MVSNeRF的概览：（a）基于摄像头参数，首先将2D图像特征warp（单应变换）到一个平面扫描（plane sweep）上，构建成本体；这种基于方差的成本体编码了不同输入视图之间的图像外观变化，解释了由场景几何和视图相关明暗效果引起的外观变化；（b）然后，用3D CNN重建逐体素神经特征的一个神经编码体；3D CNN 是一个3D UNet，可以有效地推断和传播场景外观信息，从而产生有意义的场景编码体；注：该编码体是无监督预测的，并在端到端训练中用体渲染进行推断；另外，还将原图像像素合并到下一个体回归阶段，这样可恢复下采样丢失的高频；（c）用MLP，通过编码体插值的特征，在任意位置回归体密度和RGB辐射度，这些体属性由可微分光线行进做最终的渲染。

SLAM、实时三维重建、SfM、多视角立体视觉MVS

SLAM(Simultaneous Localization And Mapping) 同时定位与地图构建

SLAM是Simultaneous Location and Mapping，同时定位与地图构建。是指搭载特定传感器的主体，在没有环境先验信息的情况下，于运动过程中建立环境的模型，同时估计自己的运动。
目的是解决自主机器人“定位”和“建图”两个问题。同时要求能够实时地，没有先验知识地进行。

一般假设相机的内参已知；
实时处理；
以定位为主要目标
输入数据包括RGB、RGB-D、激光、IMU等
输出稀疏或半稠密地图
机器人和计算机视觉研究领域
典型软件：x-SLAM

实时三维重建

一般假设相机的内参已知；
实时处理；
以建图为主体
输入数据以RGB-D图像为主
输出稠密地图
计算机视觉和计算机图形研究领域
典型软件：xFusion

SfM(Structure from Motion) 运动恢复结构

估计相机内参；
不实时处理；
输入数据以RGB图像为主
输出稠密地图
计算机视觉和计算机图形研究领域
典型软件：Agisoft PhotoScan、Agisoft Metashape、COLMAP

多视角立体视觉MVS

多视角立体视觉（Multiple View Stereo，MVS）是对立体视觉的推广，能够在多个视角（从外向里）观察和获取景物的图像，并以此完成匹配和深度估计。某种意义上讲，SLAM/SFM其实和MVS是类似的，只是前者是摄像头运动，后者是多个摄像头视角。也可以说，前者可以在环境里面“穿行”，而后者更像在环境外“旁观”。

收集图像；
针对每个图像计算相机参数；
从图像集和相应的摄像机参数重建场景的3D几何图形；
可选择地重建场景的形状和纹理颜色。

共同点

都需要估计和优化相机的位姿

基础：三维运动、相机模型、非线性优化

裸眼3D–原理介绍

裸眼3D基本上都是针对双目视差来说的。

什么是双目视差：人有两只眼睛，它们之间大约相隔65mm。当我们观看一个物体，两眼视轴辐合在这个物体上时，物体的映像将落在两眼网膜的对应点上。这时如果将两眼网膜重叠起来，它们的视像应该重合在一起，即看到单一、清晰的物体。根据这一事实，当两眼辐合到空间中的一点时，我们可以确定一个假想的平面，这个平面上的所有各点都将刺激两眼网膜的对应区域。这个表面就叫做视觉单像区（horopter）。它可以定义为在一定的辐合条件下，在视网膜对应区域的成像空间中所有各点的轨迹。位于视觉单像区的物体，都将落在视网膜对应点而形成单个的映像。

如果两眼成像的网膜部位相差太大，那么人们看到的将是双像，即把同一个物体看成两个。例如，我们用右手举起一支铅笔，让它和远处墙角的直线平行。这时如果我们注视远处墙角的直线，那么近处的铅笔就将出现双像；如果我们注视近处的铅笔，远处的墙角直线就将出现双像。

正因为双目视差，才会让我们看到的物体有纵深感和空间感。

裸眼3D是怎么做到蒙骗双眼来营造空间和纵深感呢，现在的3D视频或者图像都是通过区分左右眼来拍摄的两幅图，视差距约为65mm，通过让你左眼看到左眼的图像，右眼看到右眼的图像就可以让你的大脑合成一副有纵深感的立体画面。

人的两只眼睛相距约6cm，就像两部相距6cm放置的照相机，拍出的照片角度会有一点点不同（侈开）。

这种侈开在大脑里就可以融合成立体的感觉。

我们再抽丝剥茧制作一个最简单的侈开立体图：

越简单的图越容易说明原理，但观看起来越消耗眼睛“内功”。请您用原理一的透视方法，让左眼看左图，右眼看右图，当您能看到三个双圈的时候，中间那个小圆就会凸出纸面呈现立体感

Geometry-Free View Synthesis:基于transformer的大尺度转换的新视角合成

Geometry-Free View Synthesis: Transformers and no 3D Priors

引入一种基于 transformers 的概率方法，用于从具有大视角变化的单一源图像中进行新视图合成。作者对transformers 的各种显式和隐式 3D 感应偏置进行比较，结果表明，在架构中显式使用 3D 变换对其性能没有帮助。此外，即使没有深度信息作为输入，模型也能学会在其内部表示中推断深度。这两种隐式 transformer 方法在视觉质量和保真度上都比目前的技术状态有显着的改进。

将开源：https://github.com/CompVis/geometry-free-view-synthesis

论文：https://arxiv.org/abs/2104.07652

自回归transformer模型
问题：大角度变换，CNNs需要几何模型。
解决：不需要任何手工设计的三维偏差：(i)一种隐式学习源视图和目标视图之间的远程三维对应关系的全局注意机制来实现。 (ii)捕捉从单个图像预测新视图所固有的歧义所必需的概率公式，从而克服了以前局限于相对较小的视角变化的方法的局限性。(iii)发现以显式深度图的形式提供它们几何信息的好处相对较小，并研究了从transformer的层中恢复显式深度表示的能力，它已经学会了隐式地表示几何变换，而无需任何深度监督，甚至可以学习以无监督的方式预测深度。

相关工作：本文从GPT-2架构构建自适应transformer，即，多块多头自注意，层规范和位置向MLP。自回归两阶段方法：是基于在神经离散表示学习(VQVAE)中的工作，它旨在通过向量量化或离散分配的软松弛来学习一个离散的压缩表示。这种训练范式提供了一个合适的空间来训练潜在表示上的自回归似然模型，并已被用于训练生成模型来训练分层，类条件图像合成、文本控制图像合成和音乐生成。最近，证明了VQVAE的对抗性训练在保持高保真度重建的同时提高了压缩性能，随后，我们能够在学习的潜在空间上有效地训练自回归transformer模型，(产生一个所谓的VQGAN)。我们直接在这项工作的基础上，使用VQGANs来表示源视图和目标视图，并在需要时表示深度图。
方法：由于不确定性，我们遵循一种概率方法，并从以下分布中采样新视角。

潜在空间中的概率视图合成:
为了学习上式中分布，需要捕获源视图和目标视图之间的远程交互的模型，以隐式地表示几何变换。由于基于相似的模型已经被证明直接在像素空间中建模图像时，在像素的短程交互上花费了太多的容量，我们遵循VQGAN并采用了两个阶段训练。第一阶段执行反向（对抗性）引导的离散表示学习(VQGAN)，获得一个抽象的潜在空间，已被证明非常适合有效地训练生成式transformer。
建模条件图像模型：
VQGAN包括一个编码器E,解码器G和一个离散表征zi（dz）的codebook Z。训练后的VQGAN允许编码任意x（HxWx3）到离散隐空间E(x)(h x w x dz)。以栅格扫描的顺序展开，这个潜在的表示形式对应于一个序列s(h x w x dz)，可以等价地表示为一个整数序列，索引已学习的码本。按照通常的名称，我们将序列元素称为“tokens”。一个嵌入函数g=g(s) (hw x de)将每个tokens映射到transformer的嵌入空间中，并添加了可学习的位置编码。类似地，为了编码输入视图xsrc和照相机转换T，两者都由一个函数f映射到嵌入空间中：

其中，n表示条件处理序列的长度。通过使用不同的函数不同的归纳偏差被纳入架构。然后，transformer T处理所连接的序列[f(xsrc,T),g(sdst)]去学习以xsrc和T为条件的合理的新观点的分布。

编码Inductive Biases：比较几何变换的方法被显式地构建到条件函数f中，和没有使用这种转换的方法。
几何图像扭曲:这一部分说明显式几何变换怎么运用。我们假设有一个针孔照相机模型，这样三维点到齐次像素坐标的投影通过相机固有矩阵K确定。源坐标和目标坐标之间的转换是由旋转R和平移t组成的刚性运动给出的。这些参数一起指定了对要生成的新视图的所需控制，如T=(K,R,T)。

此关系定义了一个从源到目标的前向流场作为深度和相机参数的函数。然后，流场可以通过扭曲操作S将源图像xsrc扭曲到目标视图中。由于从流中获得的目标像素不一定是整数值，因此我们遵循，并通过跨越四个最近的目标像素的双线性溅射特征来实现S。当多个源像素映射到相同的目标像素时，我们使用它们的相对深度给予离相机更近的点权重——这是z缓冲的软变体。
在最简单的情况下，我们现在可以描述显式方法和隐式方法在接收关于源图像和期望的目标视图的信息的方式之间的区别。此处，显式方法接收使用相机参数扭曲的源信息，而隐式方法接收原始源图像和相机参数本身，如：

显式几何变换：
在下面，我们用transformer的条件函数f来描述所有被考虑的变体。此外，e还表示一个可学习的嵌入映射离散的VQGAN代码E(x)到转换器的嵌入空间。相似地，e pos(n x de)指一个可学习的位置编码。流场F总是从xsrc计算，以提高可读性，我们从扭曲操作的参数中忽略它，S(.)=S(Fsrc->dst(K,R,t,d)).
（1）我们的第一个显式变体，expl.-img，会扭曲源图像，并以与目标图像相同的方式对其进行编码：

（2）受之前的作品的启发，我们包含了一个expl.-feat变体，它首先编码原始源图像，然后在这些特征之上应用warp。我们再次使用了VQGAN编码器E，以获得：

（3）解释上式中扭曲的特征保持固定状态。

隐式几何变换：接下来，我们描述我们用来分析的隐式变量，transformer能否同样好地处理所有位置，是否需要在模型中内置一个显式的几何转换。我们使用与显式变体相同的符号。
（4）第一个变体impl.-catdepth为transformer提供了显式变体中使用的所有相同组件：相机参数K、R、t、估计深度d和源图像xsrc。相机参数被拉平并连接到T^，通过Wcam（de x 1）映射到嵌入空间。深度和源图像被VQGAN编码器Ed和E编码来获得

与其他变体相比，这个序列大约长32倍，这是计算成本的两倍。
（5）因此，我们还包括了一个impl.-depth变体，它连接了深度和源图像的离散代码，并用一个矩阵W(de x 2dz)映射它们到嵌入空间以避免序列长度增加：

（6）隐式方法提供了一个有趣的可能性：因为它们不需要明确地估计该深度来执行扭曲操作S，所以它们在没有这样的深度估计的情况下具有解决该任务的潜力。因此，输入深度仅使用相机参数和源图像-根据我们的任务描述的最低限度。Impl.nodepth：

（7）最后，我们分析了显式方法和隐式方法是否提供了互补的优势。因此，我们添加了一个混合变体，其条件函数是方法（3）中expl.-emb和方法（5）中impl.-depth的f的结合。
深度读数输出：为了研究学习不同视图之间几何关系的隐式模型的能力，我们建议从一个训练过的模型中提取一个深度的显式估计。为此，我们使用线性探测，通常用于研究无监督方法的特征质量。更具体地说，我们假设一个由L层和impl.nodepth类型组成的transformer模型，它仅基于源框架和变换参数。接下来，我们指定一个特定的层0≤l≤L(其中l=0表示输入)，并提取它的潜在表示el，对应于所提供的源框架xsrc的位置。然后，我们训练一个逐位置线性分类器W来预测深度编码器Ed的离散的、潜在的表示，通过一个来自el的交叉熵目标。请注意，transformer和VQGAN的权重均保持不变。
隐式，显式transformer比较：

数据集： RealEstate and ACID.
其他实验：比较密度估算的质量，实现预测的可视化熵，测量图像质量和保真度，与以前的方法进行比较，对几何图形的探测

3D Photography using Context-aware Layered Depth Inpainting

CVPR 2020 | 3D Photography：一张照片也能动起来

https://arxiv.org/abs/2004.04727

3D 相片是这两年比较热门的研究方向，Facebook App 已经支持分享 3D 相片，相信在不久的未来大家便可以在朋友圈、微博上分享炫酷的 3D 相片。

本文作者来自弗吉尼亚理工学院、国立清华大学和 Facebook，作者提出了一种从 单张 RGB-D 图像生成 3D 照相 的方法，效果炫酷、惊艳，目前代码已开源。

下面先展示一下本文的一些结果，镜头晃动、zoom-in 效果，毫无违和感。

人物、动物各种场景全都不在话下，一张照片也能立刻动起来！

3D相片的生成主要基于重建和渲染技术，传统的方法需要基线较长的精密的多视角图片捕捉设备或者其他特殊装置，如 Lytro Immerge 和 Facebook Manifold camera。最近有更多的工作尝试从智能相机来生成3D相片，如 Facebook 3D Photos 只需用双摄智能手机拍摄图片，生成RGB-D图像 (彩色图+深度图) 来制作3D相片。

本文同样考虑如何从输入的 RGB-D 图像来合成新的视角以生成3D照片。文章方法对深度图的质量要求并不高，只需要深度不连续处在彩色图和深度图中是合理对齐的即可。深度图可以从 双摄相机通过立体视觉的方式计算 得到，也可以借助 深度学习的方法从单张图片估计 得到，因此应用到智能手机完全没有问题，作者也对这两种来源的深度图进行了测试。

Method

Layered Depth Image

文章方法输入一张 RGB-D 图像，输出分层的深度图像 (Layered Depth Image, LDI)，在原始图像中被遮挡的部位填补了颜色和深度。

LDI 类似普通的图像，区别在于每个像素点可以容纳零个或多个像素值，每个 LDI 像素存储一个颜色和一个深度值。与原始论文介绍的 LDI 不同，本文作者显式地表示了像素的局部连通性：每个像素在左右上下四个方向上都存储了零个或最多一个直接相邻的像素指针。LDI 像素与普通图像一样在光滑区域内是四连通的，但是在深度不连续处没有邻接像素。

LDI 是一种对3D相片非常有用的表达，主要在三个方面

其可以处理任意数量的深度层，可以根据需要适应深度复杂的情况；
其表达是稀疏的，具有更高的内存和存储效率；
其可以转换为轻量级的纹理网格表示，直接用于快速渲染。

Method Overview

给定输入的 RGB-D 图像，首先初始化一个单层的四连通的简单 LDI。然后进入预处理阶段，检测深度不连续像素点，并将其分组成简单的相连的深度边。文章算法反复选择深度边来进行修复，先断开边缘上的 LDI 像素，仅考虑边缘处的背景像素进行修复，从边缘的 “已知” 侧提取局部语境区域 (context region)，并在 “未知” 侧生成一个合成区域 (synthesis region)，合成的区域是一个包含新像素的连续2D区域。作者使用基于学习的方法根据给定的上下文生成其颜色和深度值。修复完成后再将合成的像素合并回 LDI。整个方法以这种方式反复进行，直到所有的深度边缘都经过处理。

Image Preprocessing

初始化阶段首先将输入的 RGB-D 图的深度通道归一化到 0-1 之间，并对深度图进行双边中值滤波，以使得边缘更加明显，再基于此图片生成初始 LDI。然后再根据给定阈值判断相邻像素的视差，找到深度不连续像素，并经过一些简化、处理得到最终的深度不连续边。

Context and Synthesis Regions

接下来每次选择一条深度边借助填补算法来修复背景，首先在深度不连续处断开 LDI 像素连接，得到 (前景、背景) 轮廓像素，然后生成一个合成区域，使用洪水漫淹算法初始化颜色和深度值，再使用深度学习的方法填补该合成区域。

Context-aware Color and Depth Inpainting

给定语境区域和合成区域，这里的目标是合成颜色值和深度值。作者的网络与 EdgeConnect[2] 方法类似，将整个修复任务分解成三个子网络：

边修复网络 (edge inpainting network)
颜色修复网络 (color inpainting network)
深度修复网络 (depth inpainting network)

首先将语境区域的边作为输入，使用边修复网络预测合成区域中的深度边，先预测边信息能够推断 (基于边的) 结构信息，有助于约束 (颜色和深度的) 内容预测。然后使用修复的边和语境区域的颜色作为输入，使用颜色修复网络预测颜色。最后再使用同样的方法预测深度信息。

下图展示了边指导的深度修复能够准确地延拓深度结构，并能减轻预测的彩色 / 深度不对齐的问题。

Converting to 3D Textured Mesh

通过将所有修复好的颜色和深度值重新集成到原始 LDI 中，形成最终的 3D 纹理网格。使用网格表示可以快速渲染新的视图，而无需对每个视角进行推理，因此文章算法得到的3D表示可以在边缘设备上通过标准图形引擎轻松渲染。

Experimental Results

Visual Comparisons

下图展示了文章方法与其他基于 MPI (Multi-Plane Representation) 方法的对比，文章方法能够合成较为合理的边缘结构，StereoMag 和 PB-MPI 方法在深度不连续处存在缺陷，LLFF 在生成新视角时会有鬼影现象。

作者将文章方法与 Facebook 3D Photos 进行了比较。通过 iPhone X 采集的彩色图和估计的深度图作为两种方法的输入，下图是部分对比结果展示，文章方法能够合成更为合理的内容和结构信息。

代码测试

参考官方GitHub仓库，步骤如下

# 创建pytorch虚拟环境

# 下载代码
git clone https://github.com/vt-vl-lab/3d-photo-inpainting.git
cd 3d-photo-inpainting
./download.sh  # 下载预训练模型
(pytorch) $ python main.py --config argument.yml # 运行代码

参考

3D Photography using Context-aware Layered Depth Inpainting. Meng-Li Shih, Shih-Yang Su, Johannes Kopf, Jia-Bin Huang. CVPR, 2020.
EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning. Kamyar Nazeri, Eric Ng, Tony Joseph, Faisal Z. Qureshi, Mehran Ebrahimi. ICCV, 2019.

计算机图形学：变换矩阵

最近在研究3D建模和新视点合成，在渲染过程中需要选取新视点去合成新图。一般在接口处需要传递一个变换矩阵，用于控制视点的变化。

成像的过程实质上是几个坐标系的转换。首先空间中的一点由世界坐标系转换到摄像机坐标系，然后再将其投影到成像平面 ( 图像物理坐标系 ) ，最后再将成像平面上的数据转换到图像平面 (图像像素坐标系 ) 。

以AdaMPI的代码为例：

# 定义新视角的角度和渲染的帧数
def gen_swing_path(num_frames=90, r_x=0.14, r_y=0., r_z=0.10):
    "Return a list of matrix [4, 4]"
    t = torch.arange(num_frames) / (num_frames - 1)
    poses = torch.eye(4).repeat(num_frames, 1, 1)
    poses[:, 0, 3] = r_x * torch.sin(2. * math.pi * t)
    poses[:, 1, 3] = r_y * torch.cos(2. * math.pi * t)
    poses[:, 2, 3] = r_z * (torch.cos(2. * math.pi * t) - 1.)
    return poses.unbind()

以Synsin代码为例：

# Parameters for the transformation
theta = -0.15
phi = -0.1
tx = 0
ty = 0
tz = 0.1

RT = torch.eye(4).unsqueeze(0)
# Set up rotation(旋转参数)
RT[0,0:3,0:3] = torch.Tensor(quaternion.as_rotation_matrix(quaternion.from_rotation_vector([phi, theta, 0])))
# Set up translation(平移参数)
RT[0,0:3,3] = torch.Tensor([tx, ty, tz])

一开始其实没有明白为什么需要对 r_x=0.14, r_y=0., r_z=0.10 进行处理，处理成4*4的矩阵形式，而不是直接使用，后来查阅资料发现应该是涉及到计算机图形学的变换矩阵的范畴。

计算机图形学中3D的变换是基于转换矩阵（ 仿射空间 ）进行的。那么为什么是4维的矩阵而不是3维：用第四维度标识向量 or 点。

模型的变换可以认为是空间中一堆点的变换，三维空间中，（x,y,z）可以认为是点，也可以认为是一个向量，因此，人们引入的第4个维度来标识是点还是向量，这个4维空间就叫仿射空间，，在仿射空间中，(x,y,z,0)标识向量，而（x,y,z,1）表示点。

在图形学中，在做平移，旋转和缩放时，经常会用到矩阵，有缩放矩阵、平移矩阵和旋转矩阵。在三维空间中，变换矩阵都是一个四维矩阵，每一行分别表示x, y, z, w。

1. 缩放矩阵（scale）

上面的公式，左边的第一个操作数（四维矩阵）就是一个缩放矩阵，s1表示x轴的缩放倍数，s2表示y轴的缩放倍数，s3表示z轴的缩放倍数。第二个操作数表示空间中(x, y, z)点， w分量在缩放矩阵中没有用到，我们将其设为1。由右边的结果，可以看出(x, y, z)点经过缩放矩阵变换后，x、y、z分量都各自缩放了s(s1、s2、s3)倍。需要注意的是矩阵的乘法不具有交换律，这里点是用一维列矩阵表示的，作为矩阵乘法的右操作数。如果将其转换到乘法的左边，那么点应该用一维行矩阵表示：

缩放矩阵比较简单，不需要证明，只需要会简单的乘法，就可以看出x,y,z经过缩放矩阵的变换确实被缩放了。

2.平移矩阵（translation）

平移矩阵也称位移矩阵，平移矩阵用到了第四列（w列），这也是为什么三维空间变换矩阵为什么是四维的。平移矩阵也比较容易理解，因为可以通过结果看出想x 、y、z确实各自平移了T步。

3. 旋转矩阵

旋转矩阵，相对难一些，也不是那么容易理解，我们先看最基础的绕x、y、z轴旋转的旋转矩阵。

沿x轴：

沿y轴：

沿z轴：

引入了三角函数，我们无法从结果看出旋转矩阵是否正确，所以我们需要证明。下面我给出沿z轴旋转的变换矩阵证明过程，其他轴同理可证。

假设有如图的点p1，因为绕z轴旋转，点的z值是不变的，我们将其设为0，这样可以将其模拟成二维平面xy中旋转。假设p1绕原点旋转b角度，初始角度为a。整个证明过程如下：

// 经过旋转后向量的长度不变为L(原点到p1和p2的距离相同)
// 由三角函数得到sin(a + b), cos(a + b)的值
cos(a + b) = x2 / L;
sin(a + b) = y2 / L;

// 展开sin(a + b)和cos(a + b)
cos(a) * cos(b) - sin(a) * sin(b) = x2 / L;
sin(a) * cos(b) + cos(a) * sin(b) = y2 / L;

// 用x和y表示cos(a)和sin(a)
x / L * cos(b) - y / L * sin(b) = x2 / L;
y / L * cos(b) + x / L * sin(b) = y2 / L;

// 等式两边同时乘以L
x * cos(b) - y * sin(b) = x2;
y * cos(b) + x * sin(b) = y2;

将x2和y2的结果与上面z轴旋转矩阵结果比较，发现是完全一样的。

按照上面的方法同理可证绕x轴旋转和绕z轴旋转的矩阵。

那么绕任意轴旋转的矩阵呢？learnOpengl_cn官网直接给出了绕任意轴旋转的矩阵，(Rx, Ry, Rz)表示任意轴，θ表示旋转的矩阵。这个矩阵证明比较复杂。

PyTorch3D：面向3D计算机视觉的PyTorch工具箱

PyTorch3D通过PyTorch为3D计算机视觉研究提供高效，可重复使用的组件。目前已基于此开发了：Mesh R-CNN、SynSin等模型。

Facebook开源了一个专门用于3D模型学习的库pytorch3d，说白了就是将3d中一些常用的操作封装起来了。那这个玩意到底有啥用呢？使用这个库又能完成什么事情呢？个人觉得这个库还是蛮有用的，它将一些常用的3D概念整理在一起，并且通过使用这个库可以完成一些基于3D的创作，对于学习入门3D的视觉生成、渲染、甚至是3d的目标检测、3维的姿态评估都大有裨益。

Pytorch3D_上手学习3D的AI模型

Accelerating 3D Deep Learning with PyTorch3D

文档：Welcome to PyTorch3D’s documentation!
项目链接：facebookresearch/pytorch3d
论文：https://arxiv.org/abs/2007.08501

PyTorch3D

主要功能包括：

用于存储和操作 triangle meshes的数据结构
在 triangle meshes上的有效操作（投影变换，图卷积，采样，损失函数）
可微的mesh渲染器

PyTorch3D旨在与深度学习方法稳定集成，以预测和处理3D数据。因此，PyTorch3D中的所有运算符：

使用PyTorch张量实现
可以处理小批量的异构数据
可以differentiated
可以利用GPU进行加速

深度学习已大大改善了2D图像识别。扩展到3D可能会推动许多新应用的发展，包括自动驾驶汽车，虚拟现实和增强现实，创作3D内容，甚至改善2D识别。然而，尽管兴趣日益浓厚，但3D深度学习仍相对未得到充分开发。我们认为，这种差异是由于3D深度学习所涉及的工程挑战所致，例如有效处理异构数据和将图形操作重构为可微的。

我们通过引入PyTorch3D来应对这些挑战，PyTorch3D是一个用于3D深度学习的模块化，高效且可微的运算符库。它包括一个用于网格和点云的快速，模块化，可微的渲染器，支持按合成进行分析的方法。

与其他可微的渲染器相比，PyTorch3D更具模块化和效率，允许用户更轻松地扩展它，同时还可以优雅地缩放到较大的网格和图像。我们将PyTorch3D运算符和渲染器与其他实现进行了比较，并展示了显著的速度和内存改进。我们还使用PyTorch3D改进了ShapeNet上2D图像的无监督3D网格和点云预测的最新技术。

PyTorch3D是开源的，我们希望它将有助于加速3D深度学习的研究。