AdaMPI:单图新视点合成

Single-View View Synthesis in the Wild with Learned Adaptive Multiplane Images, SIGGRAPH 2022.

Yuxuan Han, Ruicheng Wang and Jiaolong Yang

Project Page | Video | Paper

Multiplane Images(MPI)是一种场景表示方法,其在先前的工作中已经证明具有出色的表示能力。MPI通常由多个平面组成,每个平面都具有不同的颜色、密度和深度值。以前的方法通常将平面设置在固定位置,并通过卷积神经网络(CNN)预测纹理。然而,MPI是一种高度过参数化的表示方法,对于神经网络来说很难学习,因为需要大量输出通道。因此,当平面数量增加时,性能甚至可能会降低。

该网络旨在从输入图像和其深度图中预测N个平面,每个平面都有颜色通道ci、密度通道σi和深度di。该网络由两个子网络组成:平面调整网络Fd和颜色预测网络Fr。首先,使用现成的单目深度估计网络[Ranftl et al. 2021]获取深度图。然后,将Fd应用于推断平面深度{di}N_i=1,并将Fr应用于预测每个di处的颜色和密度{ci, σi}N_i=1。因此,该网络可以生成多平面图像,其中每个平面都具有不同的颜色、密度和深度值。

Figure 2显示了使用该方法在每个平面上预测的颜色掩码。该图中展示了16个平面,每个平面都有不同的颜色和密度值。这些颜色掩码是通过网络预测得出的,用于生成多平面图像。

该方法包括两个子网络:平面深度调整网络和深度感知颜色预测网络。 平面深度调整网络由三个主要部分组成:RGBD上下文特征提取器、平面位置调整器和注意力机制。该网络的输入是RGBD图像,其中包含彩色图像和深度图像。首先,RGBD上下文特征提取器从输入中提取特征,并将其传递给平面位置调整器。然后,平面位置调整器使用这些特征来推断每个平面的深度,并将其与初始估计值进行比较。最后,注意力机制用于确定哪些区域需要更多的细节,并在这些区域上进行更精细的调整。 深度感知颜色预测网络由两个主要部分组成:颜色掩码生成器和MPI合成器。该网络的输入是RGBD图像和一个表示目标视角的向量。首先,颜色掩码生成器使用输入来预测每个平面处的颜色掩码。然后,MPI合成器使用这些颜色掩码以及每个平面处的深度值来合成MPI表示,并将其渲染为新视点图片。 总体而言,该方法采用了一种端到端的学习方法,通过联合训练两个子网络来实现多平面图像的生成。

训练方法:

Fig. 3是有关视角合成训练对生成的示意图。该图显示了如何在训练过程中生成立体图像对。首先,从深度图中采样一个图像Is,并生成一个合理的内部参数K和相机运动(R,t)。然后,渲染目标彩色图像It和深度图Dt,并应用已经训练好的修补程序G来填充空洞,从而产生̄It和̄Dt。为了确保网络接收到来自真实图像分布的监督信号,我们将(̄It,̄Dt)作为F的输入,并将(Is,Ds)作为目标视角的地面真实值。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注