新视点合成 – chenpaopao

裸眼3D相关产品

随着AIGC等前沿技术的迅速发展，互联网正在逐步从2D转向3D，我们正在迎来一个体验升维的新时代。除了“人戴眼镜”的XR、元宇宙设备，联想也在探索“屏戴眼镜”的裸眼3D技术。这种技术使用户无需佩戴任何额外设备，就能体验到真实的3D效果。基于联想研究院的低延时双眼追踪、跨应用3D渲染引擎，以及业界首个支持4K超高清的实时2D内容转3D等技术，联想推出了全球首款27英寸4K裸眼3D显示器，并在1月份的国际消费电子展（CES）上进行了展示，持续引领下一代设备创新潮流。联想的裸眼3D显示引擎代表着当今显示技术的一个重要创新趋势，它以尖端的裸眼3D显示技术作为核心，创新性地构建了一个全面的3D系统级显示空间。这一技术的核心在于其能够无缝整合包括自主研发的实时高清2D转3D应用和跨应用渲染显示应用在内的一些列应用生态，从而使用户能够沉浸在一个逼真的3D环境中，体验3D世界中的生态内容。

通过联想的这一革命性技术，用户能够体验到前所未有的3D视觉效果，无论是观看电影、玩游戏还是进行专业级的设计工作，都能获得更加立体和真实的感觉。此外，联想裸眼3D技术及解决方案能够支持丰富的3D生态资源，为用户提供广泛的3D内容选择，不仅增强了娱乐体验，也为专业应用，如教育、医疗和工业设计等领域开启了新的可能性。

值得一提的是，联想的裸眼3D显示技术及解决方案也具有很高的易用性。它能够智能识别用户的观看习惯，能够根据不同的观看角度和距离，实时调整3D效果，从而确保最佳的视觉体验。联想裸眼3D显示产品及技术解决方案的推出，不仅展示了联想在显示技术领域的创新实力，也为整个3D显示行业的发展开辟了新的道路。

相关链接：https://mp.weixin.qq.com/s/iYxyyWJfroIvbOPDg4AY1g

https://mp.weixin.qq.com/s/P52TiW0WM9rQtBe4nLMiiA

Real-Time Radiance Fields for Single-Image Portrait View Synthesis 论文

选自SIGGRAPH 2023实时渲染领域论文。文章实现了最新的单图像实时合成三维视角的技术。

论文题目：Live 3D Portrait: Real-Time Radiance Fields for Single-Image Portrait View Synthesis
论文链接：https://research.nvidia.com/labs/nxp/lp3d/

Paper PDF

本文提出了从单张图像实时推理渲染照片级 3D 表示的单样本方法，该方法给定单张 RGB 输入图像后，编码器直接预测神经辐射场的规范化三平面表示，从而通过体渲染实现 3D 感知的新视图合成。该方法仅使用合成数据进行训练，通过结合基于 Transformer 的编码器和数据增强策略，可以处理现实世界中具有挑战性的输入图像，并且无需任何特殊处理即可逐帧应用于视频。

INTRODUCTION

随着NeRF的提出，三维视觉技术得到快速的发展。三维重建也是非常有意义的工作，其中，单张肖像实现实时三维视角的合成将推动AR、VR、3D远程会议的发展。

基于此，作者提出了该技术的最新方法，该技术的原文表述是infer and render a photorealistic 3D representation from a single unposed image (e.g., face portrait) in real-time.

先来看现有的方法，一般用NeRF+GANs实现3D感知图像生成。其中比较有名的一项技术是EG3D，EG3D的提出者也是本论文的共同作者之一，本文的工作是在EG3D的基础上展开的。

EG3D提出了一种高效的三平面3D表示(triplane 3D representation)（具体细节会在后续给出），并且能够达到与2D GANs相同的实时渲染质量。训练完成后，测试时微调(test-time fine tuning)完成单图像三维重建。但这种方法会有一些问题：

NeRF的训练通常需要优化目标(careful optimization objectives)和3D先验(additional 3D priors)
测试时优化需要准确的相机姿态作为输入或优化相机姿态
上述两点优化时耗时的，限制了实时应用

与以往重复使用预训练的generator不同，本篇论文训练了一个端到端的编码器（encoder end-to-end）用于直接从单个输入图像预测三平面3D特征。与以往依赖于多视图真实图像的采集相比，本文不需要获取真实图像，也不需要PBR(physically-based rendering)绘制那样耗时。相反，作者使用预训练的3D GAN生成的多视图一致的合成数据来监督三平面编码器，以便进行新视图合成，再结合数据增强策略和基于Transformer的编码器搭建好模型。在文章中作者展示了对人脸和猫脸三维重建的结果，但作者表示任何3D感知图像generator适用的类别，该模型同样适用。

概括下文章的工作贡献：

提出了一种前馈编码器模型，直接从输入图像推断三平面3D表示。不需要测试时优化。
提出了一种新的策略，仅使用从预训练的3D感知图像生成器生成的合成数据
结合基于Transformer的编码器和实时增强策略，该方法可以处理具有挑战性的输入图像。

2. RELATED WORK

2.1 Light Fields and Image-Based Rendering

传统的方法要么需要许多视图样本，要么需要光场相机作为训练数据。最近提出的NeRF结合3D隐式表示，运用体渲染的方式合成视图，但仍需要大量输入照片。

2.2 Few-shot novel view synthesis

最近一些扩展NeRF的工作用3D隐式表示完成了单图像合成，用到3D卷积、Transformers 等方法。但是这些方法都不是实时生成新视图的，并且都需要多视图图像来训练模型。而作者的方法只需要从预先训练的3D GAN生成的合成图像，这种3D GAN是由单视图图像的集合训练的。

2.3 Learning with synthetic data

当没有基准真实数据(ground truth data )时，合成数据为训练深度学习模型提供了有用的监督。这往往还需要额外的步骤来适应真实图像。

2.4 3D-aware portrait generation and manipulation

最近，3D感知图像生成方法开始解决从单视图2D图像集合中无条件生成逼真的3D表示的问题。结合神经体积渲染(neural volumetric rendering)和生成对抗网络(GANs)，最新的3D GAN方法能够生成高分辨率多视图一致图像。作者采用EG3D 的三平面3D表示，实现单视图新视图合成。

2.5 3D GAN inversion

GAN inversion在2D领域取得很大进展，现有的3D GAN inversion方法将给定的图像投影到预训练的StyleGAN2 latent space上，并且在测试时需要摄像机姿态( approximate camera pose )和生成器权重微调( generator weight tuning)，以重建域外输入图像。与同时期的工作不同，作者的前馈编码器将未定位的图像作为输入，并且不需要针对摄像机姿态的测试时优化。

2.6 Talking-head generators

给出单个目标肖像和驱动视频，这种Talking-head生成方法主要通过视频数据集训练，侧重于通过操纵2D肖像中的头像姿势和表情来生成talking-head视频。因此，这种方法不预测视点渲染的体积表示和三维几何信息。所以不予比较。

3. PRELIMINARIES: TRIPLANE-BASED 3D GAN

NeRF采用完全隐式的表示，使用神经网络来表示整个三维空间的辐射场，但计算往往需要花费大量时间。首先，对前沿的3D GAN方法EG3D进行概述。EG3D从单视图图像集合和相应的噪声相机姿势中学习3D感知图像生成，EG3D使用混合三平面表示来调节神经体积渲染过程，其中三个典型平面 ��,��,�� 都存储了三个2D特征网格 （feature grids）。使用StyleGAN2生成器，EG3D将噪声向量和相机姿势映射到三平面表示 �∈R256×256×96，对应于3个轴对齐的平面，每个平面具有32个通道。这些特征调节神经体积渲染。

Our hybrid explicit–implicit tri-plane representation (c) is fast and scales efficiently with resolution, enabling
greater detail for equal capacity.

简而言之，将特征存储在正交的三平面(triplane)表示中，通过特征值叠加计算出特定空间点的颜色、体积密度，通过NeRF进行训练，训练得到的参数也保存在三平面表示中。

4. METHOD

作者的目标是将EG3D生成模型的信息提炼到一个前馈编码器的pipline中，这可以直接将未定位的图像映射到一个规范的三平面3D表示，这里的规范表示，对于人脸，头部的中心是原点。该pipline仅需要单次前馈网络传递，从而避免了花销大的 GAN inversion过程，同时允许实时重新渲染输入的任意视点。

作者的工作主要集中在图像到三平面编码器和相关的合成训练方法上，使用EG3D的MLP体积渲染器和超分辨率架构，端到端地训练所有组件。下图是整个模型的推理和训练部分，是文章的重点。

图3图 2：推理和训练管线。在推理阶段，我们以单张图像作为输入，使用 DeepLabV3 提取低分辨率特征。这些特征经过 ViT 和卷积输出，与高分辨率特征串联，再通过 ViT 和卷积解码为三平面表示，从而为体渲染过程提供条件，生成深度、特征、颜色和超分辨率图像。在训练阶段，我们从 EG3D 中采样一个身份，渲染两个监督视图。第一个视图作为编码器输入，预测三平面，然后根据这两个视角进行体渲染，并将渲染结果与 EG3D 的结果进行比较优化。

我们的目标是将训练好的 EG3D 生成模型知识蒸馏至前馈编码管线，该管线只需一次前馈网络传播即可将单张图像直接映射为规范的三平面 3D 表示，同时允许对输入在自由视角下进行实时渲染。我们的贡献集中于图像到三平面编码器和相关的合成数据训练方法。我们使用 EG3D 中的 MLP 体渲染器和超分辨率架构，并对所有组件进行端到端的训练。

TensoRF-将体素网格分解为向量-平面张量积形式的低秩张量之和

TensoRF: Tensorial Radiance Fields 是2022 年ECCV上的论文

论文地址：https://arxiv.org/abs/2203.09517

源码地址：https://github.com/apchenstu/Te

主页： https://apchenstu.github.io/TensoRF/

张量辐射场是一种新颖的建模和重建辐射场的方法。跟NeRF使用多层感知机隐式建模场景表达的方式不同，TensoRF将场景建模为一个四维的张量，张量中的每一项代表了一个体素，体素内包含了体积密度和多维的特征信息。论文的中心思想是使用张量分解技术，将4D张量分解成多个低秩的张量分量，以小见大

从上图中可以看出，张量辐射场可以达到：

1. 更好的质量

2. 更快的速度

3. 更小的模型体积

张量辐射场除了渲染质量更好之外，与同时期使用体素方式的研究相比占用更少的内存使用。张量辐射场在30分钟内就可以完成重建，并且模型的大小小于4M，这比NeRF更快，以及更小巧。使用VM分解方式的可以达到10分钟的时间，以及更好的质量，模型大小小于75M。TensoRF是第一个从张量的角度来看待辐射场建模，并提出了辐射场重建作为一个低秩张量重建的问题

EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

https://nvlabs.github.io/eg3d/

将三维坐标对应的体素特征定义为三个正交投影平面的特征

目前的3D GAN要么过于计算密集型，要么缺少多视图一致性，该方法加强了计算效率并且提升了重建质量。使用了显式-隐式结构，不仅生成多视角一致性图片，还能生成高质量3D几何。通过解耦feature generation和neural rendering，该架构就可以用上SOTA的2D CNN生成器比如styleGAN2。

使用单视角2D图片集，无监督地生成高质量且视角一致性强的3D模型，一直以来都是一个挑战。现存的3D GANs要不计算量巨大，要不无法保证3D-consistent。前者限制了生成图片的质量，后者无法解决视角一致性的问题。这篇工作提出的新网络架构，能又快又好地生成3D geometry。

这篇工作提出了两个方法。首先，作者用显隐混合的方法，提高了时空效率，并有较高的质量。第二，提出了dual-discrimination策略，保证了多视角一致性。同时，还引入了pose-based conditioning to the generator，可以解耦pose相关的参数，保证了输出的视角一致性，同时忠实地重建数据集隐含的pose-correlated参数。

同时，这个框架能解耦特征生成和神经渲染，从而可以直接使用SOTA的2D GANs，比如StyleGAN2。

contribution

引入一个基于三平面的3D GAN架构，计算效率高而且效果质量好
提出一个3D GAN训练策略，通过dual discrimination和generator pose conditioning加强多视角一致性，建模出位置相关的属性分布（比如表情等）
在FFHQ和AFHQ上有最佳的非条件3D感知视图合成结果，生成高质量3D几何

Tri-Plane Hybrid 3D Representation

我们需要一种高效且表达力强的3D表示方法，来训练高分辨率的GAN。

这里以单场景过拟合(SSO)来证明三平面表示法的有效性。

每个平面都是N×N×C的，其中C是通道数。

每次查询一个3D坐标x∈R3，将其投影至每个平面上，用双线性插值得到3个特征向量Fxy,Fxz,Fyz

将这3个特征向量累加后，通过一个轻量级的decoder，也就是一个小型MLP，输出RGB和Density

再用volume rendering得到最终图像

这样做的好处是，decoder规模很小，赋予了显式表示更强的表达能力，并减小了计算压力。

在新视角合成的实验上，三平面紧凑而富有表达力，以更低的计算成本，得到了更好的表现，三平面的时空成本是O(N2)的，而voxel是O(N3)的，最重要的是，用2D GANs生成planes，就能得到3D表示。对比NERF，通过显式的投影降低了计算复杂度同时没有减少表达性能。做了个对比实验，baseline是mip-nerf和voxel grid，这里的tri-plane实验中的MLP用了傅里叶feature编码。在同样地内存消耗下运算更快，在同样地结构下速度快且内存消耗少。

Pipeline

CNN Generator Backbone & Rendering

三平面的特征，是由StyleGANA生成的，同时Latent Code和相机参数会输入Mapping Network，生成一个Intermediate Latent Code

StyleGAN2被修改后，输出256×256×96256×256×96的特征图，之后被reshape成32通道的平面

接着从三平面采样，累加后，通过轻量级decoder，生成density和32通道的特征，然后由neural volume renderer生成2D特征图（而非RGB图）

Super Resolution

三平面仍不足以直接生成高分辨率图，因此添加了超分模块

使用了2个StyleGAN2的卷积层，上采样并优化32通道特征图，得到最终的RGB图像

Dual Discrimination

对StyleGAN2的discrimination做了两个修改

首先，添加Dual Discrimination以保证生成图片的视角一致性，即保证原始图片（低分辨率生成的）和超分后的图片的一致性，将低分辨率图片直接双线性上采样后，和超分图片concat形成6通道图片，真实图片也模糊后的自己拼接，也形成6通道图片，进行判别。

这样做，不仅能encourage最终输出和真实图片的分布匹配，也让神经渲染器尽可能匹配下采样的真实图片，并让超分图片和神经渲染保持一致。

其次，作者对discriminator输入了相机内外参，作为一个conditioning label，从而让generator学到正确的3D先验。

Modeling Pose-Correlated Attributes

真实世界数据集如FFHQ，相机姿态与其他参数（如表情）有关联

比如，相机角度与人是否微笑是有关系的，这会导致生成结果视角不一致

因此，为了更好的生成质量，需要将这些参数与相机姿态解耦

这篇工作使用了Generator Pose Conditioning解耦pose和其他参数

Mapping Network不仅接受Latent Code，还接受相机参数做为输入

给予backbone相机姿态作为先验，从而让视角可以和生成产生联系

也就是说，generator可以建模数据集中隐式的pose dependent biases，更忠实地反映数据集特征

为了避免在渲染时因相机移动产生视角不一致，在渲染时保持generator输入的相机参数不变

ICCV’23|全场景单目深度绝对距离估计

作者丨尹炜转自丨极市平台

本文提出了一个统一相机空间（canonical camera space）变换模块，明确解决了尺度模糊性问题，并且可以轻松地嵌入到现有的单目模型中。配备了论文的模块，单目模型可以在800万张图像和数千个相机模型上稳定地训练，从而实现了对室外图像的零样本泛化，其中包含未见过的相机设置。该论文所提方法也是第二届单目深度估计挑战中的冠军方案，在比赛的各个场景上都排第一。

Arxiv: https://arxiv.org/abs/2307.10984

Github: https://github.com/YvanYin/Metric3D

大家好，在这里给大家分享一下我们最近被 ICCV2023 接受的工作《Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image》。如何从单张图像恢复出绝对尺度的深度，并且重建出带有绝对尺度的3D场景是一个长期待解决的问题。当前最先进的单目深度估计具体分为两类：

第一类方法的目标是恢复准确的绝对深度，但是这一类的方法泛化性比较差，只能处理单个相机模型，并且由于不同相机存在尺度模糊性，导致无法执行混合数据训练来提升域泛化性。第二类方法针对性解决深度模型的零样本泛化问题，如LeReS/MiDaS/DPT/HDN等文章的方法，经过大规模混合数据集训练，并约束模型只学习相对深度。因此，该类方法都没法恢复绝对尺度。

在这项工作中，论文表明零样本单目度量深度估计的关键在于大规模数据训练以及解决来自各种相机模型的尺度模糊性。论文提出了一个统一相机空间（canonical camera space）变换模块， 明确解决了尺度模糊性问题，并且可以轻松地嵌入到现有的单目模型中。配备了论文的模块，单目模型可以在800万张图像和数千个相机模型上稳定地训练，从而实现了对室外图像的零样本泛化，其中包含未见过的相机设置。

下图（论文首页图）通过两个下游的应用，即SLAM和物体测量，来展示了针对零样本的泛化性以及尺度恢复的准确性。可以看出测量的结构尺寸和GT非常接近。值得注意的是，mono-slam系统通过引入预测的深度，能够消除scale drift的问题，并且slam系统能够实现metric mapping.

主要贡献：

提出了一种标准空间相机变换（canonical camera space transformation）和对应的逆变换（de-canonical camera space transformation）方法来解决来自不同相机设置的深度尺度模糊性问题。这使得论文方法可以从大规模数据集中学习强大的零样本（zero-shot）单目度量深度模型；
在模型训练过程中，论文还提出了一种随机提议正则化损失函数，有效提高了深度准确性；
论文方法在第二届单目深度估计挑战中获得了冠军，在比赛的各个场景上都排第一。
论文的模型在7个零样本基准测试上达到了最先进的性能。它能够在户外进行高质量的3D度量结构恢复，并且在几个下游任务中受益，如单目SLAM、3D场景重构和测量学。

CVPR2023挑战赛结果：

方法：

1.什么是尺度模糊性？

论文针对混合数据中的尺度模糊性做了详细的讲解。如下图所示：

上图通过一个简单的例子来说明什么是尺度的模糊性。不同相机在不同距离下拍摄的照片示例。仅从图像内容来看，人们可能会认为最后两张照片是由同一个相机在相似的位置拍摄的。但实际上，由于拍摄图片采用了不同焦距的相机，这些照片是在不同的位置拍摄的。因此，相机的内部参数的变化导致了尺度的不确定性。对于从单张图像估计度量是至关重要的，否则问题就是不适定的。

2.什么影响深度的预测？

针对相机的传感器尺寸、像素的大小、还有相机的焦距，论文有如下观察。

2.1 传感器尺寸和像素大小不会影响度量深度估计

如下图所示，当用不同像素大小的相机拍摄同一个物体时候，虽然像元大小不同，物体在图像的分辨率不同，但是距离是一致的。因此，不同的摄像机传感器不会影响度量深度的估计。此外，传感器的尺寸只是影响了图像拍摄的视野，因此也不会影响深度的估计。

2.2 焦距对于深度估计的准确性非常重要

如下图所示，由于焦距不同，不同距离的物体在相机上的成像大小相同，在网络训练的时候，相似的图像，但是标签却不一致，就导致了一对多的标签映射，因此会导致网络混淆，影响训练。

3.方法的pipeline

方法的pipeline如下图所示。

本文提出了2种训练方法。两种方法都可以很容易的嵌入到当前任意的单目深度估计的框架中。整个方法的核心思想就是建立一个标准相机空间��, 然后将所有的训练数据都映射到这个空间，那么，所有的训练数据都可以被看做是同一个相机拍摄的。论文提出了2种方法进行这种变换，一种是通过变换训练图像，另一种是变换变换GT label。详细如下：

方法1：将标签进行转换

深度的模糊性是针对深度的。因此，第一种方法直接通过转换ground truth深度标签来解决这个问题。在训练阶段，通过乘以一个缩放因子来转换深度标签。在推理阶段，预测的深度处于规范化空间，需要进行反规范化转换以恢复度量信息。

方法2：将输入图像转换

第二种方法是将输入图像转换为模拟规范相机成像效果。具体来说，在训练阶段训练图像根据焦距按比例缩放resize，相机光心也进行了调整，然后进行随机裁剪图像用于训练。在推理阶段，反规范化转换将预测深度调整回原始大小而不进行缩放。

4.监督

论文采用了各种约束。包括LeReS论文提出的pair-wise normal regression loss，VirtualNormal论文提出的虚拟法矢的loss，还有Scale-invariant Log loss。除此之外，该论文还提出了一种新的loss，叫随机提议标准化损失（RPNL）。尺度平移不变损失被广泛应用于仿射不变深度估计，但它会压缩细粒度深度差异，特别是在近距离区域。因此，论文从真值深度和预测深度中随机裁剪若干小块，然后采用中位绝对偏差标准化对它们进行处理。这样，可以增强局部对比度。整体loss如下。

�=�PWN+�VNL+�silog +�RPNL

实验

1.零样本泛化测试

以下的几个表格都是做的零样本泛化实验。其中表格1中，在NYU和KITTI上和当前在他们上fitting的SOTA方法做了对比，发现在不引入该数据做训练，模型就能够恢复出精确的尺度。表格3，论文做了更多的这种零样本泛化的对比，比较了6个数据集。

另外，论文与SOTA仿射不变深度估计方法在5个zero-shot基准上的比较。论文的模型明显优于以前的方法

2.下游应用实验

三维重建实验： 论文展示出，直接将预测的连续帧深度重建成点云，并与各类的方法做了对比，包括MVS的方法，放射不变形深度估计的方法，无监督深度估计的方法，videodepth 深度估计的方法等做了对比，发现整体重建精度上会更好。

SLAM实验： 在如下的表格中，论文的度量深度估计方法可以作为单目SLAM系统的强大深度先验。在KITTI数据集上，将论文的度量深度直接输入到最先进的SLAM系统Droid-SLAM中，结果显示论文的深度使得SLAM系统的性能显著提升。

在ETH3D SLAM数据集上，论文的深度同样带来了更好的SLAM性能，并且能够极大的缓解尺度漂移的问题。

从下图可以看出，droid-slam系统在输入预测的深度后，轨迹和GT更加接近，并且没有尺度漂移的问题，见下面第一个例子。

3.In-the-wild 测量实验

论文从Flickr下载了一些图片，通过从metadata中读取相机的像元大小以及焦距（以mm为单位），粗略估算出相机的焦距（以像素为单位），从而预测出metric depth，然后重建出点云。从点云中可以测量出一些结构的大小，发现和GT相差并不那么大。

4.更多的深度图展示：

总结

本文解决了从单目图像重构三维度量场景的问题。为了解决由不同焦距引起的图像外观深度不确定性，论文提出了一种规范化相机空间转换方法。使用论文的方法，可以轻松地合并由10,000个相机拍摄的数百万数据，以训练一个度量深度模型。为了提高鲁棒性，论文收集了超过800万数据进行训练。几个零样本评估展示了论文工作的有效性和鲁棒性。论文进一步展示了在随机收集的互联网图像上进行计量学测量以及在大规模场景上进行密集建图的能力。

eNERF-实时三维人体重建

浙大三维视觉团队提出ENeRF，首次实现动态场景的实时照片级渲染 (SIGGRAPH Asia 2022)

论文链接：https://arxiv.org/abs/2112.01517

论文代码：https://github.com/zju3dv/ENeRF

论文主页：https://zju3dv.github.io/enerf/

摘自： https://zhuanlan.zhihu.com/p/586595657

1.1 论文的问题描述

输入是多个相机在固定机位拍摄的某个动态场景的多目视频，论文希望能生成该动态场景的自由视点视频。该问题有许多应用，例如虚拟呈现，电影游戏制作等。

1.2 当前方法在这个问题上的局限性

为了支持自由视点视频的应用，自由视点视频的渲染效果需要足够逼真，生成制作需要足够快，生成后在用户端的渲染也需要足够快。

最近一些方法基于隐式神经表示，利用体渲染技术优化场景表示，从而制作自由视点视频。D-NeRF[Pumarola et al., CVPR 2021] 利用隐式神经表示恢复了动态场景的motions，实现了照片级别的真实渲染。但是，这一类方法很难恢复复杂场景的motions，他们训练一个模型需要从几小时到几天不等的时间。此外，渲染一张图片通常需要分钟级的时间。

基于图像的渲染技术克服了以上方法的一些问题。第一，对于动态场景，IBRNet[Wang et al., CVPR 2021]能够把每一帧图像都当作单独的场景处理，从而不需要恢复场景的motions。第二，基于图像的渲染技术可以通过预训练模型避免每一时刻的重新训练。但是，IBRNet渲染一张图片仍然需要分钟级的时间。

1.3 我们的观察和对问题的解决

为了解决基于图像的渲染技术渲染过慢的问题，论文提出结合显式表示和隐式表示两者的优点。具体而言，我们观察到通过MVS方法预测显式表示，例如深度图像，通常是很快的。利用此显式表示去引导隐式表示的体渲染过程中的采样，能够大幅降低此前方法在空间内密集采样点（包括空地方的点和被遮挡的点）造成的计算开销，从而实现加速。

2. 论文方法

2.1 基于MVS方法预测新视角的深度图像

我们首先使用MVS方法预测新视角的深度图像。给定标定好的相机姿态，我们利用待渲染的视角空间上临近的图像建立级联代价体，使用3D卷积网络处理代价体获得深度图像以及置信区间。

2.2 在场景的表面附近预测辐射场

给定上一步预测的深度置信区间，我们在此区间内采样若干点，通过图像特征和3D卷积网络得到的3D特征体，泛化的预测这些采样点的辐射场和密度。

在深度区间内采样少量点，利用图像特征预测这些点的辐射场，使用体渲染技术得到渲染图像

2.3 使用RGB图像优化ENeRF

在得到渲染结果后，我们使用图像的均方差损失函数端到端的优化网络参数。我们实验发现仅使用RGB图像优化网络参数即可获得高质量的渲染结果。

3. 实验分析

3.1 消融实验分析

我们提供了消融实验分析去研究论文方法的每一步带来的影响。

第一行展示了基线方法（与MVSNeRF[Chen et al., ICCV 2021]相似），每条光线采样128个点，这样有着好的渲染结果，但是渲染速度比较慢。直接降低采样点的数量后，会导致渲染质量显著下降。使用论文提出的采样方法（Depth-gui.）后，能提升渲染质量，同时基本保持比较快的渲染速度。

为了进一步提高渲染速度，论文使用了级联的设计（Cascade Cost Volume），通过我们仔细的设计，我们将速度从9.7FPS提升到20.31FPS。

此外我们研究了额外使用地面真值深度图像来监督网络学习，我们发现它对最后的渲染质量不会有很大的影响，这说明了论文方法使用RGB图像端到端优化的鲁棒性。

3.2 与SOTA方法的对比

我们在DTU，NeRF Synthetic以及Real Forward-facing静态场景数据集以及ZJUMoCap和DynamicCap动态场景数据集上进行了和之前方法的比较，我们在渲染速度上实现了较大的提升，并且在渲染质量上取得了有竞争力的结果。

CVPR23 | 纯数学无限生成的3D世界，高质量的3D数据生成

谁说生成图像、视频一定要靠AI？ Github: https://github.com/princeton-vl/infinigen Infinigen: Infinite Photorealistic Worlds using Procedural Generation

普林斯顿大学新出的神器，可无限生成逼真3D世界，特别强调“No AI”。

不要以为生成的只是一段视频，其实背后是一套完整的3D资产，基于建模软件Blender打造。如此一来，我们就能用参数来控制细节，或者拿到相应的光流图、3D场景光流图、深度图、全景分割图等等，轻松hold住各种CV任务。再也不用担心我找不到高质量的3D数据投喂AI了。

100%基于随机数学的3D数据生成器:

尽管AI发展迅猛，但目前CV领域的许多任务仍然缺乏高质量的数据，3D尤甚。

一个解决办法是用合成数据。事实证明，在这类数据上训练的模型在零样本的真实图像上也可以表现得很好。

但问题是，现有的大多数免费3D合成数据工具基本局限于单一场景：要么是自动驾驶相关，要么就是那种位于室内环境中的人造物体。

因此，为了扩大覆盖范围，尤其是真实世界里的自然场景，作者基于Blender打造了这个基于随机数学规则无限生成各种场景的Infinigen。

Infinigen主要利用Blender的“基元”（或原语），设计了一个程序规则库，通过编码完成真实自然场景各个对象的生成。

论文主要介绍了Infinigen的程序体系，包括：

Node Transpiler（节点转换器），可以自动将Blender节点图转化为Python代码，方便非程序员用户使用Infinigen。

如下图所示，它生成的代码更通用，既允许我们随机化输入参数，也允许随机化图结构。

Generator Subsystems（生成器子系统），Infinigen的生成器是是一个个基于概率的程序，每个程序专门用于生成一个子对象（比如山脉或鱼类）。每个对象都有一组高级参数（比如山的总高度），用户可以使用Python API来调整这些参数，以实现对数据生成的细粒度控制。
Material Generators（材料生成器），一共有50个，每个都由一个能指定颜色和反射率的随机着色器和一个生成相应精细几何细节的局部几何生成器组成。

如下图由所示，它能保证非常真实的几何细节

Terrain Generators（地形生成器），如下图所示，该生成器可以通过反复挤压生成巨石，使用Blender的内置插件生成小石块。

并帮助Infinigen通过使用FLIP模拟动力学流体，使用Blender的粒子系统模拟天气。

Plants & Underwater Object Generators（植物和水下物体发生器），包括使用用随机游走等算法对树木生长进行建模，从而形成一个覆盖各种树木、灌木甚至仙人掌的3D世界。

又或者是使用差异化生长、拉普拉斯生长和反应扩散制造各种珊瑚、使用几何节点图生成树叶、花朵、海藻、海带、软体动物和水母。

还有各种子生成器（比如生物生成器）就不一一介绍了。

除了这些，Infinigen还包括一个图像渲染与Ground Truth提取程序，主要用于生成下图这些类型的图像。

其中对于前者，系统使用了Blender基于自然规律的路径跟踪渲染器Cycles来渲染图像。

作者介绍，虽然使用Blender开发了Infinigen的程序规则，不过程序生成的很大一部分是在Blender之外完成的。

另外，他们也表示，构建Infinigen是一项极大量的软件工程，光是它代码库的主分支就囊括了40485行代码。

最后，Infinigen在2个Intel Xeon Silver 4114 @ 2.20GHz CPU和1个NVidia GPU上进行了基准测试，生成一对1080p图像的时间（wall time）为3.5小时。

下表是它与现有合成数据集或生成器的比较。

作者表示，从中可以看出，Infinigen最大的优点就是不需要任何外部参考资源库就能程序化地生成无限的自然3D数据，别的都不行。论文地址：
https://arxiv.org/abs/2306.09310
项目主页：
https://infinigen.org/
GitHub地址：
https://github.com/princeton-vl/infinigen

清华&MSRA |使用2D扩散模型生成3D新视点图像

本文提出使用2D扩散模型生成3D感知图像的新模型。文章首次在大规模数据集ImageNet上训练该模型，能产生高质量的图像。

3D-aware Image Generation using 2D Diffusion Models

Jianfeng Xiang, Jiaolong Yang, Binbin Huang, Xin Tong

[Tsinghua University & Microsoft Research Asia & ShanghaiTech University]

【论文链接】https://arxiv.org/pdf/2303.17905.pdf

【项目链接】https://jeffreyxiang.github.io/ivid/

【摘要】本文介绍了一种新颖的3D感知图像生成方法，利用了2D扩散模型。作者将3D感知图像生成任务形式化为多视角2D图像集生成，并进一步发展为序列无条件-有条件多视角图像生成过程。这使得能够利用2D扩散模型提高方法的生成建模能力。此外，文章结合来自单目深度估计器的深度信息，使用仅静态图像构建有条件扩散模型的训练数据。作者在大规模数据集ImageNet上训练我们的方法，这是以前的方法没有涉及的。它产生高质量的图像，明显优于以前的方法。此外，该方法展示了其能力，即使训练图像来自“野外”真实环境中不同的未对准的图像，也能生成具有大视角的实例。

Learning Stereo from Single Images

论文：https://github.com/nianticlabs/stereo-from-mono/

[ECCV 2020] Learning stereo from single images

导读：在进行立体匹配的过程中成对且带标签的训练数据是很难去获取的，对此现有的很多方法都是在虚拟的合成数据（如SceneFlow、FlayingThings3D等数据集）上训练完成的，自然其在实际多样化的场景中泛化迁移能力是很弱的。对此文章通过使用MiDas对任意的输入图像进行深度估计，并将深度图转换到视差图，之后按照视差图对源图像进行变换得到另外一个视图，其中会对生成的另外一个视图进行修复和补偿优化从而构建一个双目立体图像对。自此，双目立体图像对构造完成，接下来便是使用一个双目立体匹配网络在这些数据上进行训练。正是由于训练数据的多样化文章提出的算法相比合成数据上训练得到的匹配网络更加鲁棒。

文章的算法在做立体匹配的时候并没有采用合成数据，而是在多样化真实数据基础上通过策略得到合成的图像对，从而极大增加了网络的泛化能力，下面图中展示的就是两种训练策略的对比：

文章中使用到的风格多样化数据集称之为MfS（Mono for Stereo’ dataset），其中包含的数据集有：COCO 2017 ，Mapillary Vistas，ADE20K ，Depth in the Wild，DIODE 。经过整理之后其中包含的数据总量为：597727。

方法设计

文章算法的整体pipeline见下图所示：

数据生成优化策略

depth sharpening：文章使用的是一个单目深度估计网络进行深度预标注，自然其中的几何约束性比较弱，因而按照深度估计结果对原图向进行warp之后存在一些孤立的像素点（flying points），也就是下图中中间部分的效果：

对此，文章为了解决该问题首先通过Sobel梯度算子去检测那些梯度响应大于3的区域（也就是文章说的flying points），之后将这些点的深度之设置为最近非flying points区域的值。从而实现depth sharpening，在图3中也比较了有无该策略对于做后效果的影响。这部分实现的代码可以参考：

datasets/warp_dataset.py#L112

if not self.disable_sharpening:
# now find disparity gradients and set to nearest – stop flying pixels
edges = sobel(disparity) > 3 # 选择梯度大的区域，大概率为flying points
disparity[edges] = 0 # 将其设置为0
mask = disparity > 0 # 取出需要插值的位置

try:  # 对视差图不为0的区域进行插值，重点关注的就是flying points
    disparity = griddata(np.stack([self.ys[mask].ravel(), self.xs[mask].ravel()], 1),
                         disparity[mask].ravel(), np.stack([self.ys.ravel(),
                                                            self.xs.ravel()], 1),
                         method='nearest').reshape(self.feed_height, self.process_width)
except (ValueError, IndexError) as e:
    pass  # just return disparity

occlusion和collision区域处理:

对于这一部分的代码可以参考下面的实现过程：

# datasets/warp_dataset.py#L227
def project_image(self, image, disp_map, background_image):

    image = np.array(image)
    background_image = np.array(background_image)

    # set up for projection
    warped_image = np.zeros_like(image).astype(float)
    warped_image = np.stack([warped_image] * 2, 0)
    pix_locations = self.xs - disp_map  # 根据视差计算新的坐标

    # find where occlusions are, and remove from disparity map
    mask = self.get_occlusion_mask(pix_locations)  # 根据可见性准则获取occlusion mask（对应部分为0）
    masked_pix_locations = pix_locations * mask - self.process_width * (1 - mask)

    # do projection - linear interpolate up to 1 pixel away
    weights = np.ones((2, self.feed_height, self.process_width)) * 10000

    for col in range(self.process_width - 1, -1, -1):  # 按照有效像素进行插值得到右视图
        loc = masked_pix_locations[:, col]
        loc_up = np.ceil(loc).astype(int)
        loc_down = np.floor(loc).astype(int)
        weight_up = loc_up - loc
        weight_down = 1 - weight_up

        mask = loc_up >= 0
        mask[mask] = \
            weights[0, np.arange(self.feed_height)[mask], loc_up[mask]] > weight_up[mask]
        weights[0, np.arange(self.feed_height)[mask], loc_up[mask]] = \
            weight_up[mask]
        warped_image[0, np.arange(self.feed_height)[mask], loc_up[mask]] = \
            image[:, col][mask] / 255.

        mask = loc_down >= 0
        mask[mask] = \
            weights[1, np.arange(self.feed_height)[mask], loc_down[mask]] > weight_down[mask]
        weights[1, np.arange(self.feed_height)[mask], loc_down[mask]] = weight_down[mask]
        warped_image[1, np.arange(self.feed_height)[mask], loc_down[mask]] = \
            image[:, col][mask] / 255.

    weights /= weights.sum(0, keepdims=True) + 1e-7  # normalise
    weights = np.expand_dims(weights, -1)
    warped_image = warped_image[0] * weights[1] + warped_image[1] * weights[0]  # 按照插值权重进行融合
    warped_image *= 255.

    # now fill occluded regions with random background
    if not self.disable_background:  # occlusion部分补充
        warped_image[warped_image.max(-1) == 0] = background_image[warped_image.max(-1) == 0]

    warped_image = warped_image.astype(np.uint8)

    return warped_image

实验结果

文章提出的两种数据优化策略，其有效性对比见下表所示：

立体匹配数据生成方法在最后性能上的比较：

文章的方法与基准的对比：

Lama：《Resolution-robust Large Mask Inpainting with Fourier Convolutions》解读及实操

最近任务需求跟图像inpainting相关，因此调研使用了多个较新的开源模型，例如crfill、RePaint、Lama等。综合比较之下Lama的速度、效果都是最佳的，并且支持自定义输入尺寸进行推理（而非必须固定输入尺寸）。因此结合Lama论文进行实操，记录如下。

一、总体方法 & 创新点

1、总体方法流程：

对于输入原图 x ，使用一个二进制掩膜 m 进行遮罩 x ⊙ m ，形成一个四通道的输入tensor ：

x′ = stack(x ⊙ m, m)

再使用一个前向infer网络fθ(·)（也是一个生成器），以全卷积方式修复获得一个三通道彩色图像。

训练过程也是基于“图像与掩膜”这样的pair数据进行的。

2、创新点：

1）旧有方法都不具备足够广泛的感受野，因此对于大分辨率的图像或是大范围的inpainting而言，很容易会被局部附近的细节或干脆是mask所影响导致效果差。因此Lama考虑让模型在网络初始阶段就拥有更大的感受野，提出了基于快速傅立叶卷积（FFC）构造的网络结构。

2）损失函数：利用预训练分割网络进行特征提取实现损失函数构建，服务于大感受野和大掩膜

3）mask生成方法：动态的生成大掩膜，实现类似数据增强的效果

二、具体方法

1、Baseline：

图像与掩膜组成pair对输入网络并经过下采样后，进入FFC残差块。

在FFC块中，输入tensor被划分为两个分支进行运算。Local分支使用常规卷积；Global分支使用Real FFT进行全局上下文关注。其中在Global分支中经历了Real FFT2d和Inverse Real FFT2d的操作，实现了图像重建，具体张量变化看见论文2.1中的a)、 b)、c)。在FFC的输出中两分支进行结果合并。

2、损失函数

首先需要明确的是，对一个被掩膜遮盖的区域其实可以有多种合理的填充结果，就像口罩下的长相谁也无法准确预测。所以一旦掩膜变大，那么loss就必须被更加合理地设置以避免不符合事物逻辑的生成。

1）高感受野知觉损失 HRFPL

HRFPL是通过预训练的基础网络对输入图像x和生成图像x尖进行特征相似的计算。具体来说是使用空洞卷积或傅立叶卷积构建的HRF进行逐像素计算，然后M代表两阶段均值操作，即先取同层均值再取层间均值。

作者认为选取一个合适的预训练网络对于 HRFPL的效果至关重要。例如分类网络更关注局部的细节纹理，而难以理解全局的结构信息，缺乏对整体的认知。而分割模型则相反，具有更好的效果。

2）对抗损失

作者定义了一个在局部补丁级别上工作的鉴别器Dξ（·），用于区分“真实”和“虚假”补丁。对于输入pair对中的原图和掩膜图片，将原图上被掩膜覆盖的区域标记为“real”标签，将生成图片上对应区域标记为“fake”标签。

3）总体损失

在总体损失中，作者还使用

进行梯度惩罚，和基于识别器的感知实际损失或所谓的特征匹配损失-感知鉴别器网络LDiscPL的特征损失。众所周知，LDiscPL可以稳定训练，在某些情况下性能略有提高。

LAdv和LDiscPL负责生成自然外观当地细节，而LHRFPL负责监督全局结构的信号和一致性。

3、训练中的动态掩膜生成

作者认为掩膜的生成类似于数据增强，对模型的效果非常重要。作者采取了多种大掩膜生成方式，但也同时注意避免生成大于原始图像50%的掩膜。

三、实验与数据

训练使用Places和CelebA进行。下图结果中与其他模型在不同大小的掩膜上进行了对比，红色箭头代表表现逊于Lama，绿色则表示优于Lama。可以看到Lama在少参数量的情况下效果基本达到最优。

消融实验也证明了FFC在大掩膜上的效果。

论文还提供了大量实验细节，感兴趣的请查看原文。

四、使用记录

官方开源的模型中提供了一个名为Big-Lama的模型权重，效果最优。因为相比普通Lama，其生成器结构更复杂、训练数据规模更大。该模型是根据来自Places Challenge数据集的4.5M张图像的子集进行训练的，在八台NVidia V100 GPU上接受了约240小时的train。

我在Big-Lama上对infer refine的参数、mask生成方式做了反复测试，直观感受是其修复效果在其较快的infer速度上的确已经相当不错。同时我也尝试在训练中修改了mask的动态生成策略，实现了自定义mask生成来贴合我的任务场景，但考虑到训练成本尚未进行大规模训练，欢迎大家交流。