2023年7月 – chenpaopao

eNERF-实时三维人体重建

浙大三维视觉团队提出ENeRF，首次实现动态场景的实时照片级渲染 (SIGGRAPH Asia 2022)

论文链接：https://arxiv.org/abs/2112.01517

论文代码：https://github.com/zju3dv/ENeRF

论文主页：https://zju3dv.github.io/enerf/

摘自： https://zhuanlan.zhihu.com/p/586595657

1.1 论文的问题描述

输入是多个相机在固定机位拍摄的某个动态场景的多目视频，论文希望能生成该动态场景的自由视点视频。该问题有许多应用，例如虚拟呈现，电影游戏制作等。

1.2 当前方法在这个问题上的局限性

为了支持自由视点视频的应用，自由视点视频的渲染效果需要足够逼真，生成制作需要足够快，生成后在用户端的渲染也需要足够快。

最近一些方法基于隐式神经表示，利用体渲染技术优化场景表示，从而制作自由视点视频。D-NeRF[Pumarola et al., CVPR 2021] 利用隐式神经表示恢复了动态场景的motions，实现了照片级别的真实渲染。但是，这一类方法很难恢复复杂场景的motions，他们训练一个模型需要从几小时到几天不等的时间。此外，渲染一张图片通常需要分钟级的时间。

基于图像的渲染技术克服了以上方法的一些问题。第一，对于动态场景，IBRNet[Wang et al., CVPR 2021]能够把每一帧图像都当作单独的场景处理，从而不需要恢复场景的motions。第二，基于图像的渲染技术可以通过预训练模型避免每一时刻的重新训练。但是，IBRNet渲染一张图片仍然需要分钟级的时间。

1.3 我们的观察和对问题的解决

为了解决基于图像的渲染技术渲染过慢的问题，论文提出结合显式表示和隐式表示两者的优点。具体而言，我们观察到通过MVS方法预测显式表示，例如深度图像，通常是很快的。利用此显式表示去引导隐式表示的体渲染过程中的采样，能够大幅降低此前方法在空间内密集采样点（包括空地方的点和被遮挡的点）造成的计算开销，从而实现加速。

2. 论文方法

2.1 基于MVS方法预测新视角的深度图像

我们首先使用MVS方法预测新视角的深度图像。给定标定好的相机姿态，我们利用待渲染的视角空间上临近的图像建立级联代价体，使用3D卷积网络处理代价体获得深度图像以及置信区间。

2.2 在场景的表面附近预测辐射场

给定上一步预测的深度置信区间，我们在此区间内采样若干点，通过图像特征和3D卷积网络得到的3D特征体，泛化的预测这些采样点的辐射场和密度。

在深度区间内采样少量点，利用图像特征预测这些点的辐射场，使用体渲染技术得到渲染图像

2.3 使用RGB图像优化ENeRF

在得到渲染结果后，我们使用图像的均方差损失函数端到端的优化网络参数。我们实验发现仅使用RGB图像优化网络参数即可获得高质量的渲染结果。

3. 实验分析

3.1 消融实验分析

我们提供了消融实验分析去研究论文方法的每一步带来的影响。

第一行展示了基线方法（与MVSNeRF[Chen et al., ICCV 2021]相似），每条光线采样128个点，这样有着好的渲染结果，但是渲染速度比较慢。直接降低采样点的数量后，会导致渲染质量显著下降。使用论文提出的采样方法（Depth-gui.）后，能提升渲染质量，同时基本保持比较快的渲染速度。

为了进一步提高渲染速度，论文使用了级联的设计（Cascade Cost Volume），通过我们仔细的设计，我们将速度从9.7FPS提升到20.31FPS。

此外我们研究了额外使用地面真值深度图像来监督网络学习，我们发现它对最后的渲染质量不会有很大的影响，这说明了论文方法使用RGB图像端到端优化的鲁棒性。

3.2 与SOTA方法的对比

我们在DTU，NeRF Synthetic以及Real Forward-facing静态场景数据集以及ZJUMoCap和DynamicCap动态场景数据集上进行了和之前方法的比较，我们在渲染速度上实现了较大的提升，并且在渲染质量上取得了有竞争力的结果。

条件控制扩散模型

参考：https://www.zhangzhenhu.com/aigc/Guidance.html

无论是 DDPM 还是 DDIM，这些扩散模型在生成图片时，都是输入一个随机高斯噪声数据，然后逐步的产出一张有意的真实图片。这个过程中每一步都是一个随机过程，所以每次执行产出的图片都不一样，生成的图像多样性非常好。但这也是一个缺点：生成的图像不可控，无法控制这个生成过程并令其生成我们想要的图像内容。

鉴于此，很多研究中在如何控制图像生成过程方面提出了很多有效的方案。直觉的讲，我们可以在扩散过程中引入额外的信息来指导或者说控制整个扩散模型，假设这个额外的信息为 y，它可以是一段文本、一张图片或者图像的类别标签。引入 y 之后的模型就变成了一个以 y 为条件的条件概率分布。

自然而然地，接下来就需要探讨，引入y 之后对前向扩散过程和逆向采用过程分别有什么影响，需要做出什么调整。首先看下对前向扩散过程的影响，先说结论：引入 y 之后，对前向扩散过程没有任何影响。其实，从直觉上讲，前向扩散过程是对原始图片加噪声，直至变成纯噪声，这个过程显然与 y没有任何关系。但做研究要严谨，还是需要给出数学证明的。证明过程在论文 1 中已经给出。

条件扩散模型的前向过程与非条件扩散模型的前向过程完全一样。

1、classifier guidance

OpenAI 的团队在 2021 年发表一篇论文 1 : A. Diffusion models beat gans on image synthesis ，在这篇论文中，提出一种利用图片类别标签指导图像生成的方案，称为 classifier guidance，通过这种改进使扩散模型生成图像的质量大幅提升，并在 IS 和 FID 评分上超过了 GAN 模型，所以你看论文的名字，简单直接。

论文的源码在： https://github.com/openai/guided-diffusion 。

实际上这篇论文做了很多改进，比如对UNET也做了改进。但这里我们只关注 guidance 部分。原论文的推导过程比较繁杂，这里我们采用另一篇文章 2 的推导方案，直接从 score function 的角度去理解。

虽然引入 classifier guidance 效果很明显，但缺点也很明显：

需要额外一个分类器模型，极大增加了成本，包括训练成本和采样成本。
分类器的类别毕竟是有限集，不能涵盖全部情况，对于没有覆盖的标签类别会很不友好

后来《More Control for Free! Image Synthesis with Semantic Diffusion Guidance》推广了“Classifier”的概念，使得它也可以按图、按文来生成。Classifier-Guidance方案的训练成本比较低（熟悉NLP的读者可能还会想起与之很相似的PPLM模型），但是推断成本会高些，而且控制细节上通常没那么到位。

2、Classifier-free guidance

引导函数的方法存在一些问题：1）额外的计算量比较多；2）引导函数和扩散模型分别进行训练，不利于进一步扩增模型规模，不能够通过联合训练获得更好的效果。

提出了一个等价的结构替换了外部的classifier，从而可以直接使用一个扩散模型来做条件生成任务。

实际做法只是改变了模型输入的内容，有conditional(随机高斯噪声+引导信息的embedding)和unconditional两种采样输入。两种输入都会被送到同一个diffusion model，从而让其能够具有无条件和有条件生成的能力。

3、CLIP Guidance

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., and Sutskever, I. Learning transferable visual models from natural language supervision. arXiv:2103.00020, 2021

Prafulla Dhariwal and Alex Nichol. Diffusion models beat gans on image synthesis. 2021. arXiv:2105.05233.[2](1,2)

Calvin Luo. Understanding diffusion models: a unified perspective. 2022. arXiv:2208.11970.[3]

Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. 2022. arXiv:2207.12598.[4]

Alex Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, and Mark Chen. Glide: towards photorealistic image generation and editing with text-guided diffusion models. 2022. arXiv:2112.10741.[5]

Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with clip latents. 2022. arXiv:2204.06125.[6]

Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S. Sara Mahdavi, Rapha Gontijo Lopes, Tim Salimans, Jonathan Ho, David J Fleet, and Mohammad Norouzi. Photorealistic text-to-image diffusion models with deep language understanding. 2022. arXiv:2205.11487.

去噪扩散隐式模型（Denoising Diffusion Implicit Models,DDIM）

Paper: https://arxiv.org/abs/2010.02502

Code: https://github.com/ermongroup/ddim

摘自：扩散模型之DDIM

在 DDPM 中，生成过程被定义为马尔可夫扩散过程的反向过程，在逆向采样过程的每一步，模型预测噪声

DDIM 的作者发现，扩散过程并不是必须遵循马尔科夫链，在之后的基于分数的扩散模型以及基于随机微分等式的理论都有相同的结论。基于此，DDIM 的作者重新定义了扩散过程和逆过程，并提出了一种新的采样技巧，可以大幅减少采样的步骤，极大的提高了图像生成的效率，代价是牺牲了一定的多样性，图像质量略微下降，但在可接受的范围内。

对于扩散模型来说，一个最大的缺点是需要设置较长的扩散步数才能得到好的效果，这导致了生成样本的速度较慢，比如扩散步数为1000的话，那么生成一个样本就要模型推理1000次。这篇文章我们将介绍另外一种扩散模型DDIM（Denoising Diffusion Implicit Models），DDIM和DDPM有相同的训练目标，但是它不再限制扩散过程必须是一个马尔卡夫链，这使得DDIM可以采用更小的采样步数来加速生成过程，DDIM的另外是一个特点是从一个随机噪音生成样本的过程是一个确定的过程（中间没有加入随机噪音）。

前提条件：1.马尔可夫过程。2.微小噪声变化。

步骤一：在DDPM中我们基于初始图像状态以及最终高斯噪声状态，通过贝叶斯公式以及多元高斯分布的散度公式，可以计算出每一步骤的逆向分布。之后继续重复上述对逆向分布的求解步骤，最终实现从纯高斯噪声，恢复到原始图片的步骤。

步骤二：模型优化部分通过最小化分布的交叉熵，预测出模型逆向分布的均值和方差，将其带入步骤一中的推理过程即可。

文章中存在的一个核心问题是：由于1.每个步骤都是马尔可夫链。2.每次加特征的均值和方差都需要控制在很小的范围下。因此我们不得不每一步都进行逆向的推理和运算，导致模型整体耗时很长。本文核心针对耗时问题进行优化，一句话总结：在满足DDPM中逆向推理的条件下，找到一种用 xt 和 x0 表达 xt−1 且能能大幅减少计算量的推理方式。

代码实现：

DDIM和DDPM的训练过程一样，所以可以直接在DDPM的基础上加一个新的生成方法（这里主要参考了DDIM官方代码以及diffusers库），具体代码如下所示：

class GaussianDiffusion:
    def __init__(self, timesteps=1000, beta_schedule='linear'):
     pass

    # ...
        
 # use ddim to sample
    @torch.no_grad()
    def ddim_sample(
        self,
        model,
        image_size,
        batch_size=8,
        channels=3,
        ddim_timesteps=50,
        ddim_discr_method="uniform",
        ddim_eta=0.0,
        clip_denoised=True):
        # make ddim timestep sequence
        if ddim_discr_method == 'uniform':
            c = self.timesteps // ddim_timesteps
            ddim_timestep_seq = np.asarray(list(range(0, self.timesteps, c)))
        elif ddim_discr_method == 'quad':
            ddim_timestep_seq = (
                (np.linspace(0, np.sqrt(self.timesteps * .8), ddim_timesteps)) ** 2
            ).astype(int)
        else:
            raise NotImplementedError(f'There is no ddim discretization method called "{ddim_discr_method}"')
        # add one to get the final alpha values right (the ones from first scale to data during sampling)
        ddim_timestep_seq = ddim_timestep_seq + 1
        # previous sequence
        ddim_timestep_prev_seq = np.append(np.array([0]), ddim_timestep_seq[:-1])
        
        device = next(model.parameters()).device
        # start from pure noise (for each example in the batch)
        sample_img = torch.randn((batch_size, channels, image_size, image_size), device=device)
        for i in tqdm(reversed(range(0, ddim_timesteps)), desc='sampling loop time step', total=ddim_timesteps):
            t = torch.full((batch_size,), ddim_timestep_seq[i], device=device, dtype=torch.long)
            prev_t = torch.full((batch_size,), ddim_timestep_prev_seq[i], device=device, dtype=torch.long)
            
            # 1. get current and previous alpha_cumprod
            alpha_cumprod_t = self._extract(self.alphas_cumprod, t, sample_img.shape)
            alpha_cumprod_t_prev = self._extract(self.alphas_cumprod, prev_t, sample_img.shape)
    
            # 2. predict noise using model
            pred_noise = model(sample_img, t)
            
            # 3. get the predicted x_0
            pred_x0 = (sample_img - torch.sqrt((1. - alpha_cumprod_t)) * pred_noise) / torch.sqrt(alpha_cumprod_t)
            if clip_denoised:
                pred_x0 = torch.clamp(pred_x0, min=-1., max=1.)
            
            # 4. compute variance: "sigma_t(η)" -> see formula (16)
            # σ_t = sqrt((1 − α_t−1)/(1 − α_t)) * sqrt(1 − α_t/α_t−1)
            sigmas_t = ddim_eta * torch.sqrt(
                (1 - alpha_cumprod_t_prev) / (1 - alpha_cumprod_t) * (1 - alpha_cumprod_t / alpha_cumprod_t_prev))
            
            # 5. compute "direction pointing to x_t" of formula (12)
            pred_dir_xt = torch.sqrt(1 - alpha_cumprod_t_prev - sigmas_t**2) * pred_noise
            
            # 6. compute x_{t-1} of formula (12)
            x_prev = torch.sqrt(alpha_cumprod_t_prev) * pred_x0 + pred_dir_xt + sigmas_t * torch.randn_like(sample_img)

            sample_img = x_prev
            
        return sample_img.cpu().numpy()

这里以MNIST数据集为例，训练的扩散步数为500，直接采用DDPM（即推理500次）生成的样本如下所示：

同样的模型，我们采用DDIM来加速生成过程，这里DDIM的采样步数为50，其生成的样本质量和500步的DDPM相当：

完整的代码示例见https://github.com/xiaohu2015/nngen。

其它：重建和插值

如果从直观上看，DDIM的加速方式非常简单，直接采样一个子序列，其实论文DDPM+也采用了类似的方式来加速。另外DDIM和其它扩散模型的一个较大的区别是其生成过程是确定性的。

Claude2：ChatGPT的替代产品知识更新到23年，代码数学显著提升，免费可用

网址：https://claude.ai/chats

Anthropic是一家专注于人工智能（AI）研究的公司，由OpenAI的前首席科学家Ilya Sutskever和Dario Amodei共同创立。Claude是Anthropic公司发布的基于transformer架构的大语言模型，被认为是最接近ChatGPT的商业产品。

Claude模型可以在Slack中免费使用，一度是我们团队使用的ChatGPT的最强替代者，对中文支持很好，意图理解也非常优秀。Claude 2的发布应该会很快会在Slack中体现。本次也推出了Claude Chat网页版，完全免费，支持直接根据PDF总结结果（最高不超过10MB的文档，单词数应该是7.5万以内都可以）。

Claude模型介绍

Claude是Anthropic公司开发的一系列大型语言模型。这些模型使用了Transformer架构，并通过无监督学习、人类反馈强化学习（RLHF）进行训练。Claude模型可以理解和生成人类语言，用于各种任务，如回答问题、写作、编辑和编程。

大多数人使用Claude的感受应该都是它与ChatGPT很像，对意图的识别和文本的生成都有很好的支持。相比较免费版本的ChatGPT（训练数据在2021年9月之前），Claude模型中包含更多的最新数据，因此就免费版本来说，Claude更好。

Claude 2 在哪些方面得到了加强？

总的来说，Claude 2 注重提高以下能力：

Anthropic 致力于提高 Claude 作为编码助理的能力，Claude 2 在编码基准和人类反馈评估方面性能显著提升。
长上下文（long-context）模型对于处理长文档、少量 prompt 以及使用复杂指令和规范进行控制特别有用。Claude 的上下文窗口从 9K token 扩展到了 100K token（Claude 2 已经扩展到 200K token，但目前发布版本仅支持 100K token）。
以前的模型经过训练可以编写相当短的回答，但许多用户要求更长的输出。Claude 2 经过训练，可以生成最多 4000 个 token 的连贯文档，相当于大约 3000 个单词。
Claude 通常用于将长而复杂的自然语言文档转换为结构化数据格式。Claude 2 经过训练，可以更好地生成 JSON、XML、YAML、代码和 Markdown 格式的正确输出。
虽然 Claude 的训练数据仍然主要是英语，但 Claude 2 的训练数据中非英语数据比例已经明显增加。
Claude 2 的训练数据包括 2022 年和 2023 年初更新的数据。这意味着它知道最近发生的事件，但它仍然可能会产生混淆。

该研究进行了一系列评估实验来测试 Claude 2 的性能水平，包括对齐评估和能力评估两部分。

在模型对齐方面，该研究针对大模型的三个关键要求做了具体评估，包括：遵循指令、生成内容有用（helpfulness）；生成内容无害（harmlessness）；生成内容准确、真实（honesty）。

Claude 2和之前的Claude模型都是通用的大型语言模型，使用Transformer架构。Claude 2是该公司迄今为止最强大的系统，它代表了从早期的“有用且无害”的语言助手模型到现在的连续演进。Claude 2并没有从先前模型和研究中带来变革性的变化，而是代表了一种连续的演变和一系列小而有意义的改进，这些改进建立在Anthropic过去2年多的研究基础之上。

Claude 2有几个非常重要的更新值得关注。

编码能力提升很大：

Claude 2在Codex HumanEval（一项Python编码测试）上的得分从56.0%提高到71.2%。官方的演示视频中，你可以直接上传一个代码文件（js库），然后Claude就可以自动分析代码并给出这个库的使用方法。

最高支持10万tokens的输入和4000个tokens的输出：

尽管很早之前Anthropic就生成Claude最高支持10万tokens的输入，但是一直没有发布。今天的Claude2宣布正式支持10万tokens的输入，并且可以一次性输出4000个tokens，大约3000多个单词。

这应该是目前最高的上下文限制了（超过GPT-4的32K）。

更新的训练数据

这一点比ChatGPT好，尽管付费版本的GPT-4支持插件方式来访问最新的数据。但是插件尤其是网络插件很多时候会出问题。而Claude2则是已经使用了2023年初的新数据来训练模型了。所以，模型本身对2023年之前发生的重要事情与内容应该都是知道的。

尽管ClaudeAI不支持插件。但是官方说，它是支持与搜索工具连接的，包括网络和数据库等。同时，也可以直接将文档发给Claude来分析。

3D Gaussian Splatting for Real-Time Radiance Field Rendering

项目主页：https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/

ACM 计算机图形学领域最顶级的期刊

代码：https://github.com/graphdeco-inria/gaussian-splatting

辐射场方法最近彻底改变了用多张照片或视频捕获的场景的新颖视图合成。然而实现高视觉质量仍然需要训练和渲染成本高昂的神经网络，而最近更快的方法不可避免地会牺牲速度来换取质量。对于无界且完整的场景（而不是孤立的物体）和 1080p 分辨率渲染，当前任何方法都无法实现实时显示速率。我们引入了三个关键要素，使我们能够在保持竞争性训练的同时实现最先进的视觉质量，重要的是允许以 1080p 分辨率进行高质量实时 (≥30fps) 新颖视图合成。首先，从相机校准期间产生的稀疏点开始，我们用 3D 高斯表示场景，保留连续体积辐射场的所需属性以进行场景优化，同时避免在空白空间中进行不必要的计算；其次，我们对 3D 高斯进行交错优化/密度控制，特别是优化各向异性协方差以实现场景的准确表示；第三，我们开发了一种快速可见性感知渲染算法，该算法支持anisotropic（各向异性） splatting，既加速训练又允许实时渲染。我们在几个已建立的数据集上展示了最先进的视觉质量和实时渲染

我们方法的输入是一组静态场景的图像，以及由 SfM 校准的相应摄像机，这会产生稀疏点云作为side effect。从这些点出发，我们创建了一组 3D 高斯，由位置（均值）、协方差矩阵和不透明度定义，这允许非常灵活的优化机制。这会产生 3D 场景的相当紧凑的表示，部分原因是高度各向异性的体积片可用于紧凑地表示精细结构。辐射场的方向外观分量（颜色）通过球谐函数 (SH) 表示，遵循标准实践。我们的算法继续通过 3D 高斯参数的一系列优化步骤来创建辐射场表示，即位置、协方差和 SH 系数与高斯密度自适应控制的操作交织在一起。我们方法效率的关键是基于图块的光栅化器，它允许各向异性图块的混合，通过快速排序尊重可见性顺序。快速光栅化器还包括通过跟踪累积值的快速向后传递，而对可以接收梯度的高斯数量没有限制。我们的方法的概述如上图所示。