人工智能 – 第 26 页

神经辐射场(NeRF)-代码解析

参考代码：Nerf-pl: https://github.com/kwea123/nerf_pl

位置编码

NeRF 的输入是一个五维向量: （物体）空间点的位置x=(x,y,z) 和（相机）观测方向d=(θ,ϕ)。NeRF 使用了位置编码（positional encoding）把一维的位置坐标，转换为高维的表征。例如 p∈RL, 通过函数γ(⋅) 映射到R2L 空间中，这里L 指的是编码的数量，对于位置坐标，L=10；对于观测角度，L=4。

代码实现

 # 类的定义
class Embedding(nn.Module):
    def __init__(self, in_channels, N_freqs, logscale=True):
        """
        Defines a function that embeds x to (x, sin(2^k x), cos(2^k x), ...)
        in_channels: number of input channels (3 for both xyz and direction)
        """
        super(Embedding, self).__init__()
        self.N_freqs = N_freqs
        self.in_channels = in_channels
        self.funcs = [torch.sin, torch.cos]
        self.out_channels = in_channels*(len(self.funcs)*N_freqs+1)
 
        if logscale:
            self.freq_bands = 2**torch.linspace(0, N_freqs-1, N_freqs)
        else:
            self.freq_bands = torch.linspace(1, 2**(N_freqs-1), N_freqs)
 
    def forward(self, x):
        """
        Embeds x to (x, sin(2^k x), cos(2^k x), ...) 
        Different from the paper, "x" is also in the output
        See https://github.com/bmild/nerf/issues/12
 
        Inputs:
            x: (B, self.in_channels)
 
        Outputs:
            out: (B, self.out_channels)
        """
        out = [x]
        for freq in self.freq_bands:
            for func in self.funcs:
                out += [func(freq*x)]
 
        return torch.cat(out, -1)
 
# 使用
 
class NeRFSystem(LightningModule):
    def __init__(self, hparams):
        ...
        self.embedding_xyz = Embedding(3, 10) # 10 is the default number
        self.embedding_dir = Embedding(3, 4) # 4 is the default number
        self.embeddings = [self.embedding_xyz, self.embedding_dir]
        ...

解释

对于位置坐标 (x,y,z)，每一个值都使用 10 个 sin 和 10 个cos 频率进行拓展。例如 Embeds x to (x, sin (2^k x), cos (2^k x), …) 。再连接一个本身。因此每一个值都拓展为 10+10+1=21维。对于位置坐标的三个值，总共有 3×21=63 维。
对于相机角度 (θ,ϕ)，也是类似，使用 4 个sin 和 4 个 cos 频率进行拓展。这里输入保留了一位，实际输入是(θ,ϕ,1)。再连接一个本身。因此每一个值都拓展为4+4+1=9 维。对于相机角度的三个值，总共有 3×9=27 维。

NeRF 网络

NeRF 网络默认是一个多层的 MLP。中间第四层有 skip connection，构成了一个 ResNet 的结构。网络的宽度默认为 256。

输入：

位置坐标的表征（in_channels_xyz）：63d

输出：

体密度σ：1d
RGB 色彩值C: 3d

网络结构：
FC 指的是带 ReLU 的全连接层。Linear 层指的是单纯的线性方程。

代码实现

class NeRF(nn.Module):
    def __init__(self,
                 D=8, W=256,
                 in_channels_xyz=63, in_channels_dir=27, 
                 skips=[4]):
        """
        D: number of layers for density (sigma) encoder
        W: number of hidden units in each layer
        in_channels_xyz: number of input channels for xyz (3+3*10*2=63 by default)
        in_channels_dir: number of input channels for direction (3+3*4*2=27 by default)
        skips: add skip connection in the Dth layer
        """
        super(NeRF, self).__init__()
        self.D = D
        self.W = W
        self.in_channels_xyz = in_channels_xyz
        self.in_channels_dir = in_channels_dir
        self.skips = skips
 
        # xyz encoding layers
        for i in range(D):
            if i == 0:
                layer = nn.Linear(in_channels_xyz, W)
            elif i in skips:
                layer = nn.Linear(W+in_channels_xyz, W)
            else:
                layer = nn.Linear(W, W)
            layer = nn.Sequential(layer, nn.ReLU(True))
            setattr(self, f"xyz_encoding_{i+1}", layer)
        self.xyz_encoding_final = nn.Linear(W, W)
 
        # direction encoding layers
        self.dir_encoding = nn.Sequential(
                                nn.Linear(W+in_channels_dir, W//2),
                                nn.ReLU(True))
 
        # output layers
        self.sigma = nn.Linear(W, 1)
        self.rgb = nn.Sequential(
                        nn.Linear(W//2, 3),
                        nn.Sigmoid())
 
    def forward(self, x, sigma_only=False):
        """
        Encodes input (xyz+dir) to rgb+sigma (not ready to render yet).
        For rendering this ray, please see rendering.py
 
        Inputs:
            x: (B, self.in_channels_xyz(+self.in_channels_dir))
               the embedded vector of position and direction
            sigma_only: whether to infer sigma only. If True,
                        x is of shape (B, self.in_channels_xyz)
 
        Outputs:
            if sigma_ony:
                sigma: (B, 1) sigma
            else:
                out: (B, 4), rgb and sigma
        """
        if not sigma_only:
            input_xyz, input_dir = \
                torch.split(x, [self.in_channels_xyz, self.in_channels_dir], dim=-1)
        else:
            input_xyz = x
 
        xyz_ = input_xyz
        for i in range(self.D):
            if i in self.skips:
                xyz_ = torch.cat([input_xyz, xyz_], -1)
            xyz_ = getattr(self, f"xyz_encoding_{i+1}")(xyz_)
 
        sigma = self.sigma(xyz_)
        if sigma_only:
            return sigma
 
        xyz_encoding_final = self.xyz_encoding_final(xyz_)
 
        dir_encoding_input = torch.cat([xyz_encoding_final, input_dir], -1)
        dir_encoding = self.dir_encoding(dir_encoding_input)
        rgb = self.rgb(dir_encoding)
 
        out = torch.cat([rgb, sigma], -1)
 
        return out

体素渲染

假设我们已经得到了一束光线上所有的位置对应的色彩和体密度。我们需要对这束光线进行后处理（体素渲染），得到最终在图片上的像素值。

# z_vals: (N_rays, N_samples_) depths of the sampled positions
# noise_std: factor to perturb the model's prediction of sigma（提升模型鲁棒性？？）
 
# Convert these values using volume rendering (Section 4)
deltas = z_vals[:, 1:] - z_vals[:, :-1] # (N_rays, N_samples_-1)
delta_inf = 1e10 * torch.ones_like(deltas[:, :1]) # (N_rays, 1) the last delta is infinity
deltas = torch.cat([deltas, delta_inf], -1)  # (N_rays, N_samples_)
 
# Multiply each distance by the norm of its corresponding direction ray
# to convert to real world distance (accounts for non-unit directions).
deltas = deltas * torch.norm(dir_.unsqueeze(1), dim=-1)
 
noise = torch.randn(sigmas.shape, device=sigmas.device) * noise_std
 
# compute alpha by the formula (3)
alphas = 1-torch.exp(-deltas*torch.relu(sigmas+noise)) # (N_rays, N_samples_)
alphas_shifted = \
    torch.cat([torch.ones_like(alphas[:, :1]), 1-alphas+1e-10], -1) # [1, a1, a2, ...]
weights = \
    alphas * torch.cumprod(alphas_shifted, -1)[:, :-1] # (N_rays, N_samples_)
weights_sum = weights.sum(1) # (N_rays), the accumulated opacity along the rays
                                # equals "1 - (1-a1)(1-a2)...(1-an)" mathematically
if weights_only:
    return weights
 
# compute final weighted outputs
rgb_final = torch.sum(weights.unsqueeze(-1)*rgbs, -2) # (N_rays, 3)
depth_final = torch.sum(weights*z_vals, -1) # (N_rays)

第二轮渲染

对于渲染的结果，会根据对应的权重，使用 pdf 抽样，得到新的渲染点。例如默认第一轮粗渲染每束光线是 64 个样本点，第二轮再增加 128 个抽样点。

然后使用 finemodel 进行预测，后对所有的样本点（64+128）进行体素渲染。

def sample_pdf(bins, weights, N_importance, det=False, eps=1e-5):
    """
    Sample @N_importance samples from @bins with distribution defined by @weights.
 
    Inputs:
        bins: (N_rays, N_samples_+1) where N_samples_ is "the number of coarse samples per ray - 2"
        weights: (N_rays, N_samples_)
        N_importance: the number of samples to draw from the distribution
        det: deterministic or not
        eps: a small number to prevent division by zero
 
    Outputs:
        samples: the sampled samples
    """
    N_rays, N_samples_ = weights.shape
    weights = weights + eps # prevent division by zero (don't do inplace op!)
    pdf = weights / torch.sum(weights, -1, keepdim=True) # (N_rays, N_samples_)
    cdf = torch.cumsum(pdf, -1) # (N_rays, N_samples), cumulative distribution function
    cdf = torch.cat([torch.zeros_like(cdf[: ,:1]), cdf], -1)  # (N_rays, N_samples_+1) 
                                                               # padded to 0~1 inclusive
 
    if det:
        u = torch.linspace(0, 1, N_importance, device=bins.device)
        u = u.expand(N_rays, N_importance)
    else:
        u = torch.rand(N_rays, N_importance, device=bins.device)
    u = u.contiguous()
 
    inds = searchsorted(cdf, u, side='right')
    below = torch.clamp_min(inds-1, 0)
    above = torch.clamp_max(inds, N_samples_)
 
    inds_sampled = torch.stack([below, above], -1).view(N_rays, 2*N_importance)
    cdf_g = torch.gather(cdf, 1, inds_sampled).view(N_rays, N_importance, 2)
    bins_g = torch.gather(bins, 1, inds_sampled).view(N_rays, N_importance, 2)
 
    denom = cdf_g[...,1]-cdf_g[...,0]
    denom[denom<eps] = 1 # denom equals 0 means a bin has weight 0, in which case it will not be sampled
                         # anyway, therefore any value for it is fine (set to 1 here)
 
    samples = bins_g[...,0] + (u-cdf_g[...,0])/denom * (bins_g[...,1]-bins_g[...,0])
    return samples

Loss

这里直接使用的 MSE loss，对输出的像素值和 ground truth 计算 L2-norm loss.

训练数据

根据前面的介绍，NeRF 实现的，是从【位置坐标 katex 和拍摄角度(θ,ϕ)】到【体密度 (σ) 和 RGB 色彩值 (C)】的映射。根据体素渲染理论，图片中的每一个像素，实质上都是从相机发射出的一条光线渲染得到的。因此，我们首先，需要得到每一个像素对应的光线（ray）, 然后，计算光线上每一个点的【体密度σ) 和 RGB 色彩值 (C)】，最后再渲染得到对应的像素值。

对于训练数据，我们需要拍摄一系列的图片（如 100 张）图片和他们的拍摄相机角度、内参、场景边界（可以使用 COLMAP 获得）。我们需要准备每一个像素对应的光线（ray）信息，这样可以组成成对的训练数据【光线信息 <==> 像素值】。

下面以 LLFFDataset （”datasets/llff.py”）为例，进行分析：

读取的数据（以一张图片为例）：

图片：尺寸是 N_img×C×H×W。其中 C=3 代表了这是 RGB 三通道图片
拍摄角度信息（从 COLMAP 生成）：Nimg×17。前 15 维可以变形为 3×5，代表了相机的 pose，后 2 维是最近和最远的深度。解释： 3×5 pose matrices and 2 depth bounds for each image. Each pose has [R T] as the left 3×4 matrix and [H W F] as the right 3×1 matrix. R matrix is in the form [down right back] instead of [right up back] . （https://github.com/bmild/nerf/issues/34）

拍摄角度预处理

第一步：根据拍摄的尺寸和处理尺寸的关系，缩放相机的焦距。例如：Himg=3024,Wimg=4032,Fimg=3260, 如果我们想处理的尺寸是H=378,W=504 (为了提升训练的速度)，我们需要缩放焦距 F:

# "datasets/llff.py", line：188
    # Step 1: rescale focal length according to training resolution
    H, W, self.focal = poses[0, :, -1] # original intrinsics, same for all images
    assert H*self.img_wh[0] == W*self.img_wh[1], \
        f'You must set @img_wh to have the same aspect ratio as ({W}, {H}) !'
 
    self.focal *= self.img_wh[0]/W

第二步：调整 pose 的方向。在 “poses_bounds.npy” 中，pose 的方向是 “下右后”，我们调整到 “右上后”。同时使用 “center_poses(poses)” 函数，对整个 dataset 的坐标轴进行标准化（？？）。
解释：“poses_avg computes a “central” pose for the dataset, based on using the mean translation, the mean z axis, and adopting the mean y axis as an “up” direction (so that Up x Z = X and then Z x X = Y). recenter_poses very simply applies the inverse of this average pose to the dataset (a rigid rotation/translation) so that the identity extrinsic matrix is looking at the scene, which is nice because normalizes the orientation of the scene for later rendering from the learned NeRF. This is also important for using NDC (Normalized device coordinates) coordinates, since we assume the scene is centered there too.”（https://github.com/bmild/nerf/issues/34）

# "datasets/llff.py", line：195
    # Step 2: correct poses
    # Original poses has rotation in form "down right back", change to "right up back"
    # See https://github.com/bmild/nerf/issues/34
    poses = np.concatenate([poses[..., 1:2], -poses[..., :1], poses[..., 2:4]], -1)
            # (N_images, 3, 4) exclude H, W, focal
    self.poses, self.pose_avg = center_poses(poses)

第三步：令最近的距离约为 1。解释：“The NDC code takes in a “near” bound and assumes the far bound is infinity (this doesn’t matter too much since NDC space samples in 1/depth so moving from “far” to infinity is only slightly less sample-efficient). You can see here that the “near” bound is hardcoded to 1”。For more details on how to use NDC space see https://github.com/bmild/nerf/files/4451808/ndc_derivation.pdf

# "datasets/llff.py", line：205    # Step 3: correct scale so that the nearest depth is at a little more than 1.0    # See https://github.com/bmild/nerf/issues/34    near_original = self.bounds.min()    scale_factor = near_original*0.75 # 0.75 is the default parameter                                        # the nearest depth is at 1/0.75=1.33    self.bounds /= scale_factor    self.poses[..., 3] /= scale_factor

计算光线角度

接下来就是对每一个像素，使用 “get_ray_directions()” 函数计算所对应的光线。这里只需要使用图像的长宽和焦距即可计算

self.directions = get_ray_directions(self.img_wh[1], self.img_wh[0], self.focal) # (H, W, 3)

调用函数：

def get_ray_directions(H, W, focal):
    """
    Get ray directions for all pixels in camera coordinate.
    Reference: https://www.scratchapixel.com/lessons/3d-basic-rendering/
               ray-tracing-generating-camera-rays/standard-coordinate-systems
 
    Inputs:
        H, W, focal: image height, width and focal length
 
    Outputs:
        directions: (H, W, 3), the direction of the rays in camera coordinate
    """
    grid = create_meshgrid(H, W, normalized_coordinates=False)[0]
    i, j = grid.unbind(-1)
    # the direction here is without +0.5 pixel centering as calibration is not so accurate
    # see https://github.com/bmild/nerf/issues/24
    directions = \
        torch.stack([(i-W/2)/focal, -(j-H/2)/focal, -torch.ones_like(i)], -1) # (H, W, 3)
 
    return directions

世界坐标系下的光线
在拿到每一个像素对应的光线角度后，我们需要得到具体的光线信息。首先，先计算在世界坐标系下的光线信息。主要是一个归一化的操作。

Get ray origin and normalized directions in world coordinate for all pixels in one image. Reference: https://www.scratchapixel.com/lessons/3d-basic-rendering/ray-tracing-generating-camera-rays/standard-coordinate-systems

输入：

图像上每一点所对应的光线角度：(H, W, 3) precomputed ray directions in camera coordinate。
相机映射矩阵 c2w：(3, 4) transformation matrix from camera coordinate to world coordinate
输出：

光线原点在世界坐标系中的坐标：(HW, 3), the origin of the rays in world coordinate 在世界坐标系中，归一化的光线角度：(HW, 3), the normalized direction of the rays in world


def get_rays(directions, c2w):
    """
    Get ray origin and normalized directions in world coordinate for all pixels in one image.
    Reference: https://www.scratchapixel.com/lessons/3d-basic-rendering/
               ray-tracing-generating-camera-rays/standard-coordinate-systems
 
    Inputs:
        directions: (H, W, 3) precomputed ray directions in camera coordinate
        c2w: (3, 4) transformation matrix from camera coordinate to world coordinate
 
    Outputs:
        rays_o: (H*W, 3), the origin of the rays in world coordinate
        rays_d: (H*W, 3), the normalized direction of the rays in world coordinate
    """
    # Rotate ray directions from camera coordinate to the world coordinate
    rays_d = directions @ c2w[:, :3].T # (H, W, 3)
    rays_d = rays_d / torch.norm(rays_d, dim=-1, keepdim=True)
    # The origin of all rays is the camera origin in world coordinate
    rays_o = c2w[:, 3].expand(rays_d.shape) # (H, W, 3)
 
    rays_d = rays_d.view(-1, 3)
    rays_o = rays_o.view(-1, 3)
 
    return rays_o, rays_d

NDC 下的光线

NDC (Normalized device coordinates) 归一化的设备坐标系。

首先对光线的边界进行限定：

near, far = 0, 1

然后对坐标进行平移和映射。

def get_ndc_rays(H, W, focal, near, rays_o, rays_d):
    """
    Transform rays from world coordinate to NDC.
    NDC: Space such that the canvas is a cube with sides [-1, 1] in each axis.
    For detailed derivation, please see:
    http://www.songho.ca/opengl/gl_projectionmatrix.html
    https://github.com/bmild/nerf/files/4451808/ndc_derivation.pdf
 
    In practice, use NDC "if and only if" the scene is unbounded (has a large depth).
    See https://github.com/bmild/nerf/issues/18
 
    Inputs:
        H, W, focal: image height, width and focal length
        near: (N_rays) or float, the depths of the near plane
        rays_o: (N_rays, 3), the origin of the rays in world coordinate
        rays_d: (N_rays, 3), the direction of the rays in world coordinate
 
    Outputs:
        rays_o: (N_rays, 3), the origin of the rays in NDC
        rays_d: (N_rays, 3), the direction of the rays in NDC
    """
    # Shift ray origins to near plane
    t = -(near + rays_o[...,2]) / rays_d[...,2]
    rays_o = rays_o + t[...,None] * rays_d
 
    # Store some intermediate homogeneous results
    ox_oz = rays_o[...,0] / rays_o[...,2]
    oy_oz = rays_o[...,1] / rays_o[...,2]
 
    # Projection
    o0 = -1./(W/(2.*focal)) * ox_oz
    o1 = -1./(H/(2.*focal)) * oy_oz
    o2 = 1. + 2. * near / rays_o[...,2]
 
    d0 = -1./(W/(2.*focal)) * (rays_d[...,0]/rays_d[...,2] - ox_oz)
    d1 = -1./(H/(2.*focal)) * (rays_d[...,1]/rays_d[...,2] - oy_oz)
    d2 = 1 - o2
 
    rays_o = torch.stack([o0, o1, o2], -1) # (B, 3)
    rays_d = torch.stack([d0, d1, d2], -1) # (B, 3)
 
    return rays_o, rays_d

训练数据的生成

输出分为两部分：光线的信息，和对应的图片像素值

对于每一束光线，按照【光线原点 (3d), 光线角度 (3d), 最近的边界 (1d), 最远的边界 (1d)】= 8d 的格式存储。
光线对应的像素，RGB=3d 的格式存储。

self.all_rays += [torch.cat([rays_o, rays_d,                                              near*torch.ones_like(rays_o[:, :1]),                                             far*torch.ones_like(rays_o[:, :1])],                                             1)] # (h*w, 8)

NeRF：用深度学习完成3D渲染任务的蹿红

转自：Leviosa

1 引言

NeRF是2020年ECCV论文。仅仅过去不到2年，关于NeRF的论文数量已经十分可观。相比于计算机视觉，尤其是相比于基于深度学习的计算机视觉，计算机图形学是比较困难、比较晦涩的。被深度学习席卷的计算机视觉任务数不胜数，但被深度学习席卷的计算机图形学任务仍然尚少。

由于NeRF及其众多follow-up工作在图形学中非常重要的渲染任务上给出了优秀的结果，可以预见未来用深度学习完成图形学任务的工作会快速增长。今年的GIRAFFE是NeRF的后续工作之一，它摘下2021CVPR的最佳论文奖对整个方向的繁荣都起到积极的推动作用。

本文希望讨论以下问题：

NeRF被提出的基础（2 前NeRF时代）；
NeRF是什么（3 NeRF！）；
NeRF的代表性follow-up工作（4 后NeRF时代）；
包含NeRF的更宽泛的研究方向Neural Rendering的简介（5 不止是NeRF）。

2 前NeRF时代

2.1 传统图形学的渲染

本质上，NeRF做的事情就是用深度学习完成了图形学中的3D渲染任务。那么我们提两个问题。

问题1：3D渲染是要干什么？

看2个比较官方的定义。

MIT计算机图形学课程EECS 6.837对渲染（Rendering）的定义：

“Rendering” refers to the entire process that produces color values for pixels, given a 3D representation of the scene.

综述State of the Art on Neural Rendering对渲染（Rendering）的定义：

The process of transforming a scene definition including cameras, lights, surface geometry and material into a simulated camera image is known as rendering.

也就是说，渲染就是用计算机模拟照相机拍照，它们的结果都是生成一张照片。

用照相机拍照是一个现实世界的物理过程，主要是光学过程，拍照对象是现实世界中真实的万事万物，形成照片的机制主要就是：光经过镜头，到达传感器，被记录下来。

而渲染就是用计算机模拟这一过程，模拟“拍照”的对象是已存在的某种三维场景表示（3D representation of the scene），模拟生成照片的机制是图形学研究人员精心设计的算法。

关键前提：渲染的前提是某种三维场景表示已经存在。渲染一词本身不包办生成三维场景表示。不过，渲染的确与三维场景表示的形式息息相关；因此研究渲染的工作通常包含对三维场景表示的探讨。

问题2：3D渲染是图形学问题，那么原先大家是用什么传统图形学方法实现3D渲染的呢？

主要有两种算法：光栅化（rasterization），光线追踪（ray tracing）；都是对照相机拍照的光学过程进行数学物理建模来实现的。

传统渲染的详细原理参阅此教材。

光栅化是一种前馈过程，几何体被转换为图像域，是上世纪比较早的算法。光线追踪则是将光线从图像像素向后投射到虚拟三维场景中，并通过从与几何体的交点递归投射新光线来模拟反射和折射，有全局光照的优势（能模拟光线的多次反射或折射）。

当下，在学术界，还在研究传统图形学的渲染算法的人应该大部分在搞优化加速，怎么用GPU实时渲染更复杂的场景之类的事儿。在工业界，不少游戏重度依赖渲染技术，所以应该也有不少游戏公司在研究更逼真、更快速、更省算力的渲染算法。去年虚幻引擎出的新款“虚幻引擎5”效果很是震撼，光照、纹理、流体的实时渲染模拟都逼真到了前所未有的新高度，可以看下虚幻引擎官方的宣传视频，真的很不错。

2.2 神经网络侵略3D渲染任务：NeRF呼之欲出

隐式场景表示（implicit scene representation）

基于深度学习的渲染的先驱是使用神经网络隐式表示三维场景。许多3D-aware的图像生成方法使用体素、网格、点云等形式表示三维场景，通常基于卷积架构。而在CVPR 2019上，开始出现使用神经网络拟合标量函数来表示三维场景的工作。

DeepSDF

2019年CVPR的DeepSDF或许是最接近NeRF的先驱工作。

SDF是Signed Distance Function的缩写。DeepSDF通过回归（regress）一个分布来表达三维表面的。如下图所示，SDF>0的地方，表示该点在三维表面外面；SDF<0的地方，表示该点在三维表面里面。回归这一分布的神经网络是多层感知机（Multi-Layer Perceptron，MLP），非常简单原始的神经网络结构。

NeRF比DeepSDF进步的地方就在于，NeRF用RGBσ代替了SDF，所以除了能推理一个点离物体表面的距离，还能推理RGB颜色和透明度，且颜色是view-dependent的（观察视角不同，同一物点的颜色不同），从而实现功能更强大的渲染。

3 NeRF！

建议前往NeRF项目网站查看视频效果图。

3.1 Radiance Fields（RF）

NeRF是Neural Radiance Fields的缩写。其中的Radiance Fields是指一个函数、或者说映射gθ 。

(σ,c)=gθ(x,d)

映射的输入是 x 和d 。 x∈R3是三维空间点的坐标， d∈S2 是观察角度。

映射的输出是 σ 和 c 。 σ∈R+ 是volume density（可以简单理解为不透明度）， c∈R3 是color，即RGB颜色值。

Radiance Fields，或者说映射 gθ ，能对三维场景进行隐式表示（implicit scene representation）。在上一节，我们说过某种三维场景表示正是渲染的前提。实现渲染也是作者提出Radiance Fields这一新型三维场景表示方法的目的所在。

3.2 Neural Radiance Fields（NeRF）

Radiance Fields是映射gθ 。那么Neural Radiance Fields则是指用神经网络拟合Radiance Fields gθ 。论文中，该神经网络具体是多层感知机（与DeepSDF一样）。

3.3 NeRF的体积渲染

NeRF（Neural Radiance Fields）其实是一种三维场景表示（scene representation），而且是一种隐式的场景表示（implicit scene representation），因为不能像point cloud、mesh、voxel一样直接看见一个三维模型。

NeRF将场景表示为空间中任何点的volume density σ 和颜色值 c 。有了以NeRF形式存在的场景表示后，可以对该场景进行渲染，生成新视角的模拟图片。论文使用经典体积渲染（volume rendering）的原理，求解穿过场景的任何光线的颜色，从而渲染合成新的图像。

3.4 NeRF的训练

训练NeRF的输入数据是：从不同位置拍摄同一场景的图片，拍摄这些图片的相机位姿、相机内参，以及场景的范围。若图像数据集缺少相机参数真值，作者便使用经典SfM重建解决方案COLMAP估计了需要的参数，当作真值使用。

在训练使用NeRF渲染新图片的过程中，

先将这些位置输入MLP以产生volume density和RGB颜色值；
取不同的位置，使用体积渲染技术将这些值合成为一张完整的图像；
因为体积渲染函数是可微的，所以可以通过最小化上一步渲染合成的、真实图像之间的差来训练优化NeRF场景表示。

这样的一个NeRF训练完成后，就得到一个以多层感知机的权重表示的模型。一个模型只含有该场景的信息，不具有生成别的场景的图片的能力。

除此之外，NeRF还有两个优化的trick：

位置编码（positional encoding），类似于傅里叶变换，将低维输入映射到高维空间，提升网络捕捉高频信息的能力；
体积渲染的分层采样（hierarchical volume sampling），通过更高效的采样策略减小估算积分式的计算开销，加快训练速度。

4 后NeRF时代

GIRAFFE：composition方向的代表作

2021CVPR的最佳论文奖得主GIRAFFE是NeRF、GRAF工作的延申。

在NeRF之后，有人提出了GRAF（Generative Radiance Fields），关键点在于引入了GAN来实现Neural Radiance Fields；并使用conditional GAN实现对渲染内容的可控性。

在GRAF之后，GIRAFFE实现了composition。在NeRF、GRAF中，一个Neural Radiance Fields表示一个场景，one model per scene。而在GIRAFFE中，一个Neural Radiance Fields只表示一个物体，one object per scene（背景也算一个物体）。这样做的妙处在于可以随意组合不同场景的物体，可以改变同一场景中不同物体间的相对位置，渲染生成更多训练数据中没有的全新图像。

如图所示，GIRAFFE可以平移、旋转场景中的物体，还可以在场景中增添原本没有的新物体。

另外，GIRAFFE还可以改变物体的形状和外观，因为网络中加入了形状编码、外观编码变量（shape codes zsi , appearance codes zai ）。

其他最新相关工作

2021年CVPR还有许多相关的精彩工作发表。例如，提升网络的泛化性：

pixelNeRF：将每个像素的特征向量而非像素本身作为输入，允许网络在不同场景的多视图图像上进行训练，学习场景先验，然后测试时直接接收一个或几个视图为输入合成新视图。
IBRNet：学习一个适用于多种场景的通用视图插值函数，从而不用为每个新的场景都新学习一个模型才能渲染；且网络结构上用了另一个时髦的东西 Transformer。
MVSNeRF：训练一个具有泛化性能的先验网络，在推理的时候只用3张输入图片就重建一个新的场景。

针对动态场景的NeRF:

Nerfies：多使用了一个多层感知机来拟合形变的SE(3) field，从而建模帧间场景形变。
D-NeRF：多使用了一个多层感知机来拟合场景形变的displacement。
Neural Scene Flow Fields：多提出了一个scene flow fields来描述时序的场景形变。

其他创新点：

PhySG：用球状高斯函数模拟BRDF（高级着色的上古神器）和环境光照，针对更复杂的光照环境，能处理非朗伯表面的反射。
NeX：用MPI（Multi-Plane Image ）代替NeRF的RGBσ作为网络的输出。

5 不止是NeRF：Neural Rendering

Neural Radiance Fields的外面是Neural Rendering；换句话说，NeRF（Neural Radiance Fields）是Neural Rendering方向的子集。

在针对这个更宽泛的概念的综述State of the Art on Neural Rendering中，Neural Rendering的主要研究方向被分为5类，NeRF在其中应属于第2类“Novel View Synthesis”（不过这篇综述早于NeRF发表,表中没有NeRF条目）。

表中彩色字母缩写的含义：

在这篇综述中，Neural Rendering被定义为：

Deep image or video generation approaches that enable explicit or implicit control of scene properties such as illumination, camera parameters, pose, geometry, appearance, and semantic structure.

Neural Rendering包含所有使用神经网络生成可控（且photo-realistic）的新图片的方法。“可控”指人可以显式或隐式地控制生成新图片的属性，常见的属性包括：光照，相机内参，相机位姿（外参），几何关系，外观，语义分割结构。在这个大框架下，NeRF是一种比较受欢迎的可控相机位姿的Neural Rendering算法。但Neural Rendering这个方向不止于此。

在目前的Neural Rendering方向，最火的子方向就是“Novel View Synthesis”，这与NeRF的强势蹿红密不可分；第二火的子方向是“Semantic Photo Synthesis”，这主要归功于语义分割以及相关的GAN领域的成熟度。“Semantic Photo Synthesis”方向也是成果颇丰，例如2019年CVPR的Semantic Image Synthesis with Spatially-Adaptive Normalization，其效果图如下。

OpenAI 代码生成模型 Codex： Evaluating Large Language Models Trained on Code

Codex

https://openai.com/blog/openai-codex/

Evaluating Large Language Models Trained on Code

Copilot的核心技术：给定函数名和功能描述，可以自动进行代码补全，或者给定代码，给出相关文档。作者团队收集了Github上所有的不重复的python代码，总计179GB，并进行了简单过滤(去掉了过大的文件（>1MB）和过长的代码(>100行或单行超过1000个字符))，在数据集上面训练了一个GPT3模型。

作者团队手动编写了164个函数（避免数据泄漏），每个函数包括代码、文档以及单元测试，平均每个问题包括7.7个测试样例，用于评估模型。Codex 12亿参数的模型能解决28.8%的问题，3亿参数的模型能解决13.2%的问题，作者团队又收集了一个跟测试集差不多的数据集用于模型微调，微调以后，得到Codex-S可以解决37.7%的问题。而使用 repeated sampling，即运行一百次模型，只要有一个输出解决了问题就算成功的话，那么Codex-S能解决77.5%的问题（CodeX能解决70.2%），而如果选择100个输出中概率最高的输出，则能解决44.5%的问题。

细节

1. 目标函数没有使用BLEU（困惑度），因为代码不同于自然语言，即使特别相似，但仍然可能不是一个合法的语句，作者使用：

来评估模型，即生成n个输出（n>k），从中随机抽取k个输出，这k个输出只要有一个能通过单元测试的概率.

代码近似计算pass@k（为什么要近似：如果k，n很大，计算很复杂）

2. 输出代码的测试在沙盒中进行（生成的代码可能是恶意的，会让你的机器出现问题）

3. 在GPT3原有模型上微调并不能取得更好的效果，但会加速收敛

4、代码里面的空格如果不做处理会带来很多不必要的词进去，对空格做特殊处理后会减少30%的词

5. 当模型输出‘\nclass’, ‘\ndef’, ‘\n#’, ‘\nif’, or‘\nprint’等语句时，模型会终止推理，输出结果

6. 使用nucleus sampling（核采样）：选择概率总和p=95%的前k个输出用于评估模型

7. 对输出做softmax得到概率之前，会除以一个超参数Temperature，来调节不同输出之间的概率差距，当pass@k中的采样数k越大时，T越大效果越好

8. 收集了跟测试集类似的数据集用于微调，1）从各种比赛中收集赛题（大约一万个），2）从Continuous Integration中收集了约40000个函数和单元测试，并过滤（CodeX对每个问题生成一百个输出，如果能解决通过测试用例则保留该样本，反之则去掉（不能通过表示该问题太难或测试用例有问题）），在这个数据集上继续训练，训练方式相同，只是该数据集有“标准答案”，得到模型Code-S

9. 使用收集到的github数据集，重新训练一个GPT3模型用于反向生成文档，Codex-D，评测Codex-D模型好坏的方式是，一是人阅读文档评测模型好坏，二是使用生成的文档重新生成代码，看能否通过单元测试

模型局限性

1. 样本有效性不够，需要训练很多的代码，模型才能输出比较简单的实验

2. Prompt应该怎么写才能获得比较理想的代码，作者找了13 basic building block（对字符串做一些简单的操作：如改变大小写、变换位置等），将文档块任意串起来，发现文档越长，生成代码的质量越差，说明docstring不宜过长

3. 对于精确、复杂的数学问题很难生成正确的代码

模型潜在的影响

1. 过度依赖：人可能会过度依赖生成的代码，如果使用者不仔细审查代码，可能会给程序带来潜在的问题

2. Misalignment：模型足够复杂的时候，可能能输出期望的代码，但如果给定一个docstring，可能只能输出一个跟训练数据风格相似，看上去正确，但并不是期望的代码

3. github男性用户居多，所写的代码可能包含性别偏见

4. 市场和经济：很多程序员可能会失业？如果训练数据里的代码对于某些包使用较多，可能导致某些特别的工具使用率增多。

5. 安全：可能某些人用它写病毒和恶意软件

6. 训练这样一个模型需要使用很多资源

7. 法律：使用的是公开代码，fair use（对公共社会有好处的话并没有什么问题），但用于商业行为可能会有法律风险，生成的代码可能跟别人一模一样，可能存在抄袭别人具有版权或者专利保护的代码的风险。

总结

作者爬了很多github的代码，训练了一个GPT3的模型，为了评估模型的效果，准备了146到题用于测试，发现大概能解决大概30%的题，效果还不错，为了进一步提高分数，又收集了一个跟测试集相似的数据集，在上面微调。

GitHub Copilot

Copilot 相比论文codex中的区别：模型都是采用GPT3，但是 Copilot 使用的数据集不仅仅是python，还有其他语言的代码作为数据集。 GitHub 上公开可用存储库的数十亿行代码的训练。

Copilot 作为一个辅助编程工具，GitHub Copilot 可以通过提供自动完成样式的建议来帮助你编写代码。GitHub Copilot 是一个 AI 配对程序员，可在编写代码时提供自动完成样式的建议。可以从 GitHub Copilot 接收建议，方法是开始编写要使用的代码，或者编写描述代码要执行的操作的自然语言注释。 GitHub Copilot 会分析你正在编辑的文件以及相关文件中的上下文，并在文本编辑器中提供建议。 GitHub Copilot 由 OpenAI Codex 提供支持，OpenAI Codex 是一个由 OpenAI 创建的新 AI 系统。

不仅是关键字的自动补全，语法建议，调试建议等。而是帮助开发者更快速的完成业务代码编写。简而言之，GitHub Copilot 是一种 AI 工具，可根据命名或者正在编辑的代码上下文为开发者提供代码建议。

根据官方介绍，Copilot 已经接受了来自 GitHub 上公开可用存储库的数十亿行代码的训练，它支持大多数编程语言，但官方建议使用 Python、JavaScript、TypeScript、Ruby 和 Go。Copilot 是 GitHub 和OpenAI合作的结果， OpenAI得到了微软的大力支持。它由一个名为 Codex 的全新 AI 系统提供支持，该系统基于 GPT-3 模型。

后续工作：

DeepMind AlphaCode

DeepMind推出了自动写算法竞赛题的AI AlphaCode，宣称目前在Codeforces比赛中能排到中位数。Transformer + 超大数据集来做code generation。虽然现在也有很多工作用transformer做代码预训练，或者做代码翻译或者生成。但是从这么长的题面去生成竞赛的代码确实是头一次。

AlphaCode 参加的是一个名为 Codeforces 的在线编程平台。虽然我并不熟悉 Codeforces，但曾经为了准备面试刷过 LeetCode。如果说 LeetCode 就是为了程序员进互联网大厂刷题而生，主要考察程序员的算法和数据结构的能力的话，那 Codeforces 是一个竞赛版的 LeetCode，Codeforces 上的题目更像 ACM ICPC 或者信息学奥林匹克竞赛。

Codeforces 上的题目五花八门，但是都需要参赛者编程求解。每个题目有描述，有输入样例，有正确的输出样例，即test cases。如果提交的程序能够将所有test cases都跑出正确的结果，那么就算该题通过。一道题只有10次试错机会。

AlphaCode 所求解的问题样例，深色的上半部分为编程问题描述，浅色的下半部分为 AlphaCode 生成的代码答案

Training：模型训练

AlphaCode 使用的经典的预训练+微调（Pretraining + Fine-tuning）范式。

预训练使用的是从 GitHub 爬下来的开源代码，经过了精细的预处理和清洗，大约有715GB。看到这个规模的训练数据，就知道只有屈指可数的几家巨无霸公司能够做这个预训练，实在是太大了，估计需要成千上万块GPU。预训练部分单纯就是让模型学习不同编程语言的套路，或者说学习编程语言中的语义和语法。

微调部分使用的是 CodeContests 数据集，这个数据集收集了很多类似 Codeforces 这样的编程平台上的编程题目、元数据以及人类正确和错误的代码提交结果。目的是针对 Codeforces 这样的编程竞赛，让模型学会如何生成对应的代码。这个数据集大约2GB。

AlphaCode 主要使用了编码器-解码器（Encoder-Decoder）的 seq2seq 方式建模。seq2seq 最经典的应用是机器翻译。给定源文本内容，Encoder 将自然语言编码为一些向量，Decoder 根据向量将自然语言解码为目标文本。那么对于AI自动写代码这个问题，就是输入编程题目，让模型生成目标代码。

Sampling & Evaluation：海量试错

图 AlphaCode架构图

上图为 AlphaCode 的架构，左侧（Data）为模型和数据部分，主要使用 Transformer 进行预训练和微调，右侧（Samping & Evaluation）是如何生成代码并参与 Codeforces 比赛。

AlphaCode 使用了经典的 Transformer 模型。有关 Transformer 的介绍，网络上已经有不少，我自己之前也写过一些 Transformer 和 BERT 的入门文章。关注深度学习的朋友都知道，Transfomer 作为当前大红大紫的AI模型，虽然在各个榜单上刷榜，但它并不具有人类基本的推理能力。

相比Transformer，我认为使得 AlphaCode 成功的主要在于这个 Sampling & Evaluation。这个 Sampling & Evaluation 系统有点类似搜索引擎或者推荐引擎。AI拥有存储和制作海量内容的能力，但无法知道人类真正需要什么。最关键的就是如何从海量内容中进行筛选。搜索或推荐引擎一般会对海量内容进行检索，最终呈现给用户的只有几条内容。海量的内容需要经过几大步骤：召回、粗排、精排、重排。其实就是先从海量的内容库中，先粗略筛选出一万篇的内容，再使用更精细的模型对一万篇进行一次次筛选，最终选择出与用户需求最相关的几篇内容。

AlphaCode 使用了一个 Transformer 模型，根据编程题目描述，生成百万份代码，这些生成的代码中99%可能根本跑不通。AlphaCode 使用编程题目中的test cases，验证这些生成的代码，这个过程会过滤掉99%的错误代码。

经过过滤之后，仍然可能有上千份代码能跑通，而且这些能跑通题目给出的测试样例的代码中很多非常相似。一个编程题目只有10次提交机会，每一次提交的机会都非常珍贵。不可能将上千份代码都提交上去。AlphaCode 这时候做了一个聚类（Clustering）。首先：AlphaCode 使用了第二个 Transformer 模型，根据编程题目中的文字描述，自动生成一些test cases。但是生成的test cases并不保证准确性，它是为了接下来的聚类用的。然后：将生成的test cases喂给那些代码，如果一些代码的生成结果近乎一样，说明这些代码背后的算法或逻辑相似，可被归为一类。文章称，经过聚类之后，从数目较大的类中选出代码去提交，更有胜算。

上图演示了这个过程，大致包括四步：

根据编程题目中的描述等信息，使用第一个Transformer模型，生成百万份代码。
使用编程题目中的测试样例test cases验证这百万份代码，把不能通过的过滤掉，剩下大约上千份代码。
使用第二个Transformer模型，生成一些test cases。
使用第3步生成的test cases，对第2步留下的代码进行验证并聚类，如果两份代码得到的结果相同，则分到同一类。经过聚类后，最终留下10类代码。

Capabilities & Limitations：能力和限制

深度学习是黑盒模型，我们不知道到底模型学到了什么，能否像人类一样认知和推理。论文花了很大精力和篇幅讨论了 AlphaCode 的能力和限制。

作者们提出了一个论点，即 AlphaCode 并不是单纯从训练数据中寻找相似解法，或者说 AlphaCode 并不是单纯从训练数据中拷贝代码。作者的验证方法是对比了生成的代码和训练集中的代码中的代码片段重合的情况，或者说检验 AlphaCode 是不是单纯从训练集里找一些核心代码片段并直接拷贝过来。因此，作者们认为，AlphaCode 具有解决新问题的能力，而不是照猫画虎地把训练数据拷贝搬运过来。知乎上有信息学竞赛选手感慨，有些题目对于人类专业选手来说都很难快速想出解法，但 AlphaCode 却能够得到答案。

作者们发现，模型生成的代码非常依赖编程题目中的描述。比如，同样一个解法，题目描述越冗长，AlphaCode 的求解准确度越低。但是对编程题目的一些其他改变对求解影响不大，比如更改变量名、同义词替换等。

总结

作者认为，AlphaCode 能够击败半数人类选手，主要原因在于：

训练数据足够大且质量高。
Transformer 预训练模型能够将训练数据中涵盖的知识编码到模型中。
Sampling & Evaluation 的海量试错机制，先生成海量可能的答案，再一步步缩小搜索空间。

阅读完论文和一些解读之后，我感觉至少短期内，离AI替代程序员应该还有一段距离。但是，未来，可真不好说…

微软亚洲研究院的CodeXGLEU，是近几年对代码智能任务整理最全的一个benchmark.

https://microsoft.github.io/CodeXGLUE/

GPT系列论文：生成式预训练与零样本学习

本文的主要参考是李沐老师关于 GPT 系列的解读：论文精读

GPT1: Improving Language Understanding by Generative Pre-Training (Generative Pre-Train Model 就是GPT模型的名字由来）

GPT2: Language Models are Unsupervised Multitask Learners

GPT3: Language Models are Few-Shot Learners

GPT3开发的demo: https://gpt3demo.com/

GPT-3: Demos, Use-cases, Implications

More concretely:

Language model performance scales as a power-law of model size, dataset size, and the amount of computation.
A language model trained on enough data can solve NLP tasks that it has never encountered. In other words, GPT-3 studies the model as a general solution for many downstream jobs without fine-tuning.

关于BERT和GPT

Transformer/BERT/GPT 时间线：Transformer —> GPT —> BERT —-> GPT2 —> GPT3。

如果去查 GPT 系列和 BERT 的引用数量，会发现 BERT 一篇的引用比 GPT 系列三篇加起来还多几倍，因此 BERT 在学界影响力更大是毋庸置疑的。但这并不能说明 BERT 的预训练任务就比 GPT 的更 “好”。首先，GPT 早于 BERT 提出在无监督的语料上进行大规模预训练，BERT 一定程度上也是受到 GPT 的启发。其次，GPT 的预训练任务是标准的语言模型（Language Model），即自回归式（auto-regressive）地预测句子中的下一个单词，相比于 BERT “完形填空” 式的预训练任务，无疑要难上许多。这使得 GPT 必须模型够大、数据够多才能训练起来，得到比较好的结果。这也是为什么 BERT 只有一篇论文，而 GPT 还有 GPT-2、GPT-3，通过不断扩增模型和数据的规模，最终使得 GPT-3 有如此惊艳的效果。对于这样困难的预训练任务和巨大的资源需求，一般的公司或个人根本玩不转。而 BERT 由于任务难度较小，相对并不需要那么多资源就可以进行预训练和微调，这也是为什么 BERT 的后续工作那么多（体现在引用量上）。但是，语言模型预测下一个单词的生成式任务，使得 GPT 的上限极高，GPT-3 通过写出足以以假乱真的文章，成为了最火出圈的 NLP 模型。另外，由于语言模型生成式任务的灵活性和巨大的预训练规模，GPT 甚至可以不需要（更新模型参数的）微调，而是通过文本 prompt 提示，就可以直接处理下游任务。

另外，很多人喜欢从从模型结构上来将 BERT 和 GPT 进行区分：BERT 使用了 Transformer 的编码器，适合于判别式任务；GPT 使用了 Transformer 的解码器，适合于生成式任务。然而，使用什么样的模型结构并不是 BERT 和 GPT 的本质区别。二者的本质区别在于选用了什么样的预训练目标函数，选用 Transformer 的编码器或解码器只是在确定了目标函数之后的必然选择。GPT 选用的是标准语言模型的目标函数，预测句子中的下一个单词，此时模型应该只能看到当前词和它之前的词，所以必须将当前词后面的词全部 mask 掉，故而选用带有 masked self-attention 的 Transfomer 解码器；而 BERT 是设计了一种 “完形填空” 式的预训练任务，根据当前词前后的内容还原当前词，此时模型应该可以看到整个序列的所有单词（当前词已被替换为特殊 token），故而选用了 Transformer 的编码器。当然，在讨论 BERT 与 GPT 时，将它们各自选用的架构作为直观的区分方式也是没有问题的。

GPT-1

Paper：Improving Language Understanding by Generative Pre-Training

前言

GPT 首先提出了在无监督的大规模预料上进行预训练，再在下游任务上进行微调的训练范式。至于为什么使用 Transformer 模型，而非 RNN，作者指出：Transformer 模型有更结构化的记忆（more structured memory），能够更好地处理文本中的长距离（long-term）依赖关系，从而能更好地抽取出句子层面和段落层面的语义信息，因此在迁移学习中，Tranformer 学习到的特征更加稳健。在迁移学习时，GPT 设计了各种任务相关（task-specific）的输入表示。

这里所谓的更结构化的记忆、长距离文本信息的论述，笔者是这样理解的：RNN（如 LSTM）需要一步一步地处理序列内容，如果序列距离过长，可能走到后面时，前面的信息会有所丢失；而在 Transformer 中，自注意力机制的计算是完全并行的，序列的位置信息是通过位置嵌入来编码的，就不会有这个问题，即李宏毅老师所说的：“天涯若比邻”。

方法

原文方法部分分为三个小节，分别介绍如何在无标注的数据上进行自监督预训练、怎样进行微调、怎样对于不同的 NLP 下游任务构造输入。

预训练：

微调

方法部分的第二小节介绍了如何在预训练完成之后，在下游任务上进行微调。

假设有带标签数据集C ，其中每个样本是一个由一系列单词组成的句子和标签 y 组成。将句子输入到 GPT 模型中，取最后一个 transformer block 最后一个单词的输出特征，将它送入到线性层中进行预测：

不同任务的输出构造

介绍完如何微调之后，接下来就要介绍如何将 NLP 中不同的下游任务的输入表示成第二小节中句子+标签的形式。如下图右侧所示，图中展示了几种不同类型的 NLP 下游任务适配 GPT 预训练模型的输入构造方法：

分类任务

任务简介：任务给定一段文本，输出分类结果。例如：情感分类。
构造方法：将给定的文本首尾各加上一个 token Start/Extract，然后送到 GPT 预训练模型中，将输出特征接一个线性层进行分类。分类任务与之前微调小节介绍的做法是完全一致的，

蕴含任务（非对称性句子关系任务）

任务简介：给定两段文本，判断前者对后者关系。例如：蕴含任务，判断第一句对第二句的关系是蕴含/不蕴含/无关。
构造方法：将两个句子中间添加一个分割 token Delim，然后将整个文本的首尾再加上 Start/Extract，送入 GPT 预训练模型，将输出特征送入线性层分类。

相似度任务（对称性句子关系任务）

任务简介：给定两段文本，判断二者关系。例如：相似度任务，判断两个句子是否相似。
构造方法：将两个句子分别作为前句或后句，构造两个完整文本，各自送入 GPT 预训练模型，提取出特征并进行融合，再送入线性层分类。

多选任务

任务简介：给定一段文本和多个答案，判断哪个正确。
构造方法：将给定文本和 N 个答案结合，构造 N 个完整文本，各自送入 GPT 预训练模型，提取出特征并送入线性层，取置信度最大者。

GPT模型结构（左）与微调下游任务输入构造方式（右）

注意图中的开始符（Start）、分隔符（Delim）、结束符（Extract）不是这几个单词本身，而是三个特殊的符号。

GPT-2

Paper：Language Models are Unsupervised Multitask Learners

前言

GPT 出现后不久，BERT 就提出了。通过新型的 MLM（Masked Language Model）任务和更大的模型、更大的训练数据量，在多项指标上超越了 GPT。GPT 的作者想要再次反超，首先肯定要扩大模型和数据的规模。但是除此之外，GPT-2 还有一个惊人的设定：zero-shot（零样本）。顾名思义，在 zero-shot 设定下，模型在预训练完成之后不需要任何下游任务的标注数据来进行微调，而是直接进行预测。

GPT-2 在研究思路上带给我们的启示是：有时候做研究不一定要在一个既定指标上死磕。在方法没有大创新的情况下，通过 “大力出奇迹” ，即使能够比之前方法有所提升，文章也会显得有些无聊。这时可以思考一些设定上的创新，如本文的 zero-shot，这时即使指标上提升不多甚至持平，也会有更有新意、更有趣。

方法

GPT2还是做语言模型，但是在做到下游任务的时候，会用一个叫做zero-shot的设定，zero-shot是说，在做到下游任务的时候，不需要下游任务的任何标注信息，那么也不需要去重新训练已经预训练好的模型。这样子的好处是我只要训练好一个模型，在任何地方都可以用。
如果作者就是在GPT1的基础上用一个更大的数据集训练一个更大的模型，说我的结果比Bert好一些，可能也就好那么一点点，不是好那么多的情况下，大家会觉得gpt2这篇文章就没什么意思了，工程味特别重。那么我换一个角度，选择一个更难的问题，我说做zero-shot。虽然结果可能没那么厉害了，没那么有优势，但是新意度一下就来了。

GPT-2 的模型跟 GPT-1 一样，这里就不再过多介绍。本节主要来说一下 zero-shot 要怎么做。

在 GPT-1 中，模型预训练完成之后会在下游任务上微调，在构造不同任务的对应输入时，我们会引入开始符（Start）、分隔符（Delim）、结束符（Extract）。虽然模型在预训练阶段从未见过这些特殊符号，但是毕竟有微调阶段的参数调整，模型会学着慢慢理解这些符号的意思。现在，在 GPT-2 中，要做的是 zero-shot，也就是没有任何调整的过程了。这时我们在构造输入时就不能用那些在预训练时没有出现过的特殊符号了。所幸自然语言处理的灵活性很强，我们只要把想要模型做的任务 “告诉” 模型即可，如果有足够量预训练文本支撑，模型想必是能理解我们的要求的。

举个机器翻译的例子，要用 GPT-2 做 zero-shot 的机器翻译，只要将输入给模型的文本构造成 translate english to chinese, [englist text], [chinese text] 就好了。比如：translate english to chinese, [machine learning], [机器学习] 。这种做法就是日后鼎鼎大名的 prompt。

在训练数据的收集部分，作者提到他们没有使用 Common Crawl 的公开网页爬取数据，因为这些数据噪声太多，太多无意义的内容。他们是去 Reddit 爬取了大量有意义的文本。作者还指出，在 Reddit 的高质量文本中，很可能已经有类似 zero-shot 构造方式的样本供模型学习。一个机器翻译的例子如下所示。

In a now-deleted post from Aug. 16, Soheil Eid, Tory candidate in the riding of Joliette, wrote in French: ”Mentez mentez, il en restera toujours quelque chose,” which translates as, ”Lie lie and something will always remain.”

实验

在与同样为 zero-shot 模型的对比上，肯定是吊打了之前的 SOTA，这里就不展示了。可以关注一下下面 GPT-2 模型 zero-shot 性能关于模型规模的曲线。在有些任务上已经接近、超过之前某些有监督的方法；在比较困难的任务上，比如开放域问答，完全还看不到别人的影子。然而，看看曲线末端性能随模型规模提升的趋势，完全没有收敛的意思，这最后一段翘起的曲线，昭示着 GPT-3 继续大力出奇迹，从量变到质变的希望。

GPT-3

Paper：Language Models are Few-Shot Learners

前言

根据沐神关于论文价值给出的公式：论文价值 = 有效性 * 新意度 * 问题的大小。GPT-2 虽然通过 zero-shot 的设定，将自己的新意度凸显了出来，但是有效性（绝对性能）还是不太令人满意。GPT-3 ，众所周知的 “大力出奇迹” 式的文章，通过海量数据训练了一个 175 Billion 参数的预训练语言模型，性能直接拉满。甚至有点从量变到质变的意思，GPT-3 通过自回归式语言模型的生成能力，可以生成一些像模像样的文章，有时人类都很难读出这些文章是出自于 AI 模型生成，这也是为什么 GPT-3 能够成为 NLP 领域最火出圈的模型，文本生成能力使得它玩法众多。在任务设定上，GPT-3 没有固守于 GPT-2 的 zero-shot 方式。因为即使对于人类来说，要完成一个新任务，如果一个示例也不给的话，也有点强人所难了。如标题所示，GPT-3 采用了 few-shot 的任务设定，即给出下游任务的一两个例子，然后要求模型对该任务的新问题给出预测。当然，如此大规模的模型，即使是一两个样本，用梯度下降法微调模型权重也很费劲。因此，GPT-3 中所谓的 “few-shot”，与一般的根据支持集（下游任务示例）进行梯度下降更新参数的 few-shot 方法不同，它是利用自然语言的灵活性，将支持集示例放到 prompt 里，让模型自己理解示例，完成下游任务 few-shot 预测。

下图展示了 GPT-3 在不同的 NLP 任务上的性能随模型规模的变化，橙、绿、蓝分别代表 few-/one-/zero shot 方式，淡化的曲线是在不同任务上各自的准确率。实线是平均准确率。可以看到，随着模型规模的增大，性能还是有一定提升的。

方法

GPT-3 的预训练方式和之前还是一样的，模型结构也改动不大。还是在 Transformer 解码器上做标准语言模型的预训练，但是模型规模和数据规模大了几个数量级。这里我们还是主要来看一下 GPT-3 中所谓的 few-/one-/zero- shot 方式分别是什么意思。

下图展示了 GPT-3 中的 few-/one-/zero- shot 方式与常规的微调方式。

微调方式的小样本学习，需要根据给出的下游任务样本和标注，构造损失函数，方向传播梯度，更新模型权重，然后进行预测。GPT-3 中完全没有采取这种方式。
Zero-shot，给定任务描述，如 Translate English to French，然后直接给出问题，要求模型给出答案。这种方式与 GPT-2 一致。
One-shot，给定任务描述，然后给一个例子，包括问题和答案，如 sea otter => loutre de mer，之后再给出问题，将上述整一段文本作为输入，要求模型给出答案。这种方式期望模型利用预训练阶段海量的文本数据积累和 Tranformer 的自注意力机制，理解问题和示例，然后仿照示例给出预测。
笔者认为这种方式可行的根本原因是自然语言的灵活性和生成式模型的创造性，使得我们能够直接跟模型进行交互，把要做什么任务、任务示例直接 “打字告诉它”。在计算机视觉领域，好像很难做到类似的事情。
Few-shot，与 One-shot 类似，只是给的示例更多。

GPT-3 中的任务设定很惊艳，但是细想之下，也是无奈之举并且也有缺点。一方面，模型规模实在太大，微调来更新权重参数不可行，只好采用 few-shot 的方式。另一方面，模型权重不能更新，每次理解下游任务之后不能保存下来，也就是说每次做同一个下游任务都要给同样的例子。还有，下游任务的示例也不能太多，因为模型可能无法处理过长的输入序列。如果在我们的实际下游任务中确实有不少可供学习的样本，GPT-3 恐怕不是一个好的选择。所以，虽然 GPT-3 能做到的事情似乎听起来更接近 “人工智能”，但是相关的跟进工作并不多。

这应该是作者们充分挖掘模型能力，规避模型缺点，扬长避短设计出的任务设定，这种思路值得学习。

关于大规模预训练的调参、数据准备与清洗、工程实践等，GPT-3 论文中也有讨论，这里就不提了，有兴趣可以参考原文。

再后面关于实验、GPT-3 的不足以及可能的社会影响作者写了很多，本文主要关注算法部分，后面就不一一介绍了，同样请参考原文。

Ref

OpenAI 开源语音识别模型 Whisper & 相关应用

Robust Speech Recognition via Large-Scale Weak Supervision
https://github.com/openai/whisper

Blog：https://openai.com/blog/whisper/

论文精度

OpenAI Whisper

拥有 GTP-3 语言模型，并为 GitHub Copilot 提供技术支持的人工智能公司 OpenAI 近日开源了 Whisper 自动语音识别系统，Open AI 强调 Whisper 的语音识别能力已达到人类水准。

Whisper 是一个自动语音识别（ASR，Automatic Speech Recognition）系统（transformer模型），OpenAI 通过从网络上收集了 68 万小时的多语言（98 种语言）和多任务（multitask）监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集，可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别，Whisper 还能实现多种语言的转录，以及将这些语言翻译成英语。OpenAI 开放模型和推理代码，希望开发者可以将 Whisper 作为建立有用的应用程序和进一步研究语音处理技术的基础。

Overview of our approach. A sequence-to-sequence Transformer model is trained on many different speech processing tasks,
including multilingual speech recognition, speech translation, spoken language identification, and voice activity detection

Whisper 执行操作的大致过程：

输入的音频被分割成 30 秒的小段、转换为 log-Mel 频谱图，然后传递到编码器。解码器经过训练以预测相应的文字说明，并与特殊的标记进行混合，这些标记指导单一模型执行诸如语言识别、短语级别的时间戳、多语言语音转录和语音翻译等任务。

相比目前市面上的其他现有方法，它们通常使用较小的、更紧密配对的「音频 – 文本」训练数据集，或使用广泛但无监督的音频预训练集。因为 Whisper 是在一个大型和多样化的数据集上训练的，而没有针对任何特定的数据集进行微调，虽然它没有击败专攻 LibriSpeech 性能的模型（著名的语音识别基准测试），然而在许多不同的数据集上测量 Whisper 的 Zero-shot（不需要对新数据集重新训练，就能得到很好的结果）性能时，研究人员发现它比那些模型要稳健得多，犯的错误要少 50%。

目前 Whisper 有 9 种模型（分为纯英文和多语言），其中四种只有英文版本，开发者可以根据需求在速度和准确性之间进行权衡，以下是现有模型的大小，及其内存要求和相对速度：

Whisper的表现因语言而异。下图显示了使用largeV2模型使用Fleurs数据集的语言进行细分。

论文：稳健的语音识别通过大规模的弱监督

弱监督的意思是指我们的语音数据是有标号的，但是标号的可行度不是那么高，质量一般这也是，这也是作者能够采集到近70万h的数据的原因。(在样本数量和质量之间做权衡)

摘要

我们研究了互联网上的大量的训练好的的语音处理系统的功能。当把我们的数据集扩大到680,000小时，且是一个多语言和多任务监督训练时，最终的模型可以与在标准数据集训练好的其他模型相比具有相同的效果，但whisper无需进行任何微调，在面对新数据集时候无需微调。与人类相比，模型具有准确性和鲁棒性。我们正在发布模型和推理代码，以作为在强大语音处理上进一步工作的基础。

引言

目前主流的语音识别方法是先进行大规模的无监督预训练（Wav2Vec 2.0），比如， Wav2Vec 采集了1000000h的无标签训练数据，先用这些数据进行预训练一个编码器（使用对比学习 or 字训练），encoder能够对语音数据做一个很好的编码，然后在面向下游任务时，可以在标准训练集中做微调（只需要几十小时的数据就可），这样比只在标准数据集上训练的结果好很多。

这些预训练好的语音编码器能够学习到语音的一个高质量表示，但是用无监督方法训练的编码器仍然需要训练一个解码器，需要用带标签的数据来微调，微调是一个很复杂的过程，如果不需要微调就好了，这也是本文要做的工作。此外，过去的工作缺乏一个很好的解码器，这是一个巨大的缺陷，而语音识别系统就是应该是“out of box”，也就是拿来即用。

有监督学习很多方法是把多个有监督的数据集合并成一个大的数据集，这样确实保证比在单个数据集上的准确性和泛化性都要好，但是之前的工作最多也就是5000h的数据集，跟之前的100万h的无监督数据集相比差的太多。

顺着这个思路，如果我们把数据集的标号放松一下，就会获得个更多的数据集。在数量和质量之间做权衡是一个不错的选择，比如在yutube上采集视频和字幕作为数据集，为了追求样本的多样性和数量，稍微降低一点质量也是可以的。因此本文就是把弱监督数据集扩展到了68万h，并将模型取名whisper.

方法

数据处理：不需要对标号做任何后处理。从互联网中采集到的数据多种多样，比如声音的环境、录制的设备、说话的人、语言。这样让模型更加稳健，但是对应的我们希望标号质量应该要一致，因此需要做一个过滤系统，把一些质量差的文本删除（一般是一些机器自动生成的文本，如果使用其作为标号，那训练出来的模型效果也不会很好）、去重等等。训练数据30s以及对应的标号作为一个样本。

数据部分是本文最核心的贡献。由于数据够多，模型够强，本文模型直接预测原始文本，而不经过任何标准化（standardization）。从而模型的输出就是最终识别结果，而无需经过反向的文本归一化（inverse text normalization）后处理。所谓文本归一化包括如将所有单词变小写，所有简写展开，所有标点去掉等操作，而反向文本归一化就是上述操作的反过程。在 Whisper 中，这些操作统统不用，因为数据足够多，可以覆盖所有的情况。

在本文收集的语音数据中，包含了不同环境、不同语言、不同说话人等多样的数据，这有助于训练出文件的语音识别系统。然而，文本标签的多样性对模型的学习是一种阻碍。为了解决这个问题，本文使用了几种自动过滤方法，来提高文本标签的质量。

首先，收集自互联网的语音识别数据，很有可能文本标签就是来自现有的语音识别系统的识别结果。之前有研究工作表明，在训练数据中混有机器生成的标签数据会损害模型的性能。为此，本文根据机器识别结果的一些特点，过滤掉了这些数据。
另外，本文对数据中语音所属语言和文本所属语言进行检测。如果文本是非英语的其他语言，则要求语音也必须是同种语言；如果文本是英语，则语音可以是任何语言（因为本文方法中有一个其他语言到英语的翻译任务）。
本文用一个语音识别模型在收集的数据上进行测试，发现在一些错误率极高的数据中，存在音频信息不完整、字幕声音不匹配等低质量数据，这些数据同样会被过滤掉。

另外，可能在收集的数据中含有标准语音识别数据集中的内容，为了避免对测试结果产生影响，这部分数据同样需要去掉。

最后，将音频切分为 30s 的片段，配上对应文本，得到训练数据。

2、模型

由于我们的工作重点是研究大规模监督预训练的语音识别能力，因此我们使用现成的架构来避免将我们的发现与模型改进混淆。具体来说就是使用最原始的encoder-decoder Transformer (Vaswani et al., 2017)模型作为网络。将所有音频重新采样至16,000 Hz，80通道的Mel频谱图表示，其步幅为10毫秒。对于特征归一化，我们将输入归一化到-1和1之间，整个训练数据集的平均值约为零。

输入（80*3000）在送入transformer之前先经过卷积层（kernel=3），主要是考虑卷积具有局部相关性，输出80*1500，降低维度。剩下的部分就是一个经典 transformer 架构。

Whisper 使用的模型改动不大，就是 Transformer 第一次提出时的 encoder-decoder 架构。Whisper 的入出侧是声音信号，声音信号的预处理是将音频文件重采样到 16000 Hz，并计算出 80 通道的梅尔频谱，计算时窗口大小为 25ms，步长为 10ms。然后将数值归一化到 -1 到 1 之间，作为输入数据。可以认为是对于每一个时间点，提取了一个 80 维的特征。之前数据处理部分提到每个音频悲切氛围 30s 的片段，这里步长为 10，所以每 30 秒有 3000 个时间点。综上，对于一个 30 秒的音频数据，我们提取到形状为 3000×80 的特征。对应到 NLP 中，可以理解为句子长度为 3000，每个词的词嵌入维度为 80。

3000×80 的输入数据首先通过两个 1D 卷积层，得到 1500×80 的特征。后面的处理就是标准的 Transformer encoder-decoder结构了。将这个特征送入到 Transformer encoder 中，提取处的特征作为交叉注意力输入送给 decoder。decoder 每次预测下一个 token，其输入是对应多任务学习的一些预设 token 和 prompt。

3、核心：多任务训练

虽然语音系统主要的任务是给一段话，把里面说的词识别出来，但是实际上大部分语言识别系统来说，还需要进行其他的后处理：检测是否有人说话（VAD）、谁在说话、识别的语音文本添加标点等等。作者希望一个模型可以同时做转录、VAD、时间戳、检测等等任务。

all in one的方法会带来两个问题：比如要做VAD，可能我只需要一个小模型就可以完成，但现在必须要用这个超大模型。另外，假如我这个模型在某个任务表现不好，那么我需要多添加该任务数据继续训练，但继续训练，其他任务的效果是否会受影响。

具体任务如下：

一是给定英文语音，转录成英文文本；二是给定其他语言语音，转录并翻译成英文文本；三是给定其他语言语音，转录成该语言文本；四是给定只有背景音乐的音频，识别出无人说话。

所有这些任务都由解码器预测的 token 序列表示，从而使得一个模型能够处理多个任务。这几个任务及模型输出 token 的关系可以从图中下方的图示中的 token 序列看出：在 START OF TRANSCRIPT token 之后，如果当前无人说话，则识别为 NO SPEECH 。如果有人说话，则识别出当前语音所属的语言 LANGUAGE TAG 。然后有两种可能的任务 TRANSCRIBE 还是翻译任务 TRANSLATE ，这两种任务又分为两种形式：带时间戳的和不带时间戳的，分别穿插或不穿插时间戳 token ，预测出文本 token。最后到达 EOT token，整个流程结束。

那么如何训练这些任务呢？使用的是一个prompt格式，不同的任务通过不同的tokens组合来区别的，三种：特殊控制token、文本token、时间戳token。

从起点开始，有一定概率走prev这个，表示前面一段我已经转录的内容（包括文本和时间戳），也有一定概率直接走到start token，然后学习语言类别token（包括99种语言+空白），接下来分两个token（转录还是翻译），然后有分两中（是否预测时间戳），有时间戳token则需要预测这句话的开始结束时间+内容，没有时间戳的话，直接预测这三十秒的文字，最后EOT结束。这样相比bert使用不同的输出头，对应不同的损失来说。whisper多任务只需要一个输出头，一个损失函数就可以，通过控制输入的流来控制不同的任务。但这样设计也有缺陷：某个任务表现不好，需要模型完全训练，这样对其他任务来说也会有影响，牵一发动全身。

实验

作者实验的数据集是模型训练集没有使用过的，认为是zero-shot。验证标准：WER

结论

Whisper 说明在语音识别领域，对于把大规模的弱监督训练的认识还是不够，我们的模型结果说明不需要做自监督或者自训练，只要在大规模数据集上训练好模型，推理时无需任何微调，只需要zero-shot就可以。

基于Whisper开发应用工具：

AutoCut: 通过字幕来剪切视频

github: https://github.com/mli/autocut

AutoCut 使用 Whisper 来对你的视频自动生成字幕。然后在字幕文件中你选择需要保留的句子，AutoCut 将对你视频中对应的片段裁切并保存。你无需使用视频编辑软件，只需要编辑文本文件即可完成视频剪切。

假如你录制的视频放在 2022-11-04/ 这个文件夹里。那么运行

autocut -d 2022-11-04

提示：如果你使用 OBS 录屏，可以在 设置->高级->录像->文件名格式 中将空格改成 /，即 %CCYY-%MM-%DD/%hh-%mm-%ss。那么视频文件将放在日期命名的文件夹里。

AutoCut 将持续对这个文件夹里视频进行字幕抽取和剪切。例如，你刚完成一个视频录制，保存在 11-28-18.mp4。AutoCut 将生成 11-28-18.md。你在里面选择需要保留的句子后，AutoCut 将剪切出 11-28-18_cut.mp4，并生成 11-28-18_cut.md 来预览结果。

你可以使用任何的 Markdown 编辑器。例如我常用 VS Code 和 Typora。下图是通过 Typora 来对 11-28-18.md 编辑。

全部完成后在 autocut.md 里选择需要拼接的视频后，AutoCut 将输出 autocut_merged.mp4 和对应的字幕文件。

转录某个视频生成 `.srt` 和 `.md` 结果。

autocut -t 22-52-00.mp4

如果对转录质量不满意，可以使用更大的模型，例如autocut -t 22-52-00.mp4 –whisper-model large默认是 small。更好的模型是 medium 和 large，但推荐使用 GPU 获得更好的速度。也可以使用更快的 tiny 和 base，但转录质量会下降。

剪切某个视频

autocut -c 22-52-00.mp4 22-52-00.srt 22-52-00.md

默认视频比特率是 --bitrate 10m，你可以根据需要调大调小。
如果不习惯 Markdown 格式文件，你也可以直接在 srt 文件里删除不要的句子，在剪切时不传入 md 文件名即可。就是 autocut -c 22-52-00.mp4 22-52-00.srt
如果仅有 srt 文件，编辑不方便可以使用如下命令生成 md 文件，然后编辑 md 文件即可，但此时会完全对照 srt 生成，不会出现 no speech 等提示文本。autocut -m test.srt test.mp4 autocut -m test.mp4 test.srt # 支持视频和字幕乱序传入 autocut -m test.srt # 也可以只传入字幕文件

一些小提示

讲得流利的视频的转录质量会高一些，这因为是 Whisper 训练数据分布的缘故。对一个视频，你可以先粗选一下句子，然后在剪出来的视频上再剪一次。
最终视频生成的字幕通常还需要做一些小编辑。你可以直接编辑md文件（比srt文件更紧凑，且嵌入了视频）。然后使用 autocut -s 22-52-00.md 22-52-00.srt 来生成更新的字幕 22-52-00_edited.srt。注意这里会无视句子是不是被选中，而是全部转换成 srt。
最终视频生成的字幕通常还需要做一些小编辑。但 srt 里面空行太多。你可以使用 autocut -s 22-52-00.srt 来生成一个紧凑些的版本 22-52-00_compact.srt 方便编辑（这个格式不合法，但编辑器，例如 VS Code，还是会进行语法高亮）。编辑完成后，autocut -s 22-52-00_compact.srt 转回正常格式。
用 Typora 和 VS Code 编辑 Markdown 都很方便。他们都有对应的快捷键 mark 一行或者多行。但 VS Code 视频预览似乎有点问题。
视频是通过 ffmpeg 导出。在 Apple M1 芯片上它用不了 GPU，导致导出速度不如专业视频软件。

Prompting—ERNIE-Layout

类别：跨模态大模型（用于文档分类、信息抽取、文档问答等）

•ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich Document Understanding (EMNLP 2022)

•Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing (arxiv 2021)

模型试玩：https://huggingface.co/spaces/PaddlePaddle/ERNIE-Layout

Github: https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/document_intelligence

随着众多行业的数字化转型，电子文档的结构化分析和内容提取成为一项热门的研究课题。电子文档包括扫描图像文件和计算机生成的数字文档两大类，涉及单据、行业报告、合同、雇佣协议、发票、简历等多种类型。智能文档理解任务以理解格式、布局、内容多种多样的文档为目标，包括了文档分类、文档信息抽取、文档问答等任务。与纯文本文档不同的是，文档包含表格、图片等多种内容，包含丰富的视觉信息。因为文档内容丰富、布局复杂、字体样式多样、数据存在噪声，文档理解任务极具挑战性。随着ERNIE等预训练语言模型在NLP领域取得了巨大的成功，人们开始关注在文档理解领域进行大规模预训练。百度提出跨模态文档理解模型 ERNIE-Layout，首次将布局知识增强技术融入跨模态文档预训练，在 4 项文档理解任务上刷新世界最好效果，登顶 DocVQA 榜首。同时，ERNIE-Layout 已集成至百度智能文档分析平台 TextMind，助力企业数字化升级。

原理介绍

对文档理解来说，文档中的文字阅读顺序至关重要，目前主流的基于 OCR（Optical Character Recognition，文字识别）技术的模型大多遵循「从左到右、从上到下」的原则，然而对于文档中分栏、文本图片表格混杂的复杂布局，根据 OCR 结果获取的阅读顺序多数情况下都是错误的，从而导致模型无法准确地进行文档内容的理解。

而人类通常会根据文档结构和布局进行层次化分块阅读，受此启发，百度研究者提出在文档预训模型中对阅读顺序进行校正的布局知识增强创新思路。TextMind 平台上业界领先的文档解析工具（Document Parser）能够准确识别文档中的分块信息，产出正确的文档阅读顺序，将阅读顺序信号融合到模型的训练中，从而增强对布局信息的有效利用，提升模型对于复杂文档的理解能力。

基于布局知识增强技术，同时依托文心 ERNIE，百度研究者提出了融合文本、图像、布局等信息进行联合建模的跨模态通用文档预训练模型 ERNIE-Layout。如下图所示，ERNIE-Layout 创新性地提出了阅读顺序预测和细粒度图文匹配两个自监督预训练任务，有效提升模型在文档任务上跨模态语义对齐能力和布局理解能力。

文心ERNIE-Layout以文心ERNIE为底座，融合文本、图像、布局等信息进行跨模态联合建模，创新性引入布局知识增强，提出阅读顺序预测、细粒度图文匹配等自监督预训练任务，升级空间解耦注意力机制。输入基于VIMER-StrucTexT大模型提供的OCR结果，在各数据集上效果取得大幅度提升，相关工作已被EMNLP 2022 Findings 会议收录。

▲ 文心ERNIE-Layout 技术框架

Embedding

Embedding 的输入包括：文本的token_ids，文本内容对应的 bounding box（包含 x1, x2,y1,y2,h,w），图片，以及图片对应的 bounding box。

其中 bounding box 的数值被转换到 0-1000 范围。而后通过一个 Embedding 来分别计算得到对应的 x1_embedding, x2_embedding, y1_embedding 等等 6 个 embeddings。

文字 Embedding

embeddings = (input_embedings + position_embeddings + x1 + y1 + x2 +
              y2 + h + w + token_type_embeddings)
# x1, y1, x2 , y2 , h , w ： bounding box 各个值对应的 embedding

embeddings = self.layer_norm(embeddings)
text_embeddings = self.dropout(embeddings)

其中采用可学习的 position_embeddings。
采用 Layout-Parser 对图片中的文本内容，根据阅读顺序进行排序，安排对应的 position_ids。
Layout Embedding:the OCR tool provides its 2D coordinates with the width and height of the bounding box

图像 Embedding

图片被转换成 224* 224 的格式，经过 backbone 编码后，分割成了 7*7 个 patch。

x = self.visual(image)  # x [batch, 49, 256]
visual_embeddings = self.visual_act_fn(self.visual_proj(x)  # batch, 49, hidden_size

与文本 Embedding 相同，visual_embeddings 需要再加上 position_embeddings, token_type_embeddigns, bbox_embeddigns 等，得到最终图像 embedding。

预训练

Reading Order Prediction：对文字部分，判断token之间的先后阅读顺序。可以通过阅读顺序构建一个包含 01 的邻接矩阵，而后与 attention matrix 计算交叉熵。
Replaced Region Prediction：对于图片部分，有 10% 的概率替换图片 patch，通过 cls 位置的编码判断哪些 patch 被替换了
Masked Visual-Language Modeling：类似 MLM，只是这次我们可以用图片部分的embedding信息来预测被遮盖的文字内容。
Text-Image Alignment：随意覆盖一些文字，然后用一个线性层进行分类任务，判断文字是否被覆盖住了。

文心ERNIE-mmLayout为进一步探索不同粒度元素关系对文档理解的价值，在文心ERNIE-Layout的基础上引入基于GNN的多粒度、多模态Transformer层，实现文档图聚合（Document Graph Aggregation）表示。最终，在多个信息抽取任务上以更少的模型参数量超过SOTA成绩，相关论文被ACM MM 2022会议收录。▲ 文心ERNIE-mmLayout 技术框架

Ernie-layout 整体采用 Transformer Encoder 架构，特点在于：

借鉴了 DeBERTa 的解耦注意力，依靠额外的 Layout-Parser 来设计 position_ids。
同时对文档图片及文档中的文字进行编码，并设计了4种图文结合的预训练方式。
需要依靠额外的 OCR 工具来获得图片中的文字内容，及其对应位置信息。

以下是文档智能技术的一些应用场景展示：

发票抽取问答

海报抽取问答

网页抽取问答

表格抽取问答

试卷抽取问答

英文票据多语种（中、英、日、泰、西班牙、俄语）抽取问答

中文票据多语种（中简、中繁、英、日、法语）抽取问答

Visual Prompting

(a)Fine-tuning adapts the entire model parameters.

(b)Linear probes adapt the model outputs (usually activations at the penultimate layer) by learning a linear layer.

(c)Prompting adapts the (downstream) dataset by reformulating the input and/or output.

相关论文：https://github.com/thunlp/PromptPapers

DETR :End to End Object Detection with Transformers

目标检测领域的里程碑式的工作

https://arxiv.org/abs/2005.12872
code：https://github.com/facebookresearch/detr Facebook AI（meta AI）

DETR： Detection Transformers

文章题目：简单明了，包含两个关键词：端到端、transformer

目标检测领域：从目标检测开始火到detr都很少有端到端的方法，大部分方法最后至少需要后处理操作（NMS,non-maximum suppression非极大值抑制）。无论是proposal based方法、anchor based方法、non-anchor based方法，最后都会生成很多预测框，如何去除这些冗余的框就是NMS要做的事情。

问题：有了NMS，模型调参就会很复杂，而且即使训练好了一个模型，部署起来也非常困难（NMS不是所有硬件都支持）。所以一个简单的、端到端模型一直是大家梦寐以求的，而detr的出现解决了这些痛点。

一、Detr目标：

1、不需要proposal、不需要anchor，直接利用transformer这种全局建模的能力，把目标检测看做是集合预测问题

2、因为有了这种全局建模的能力，detr不会有那么多冗余框，最后出什么结果就是什么结果，不需要NMS做后处理，让模型的训练和部署简单不少

目的：不想让大家觉得目标检测是比图像分类难很多的任务，都可以用简单的，优雅的框架做出来

二、摘要

作者说，他们就是把目标检测的任务看成是一个集合预测问题：目标检测本来任务就是给定一个图像，预测一堆框，每个框不仅要知道的其坐标，还要知道框里包含物体的类别，这些框就是一个集合，不同的图像对应的集合也是不同的，给定一个图片，我要预测这个集合。

因此这篇文章就是把目标检测做成一个端到端的框架，把之前特别依赖人的先验知识的部分删掉了（NMS部分、anchor），一旦把这两个部分拿掉之后，我们也不用费尽心思设计这种anchor，最后不会出现这么多框，不会用到NMS，也不会用到很多超参去调。两个贡献：1、使用新的目标函数，通过二分图匹配的方式，强制模型输出一组独一无二的预测（没有那么多冗余框，每个物体理想状态下就会生成一个框）。2、另外使用encoder-decoder的架构。

两个小贡献：

1、decoder还有另外一个输入learned object query，类似anchor的意思（给定这些object query之后，detr就可以把learned object query和全局图像信息结合一起，通过不同的做注意力操作，从而让模型直接输出最后的一组预测框）

2、想法&&实效性：并行比串行更合适，并不是检测一个大物体前必须先检测一个小物体，或从左到右检测，我们希望越快越好

DETR的好处：

1、简单性：想法上简单，不需要一个特殊的library，只要硬件支持transformer或CNN，就一定支持detr

2、性能：在coco数据集上，detr和一个训练非常好的faster RCNN基线网络取得了差不多的效果，模型内存和速度也和faster RCNN差不多

3、想法好，解决了目标检测领域很多痛点，写作好

4、别的任务：全景分割任务上detr效果很好，detr能够非常简单拓展到其他任务上

三、引言

1、目标检测任务：对每一个感兴趣的物体，去预测一些框，和物体类别，就是一个集合预测问题。

2、现在大多数好用的目标检测器，都是用间接的方式去处理集合预测问题，（1）比如proposal方式（如RCNN系列工作），（2）anchor方式（YOLO系列，focal loss），non-anchor based方法（物体中心点center net，FCOS），他们都没有直接做集合预测任务，而是设计一个替代（回归、分类）解决目标检测问题。所有这些方法性能受限于后处理操作（NMS），由于用了anchor和NMS导致检测器都非常复杂，难以优化和调参。

3、端到端的思想已经在别的很多任务里大范围使用，而且使任务更加简单好用，我们不要先验知识，就是要用一个端到端网络。

detr流程（训练）：

1、CNN提特征

2、特征拉直，送到encoder-decoder中，encoder作用：进一步学习全局信息，为近下来的decoder，也就是最后出预测框做铺垫。直观的解释为什么需要使用transformer encoder呢？如果使用了transformer encoder，那么每一个点或者说每一个特征就会跟着图片里面的其他的特征有交互了，这样大概就知道那块是那个物体，对于同一个物体就应该只出一个框而不是好多框，所以全局的建模有利于移除冗余的框。

3、decoder生成框的输出，当你有了图像特征之后，还会有一个object query（限定了你要出多少框），通过query和特征在decoder里进行自注意力操作，得到输出的框（文中是100，无论是什么图片都会预测100个框）

4、生成的100个框如何与ground truth这个框做匹配并计算 loss？：二分图匹配，如上图，我们计算100个预测的框和2个GT框的matching loss，决定100个预测框哪两个是独一无二对应到红黄色的GT框，用匹配的框去算目标检测的loss。而没有匹配到的98个框就会被标记为没有物体。

5、推理1、2、3一致，第四步loss不需要，直接在最后的输出上用一个阈值卡一个输出的置信度，置信度比较大（>0.7的）保留，置信度小于0.7的当做背景物体。

结果:

1、detr对大物体预测很准，归功于transformer，能进行全局建模（原来使用anchor的话就会受限于anchor大小）

2、缺陷：对小物体效果不好（多尺度、多特征，可以提高小物体的检测）后续改进：Deformable DETR

3、detr训练很慢，500个epoch（coco大多数模型一般训练几十个epoch就行）

检测效果:

detr由于使用transformer全局建模，没有用anchor，想检测多大物体就检测多大，所以检测大物体效果较好。detr框架太简单，没有多尺度特征，没有FPN，没有复杂的目标检测头，所以在小目标检测效果不好

四、相关工作

目标检测：

目前大多数的检测器是根据初始猜测做预测：

1、two-stage:初始猜测是中间的proposal

2、one-stage:初始猜测是anchor或物体中心点

最近一篇论文做了详细比较，发现他们的性能和刚开始的初始猜测非常相关，怎么做后处理对性能影响至关重要

怎么后处理：

1、集合思想：可学习的NMS方法、关系型网络，可以利用自注意力方法去处理物体之间的联系，得出独一无二的预测，就不需要后处理的步骤（性能较低）

解决：人工干预：手工设计的场景特征帮助模型学习，但是detr目标是想让目标检测任务更加简单，不希望用到过多人工先验知识

2、循环检测器：encoder-decoder：让detr工作主要原因：transformer

五、方法

分两块：1、基于集合的目标函数怎么做，作者如何通过二分图匹配把预测的框和GT框连接在一起，算得目标函数 2、detr具体模型架构

目标函数部分：

detr模型最后输出是一个固定集合，无论图片是什么，最后都会输出n个（本文n=100）预测框

问题：detr每次都会出100个输出，但是实际上一个图片的GT的bounding box可能只有几个，如何匹配？如何计算loss？怎么知道哪个预测框对应GT框？

作者这里把这个问题转换成了一个二分图匹配的问题：

二分图又称作二部图，是图论中的一种特殊模型。设G=(V,E)是一个无向图，如果顶点V可分割为两个互不相交的子集(A,B)，并且图中的每条边（i，j）所关联的两个顶点i和j分别属于这两个不同的顶点集(i in A,j in B)，则称图G为一个二分图。简而言之，就是顶点集V可分割为两个互不相交的子集，并且图中每条边依附的两个顶点都分属于这两个互不相交的子集，两个子集内的顶点不相邻。

加权二分图匹配可以认为是有ABC三个工人，以及xyz三个工作，每个工人去做xyz工作的花费不同，如何去为每一个个人安排一个工作，使得最后我们的花费最低，可以使用遍历的方法，亦可以有很多高效的方法：匈牙利算法。

另外scipy包提供的linear sum assignment可以完成这个最优排列。detr论文里：代码也用的linear sum assignment函数来计算对应的匹配关系，只需要提供一个cost matrix矩阵就可以。a,b,c看成100个预测框，x,y,z看成GT框， cost matrix 损失矩阵未必都是正方形，最后丢到这个函数里面得到一个最优匹配。

那么对于目标检测任务，cost matrix 损失矩阵的值应该放些什么？loss包含两部分：分类loss、出框的准确度。所以也就是遍历所有的预测的框，那这些预测的框和gt框去算两个loss，然后把这个loss放到cost matrix矩阵就可以了。这样就得到了对应gt的预测框（一对一），进而计算loss，梯度回传更新模型参数。

detr主体网络框架：

输入图片大小：3*800*1066（3：rgb），首先使用卷积网络获得特征：2048*25*34，然后降维变成256*25*34，然后给transformer添加位置信息：大小也是256*25*34，特征+位置作为transformer输入，特征拉直： 256*25*34 ==》 850*256，850就是序列长度，256是向量维度。后面的transformer encoder就跟普通的transformer encoder一样，输出==输出，仍然是850*256，接下来送入decoder里面。不同于一般的decoder，这里的object queries是一个可学习的，100*256大小的向量。在decoder里面做cross attension。输入 object queries ，另外一个输入是来自encoder的全局特征850*256.这两个去做自注意力操作，得到一个100*256的特征的decoder输出。最后添加一个检测头全连接层（FFN），获得类别预测（91类）和框预测（4：框的中心的+高度宽度），获得了100个框，利用匈牙利算法跟gt匹配，然后求loss，更新模型。

六、实验

检测效果：detr由于使用transformer全局建模，没有用anchor，想检测多大物体就检测多大，所以检测大物体效果较好。detr框架太简单，没有多尺度特征，没有FPN，没有复杂的目标检测头，所以在小目标检测效果不好。

下面的表格给出了 DETR 与基线 Faster RCNN 的定量性能对比。最上面一部分的 Faster RCNN 的性能结果是 Detectron2 的实现，之所以将 Faster RCNN 分成两部分，是因为 DETR 中使用了近年来很多新的训练 trick，如 GIoU loss、更强的数据增强策略、更长的训练时间，因此作者团队添加这些策略重新训练了 Faster RCNN，以作公平的对比。

近年来的新的训练策略对于目标检测模型的提升非常明显。对比表格的第一、第二部分，完全相同的模型，只是用了更优的训练策略，基本能稳定涨两个点。在同样的训练策略、网络规模大小的情况下，DETR 比 Faster RCNN 高 1-2 个点。对比表格的后两部分可以观察到这一点，DETR 对比基线的 Faster RCNN 还是还是有提升的。

DETR 在大物体的检测上远超 Faster RCNN，但是在小物体的检测上却也低了不少。

表格的后三列分别是小、中、大物体的检测性能，可以观察到 DETR 在大物体的检测上更出色，但是对于小物体的检测甚至远不如 Faster RCNN。大物体检测性能的提升得益于 Transformer 结构的全局建模能力，且没有预置的固定 anchor 的限制，因此预测框想多大就多大。而 DETR 在小物体上表现不佳，是因为本文中 DETR 的模型还是一个比较简单的模型，没有做很多针对目标检测的优化设计，比如针对小物体、多尺度的 FPN 设计。DETR 的网络结构还有待后续工作来改进。

表 1 detr和faster RCNN的对比，+表示用更好的训练策略把三个模型重新训练一遍

gflops参数：每秒进行的浮点运算次数，flops越小，模型越小，跑起来越快？X。如果更关心速度，比较fps

首先我们来看对于 Encoder 的可视化，下图展示了对于一组参考点的 Encoder 注意力热力图的可视化，即参考点对于图像中所有其他点自注意力值的大小。可以观察到，Transformer Encoder 基本已经能够非常清晰地区分开各个物体了，甚至热力图已经有一点实例分割的 mask 图的意思了。在有一定遮挡的情况下（左侧两头牛），也能够清楚地分开哪个是哪个。这种效果正是 Transformer Encoder 的全局建模能力所带来的，每个位置能够感知到图像中所有的其他位置。因此能够区分出图像中的不同物体，从而对于一个物体，尽量只出一个预测框。

通过前面的可视化，我们已经看到，Encoder 学习了一个全局的特征，基本已经能够区分开图中不同的物体。但是对于目标检测来说，大致地区分开不同的物体是不够的，我们还需要精确的物体的边界框坐标，这部分就由 Decoder 来做。

下图在 Decoder 特征中对每个不同的物体做了注意力的可视化，比如左图中的两头大象分别由蓝色和橙色表示。可以观察到，Decoder 网络中对于每个物体的注意力都集中在物体的边界位置，如大象的鼻子、尾巴、象腿等处。作者认为这是 Decoder 在区分不同物体边界的极值点（extremities），在 Encoder 能够区分开不同的物体之后，Decoder 再来关注不同物体边界的具体位置，最终精准地预测出不同物体的边框位置。因此，Encoder-Decoder 的结构是必要的，它们各司其职，一个都不能少。

扩展到全景分割任务

作者同时还将该网络应用于全景分割任务中.增加一个分割的head就可以。

结论

下图是20个object query可视化（n=100，这里只有20个）

object query 到底学了什么（绿色代表小的bounding box，红色代表大的横向bounding box，蓝色代表大的竖向bounding box）object query和anchor有些像，anchor是提前定一些bounding box，把预测和这些提前定好的bounding box对比，object query是可以学习的。以第一个 object query 来说：对于一个图片， object query 会去问图片的左下角有没有小物体，以及中间有没有横向的大物体。

为了说明端到端的 DETR 框架的简洁性，作者在论文末尾给出了 DETR 模型定义、推理的 “伪代码”，总共不到 50 行。之所以这里的伪代码要加引号，是因为其实这已经不算是伪代码了，而是直接可运行的 PyTorch 代码。当然这个版本缺少了一些细节，但也完全能够展现出 DETR 的流程了。该版本直接用来训练，最终也能达到 40 的 AP。读者可以对应伪代码再过一遍刚才介绍的 DETR 完成流程，体会一下一个端到端的目标检测框架有多幺简洁。

代码实现：

后续关于detr的改进工作：

1、Deformable DETR: Deformable Transformers for End-to-End Object Detection

2、Omni-DETR: Omni-Supervised Object Detection with Transformers、

3、UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

4、PnP-DETR: Towards Efficient Visual Analysis with Transformers

5、SMAC-DETR

6、DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR

7、Accelerating DETR Convergence via Semantic-Aligned Matching

8、DN-DETR: Accelerate DETR Training by Introducing Query DeNoising

9、Open-Vocabulary DETR with Conditional Matching

10、OW-DETR: Open-world Detection Transformer

多模态| ALBEF

视频：多模态论文串讲

https://arxiv.org/abs/2107.07651
code: https://github.com/salesforce/ALBEF

写在前面：最近看了很多多模态的工作，现有的设计有哪些不足？我们又该如何去改进呢？首先来看模型的结构，因为需要处理文本和图片，所以模型开始需要有两个分支，分别抽取图像和文本特征。但是在多模态领域，视觉特征的重要性远远大于文本特征，所以要使用更强大的vision Embed，比如vit，同时对于多模态任务，多模态之间的融合也是十分重要的，也要保证模态融合的模型也要尽可能的大，因此网络应该跟（c）相近。模型确定了，接下来如何去训练呢？我们知道CLIP模型使用了一个对比学习的loss：ITCloss，这个效果很好，所以可以使用。另外常见的两个loss： image text matching(ITM)，另一个是masked language modeling(MLM) 也可以继续使用。再回到ALBEF论文，其实它就是按照上述思路进行的设计。

它由一个图像编码器、一个文本编码器和一个多模态编码器组成。文章提出了一种图像文本对比损失，在图像文本融合之前对图像文本进行统一表示建模。图像文本匹配损失和掩码语言建模损失被应用于学习图像和文本之间的多模态交互。为了改进噪声数据的学习，我们使用动量模型生成伪目标来作为训练期间的额外监督。

为了改进在噪声监督下的学习，作者提出了动量蒸馏(MoD) ，使模型能够利用一个更大的web数据集。在训练过程中，作者通过取模型参数的移动平均来保持模型的动量版本，并使用动量模型生成伪目标作为额外的监督。动量蒸馏可以解释为一种在线自我蒸馏的形式，其中使用学生模型组成的集合作为老师。类似的方法已经在半监督学习、标签噪声学习以及最近的对比学习中进行了探索应用。与现有研究不同，本文从理论上和实验上表明，动量蒸馏是一种通用的学习算法，可以提高模型在许多V+L 任务上的性能。

Pre-training Objectives

作者对ALBEF进行了三个目标的预训练：单模态编码器上的图像-文本对比学习(ITC) 、掩蔽语言建模(MLM) 和多模态编码器上的图像-文本匹配(ITM) 。作者通过在线对比 hard negative挖掘来改进ITM。

Image-Text Contrastive Learning

图像-文本对比学习的目的是在融合预训练更好的单模态表示。它学习了一个相似性函数，使匹配的图像-文本对具有更高的相似性得分。和是将[CLS]嵌入映射到标准化的低维(256d)表示的线性变换。

受MoCo的启发，作者维护了两个队列来存储动量单模态编码器的最新的M个图像-文本表示。动量编码器的归一化特征记为和。作者定义了和。

对于每个图像和文本，作者计算softmax归一化的图像到文本和文本到图像的相似度如下：

其中，τ是一个可学习的温度参数。设和表示ground truth的one-hot形式相似性，其中负对的概率为0，正对的概率为1。图像文本对比损失定义为p和y之间的交叉熵H：

Masked Language Modeling

Masked Language Modeling 同时利用图像和上下文文本来预测mask词。作者以15%的概率随机mask输入token，并用特殊token [MASK]替换它们。设表示mask文本，表示模型对mask token的预测概率。MLM使交叉熵损失最小化：

其中是一个one-hot形式的词汇分布，ground truth token的概率为1。

Image-Text Matching

图像-文本匹配可以预测一对图像和文本是正的（匹配）还是负的（不匹配）。作者使用多模态编码器的输出嵌入的[CLS] token作为图像-文本对的联合表示，并附加一个全连接(FC)层，然后是softmax来预测一个两类概率。

其中，是一个表示ground truth标签的二维one-hot向量。

作者提出了一种基于零计算开销的ITM任务进行 hard negatives采样的策略。如果负的图像-文本对共享相似的语义，但细粒度细节不同，那么它们是很难的。作者利用对比相似性来寻找batch内的 hard negatives。

对于一个batch中的每一幅图像，作者按照对比相似性分布从同一batch中抽取一个负文本，其中与图像更相似的文本有更高的机会被采样。同样地，作者还为每个文本采样一个hard negative图像。

Momentum Distillation

用于预训练的图像-文本对大多是从网络中收集起来的，而且它们往往会有噪声。正样本对通常是弱相关的：文本可能包含与图像无关的单词，或者图像可能包含文本中没有描述的实体 。

对于ITC学习，图像的负样本文本也可能与图像的内容相匹配。对于MLM，可能存在其他与描述图像相同（或更好）的标注不同的词。然而，ITC和MLM的one-hot标签会惩罚所有负标签预测，不管它们的正确性如何。为了解决这个问题，作者提出从动量模型生成的伪目标中学习。动量模型是一个连续发展的教师模型，它由单模态和多模态编码器的指数移动平均版本组成。

在训练过程中，训练基础模型，使其预测与动量模型的预测相匹配。具体来说，对于ITC，作者首先使用动量单模态编码器的特征计算图像-文本相似性，这个可以认为是一个softmax score,不再是一个 one hot向量。这样在模型训练的时候，我们希望在训练原始model的时候，不只是让预测跟目标值one hot尽可能接近，也希望能够和动量模型的输出保持一致，这样就能达到一个比较好的折中点，很多信息从one hot label来学习，但是当one hot label是错误的或者是有噪声的时候，我们希望这个稳定的动量模型提供一些改进。

多模态预训练 | ViLT

paper: https://arxiv.org/abs/2102.03334 ICML 2021

code: https://github.com/dandelin/ViLT

图1 Visual comparison of conventional VLP architectures
and our proposed ViLT.

视觉文本多模态任务，极其简单的多模态结构。模态的特征抽取做到了极小化，主要的计算量放在后边的模态融合上，提高了推理速度。多模态领域里程碑式工作。将区域特征，region 从多模态框架中移除。

Vision and Language Pre-training(VLP)已经已经在视觉语言的多模态下游任务中发展的很好。然而，当前VLP的工作主要集中在图像特征抽取上，一般来讲，图像特征抽取的越好，下游任务中的表现就越好。但是，现在主要有两个问题，一是效率太低，速度太慢，抽取图像特征花费大量时间，比多模态融合都多。我们应该花费更多时间在融合上。第二个是，你用一个预训练好的模型去抽取特征，表达能力受限。目标检测数据集不够大，规模不够大。如果模型不是端到端学习，只是从预训练模型抽取特征，大概率来说不是最优解。

Motivation

目前参数量最小的多模态Transformer方法。ViLT使用预训练的ViT来初始化交互的transformer，这样就可以直接利用交互层来处理视觉特征，不需要额外增加一个视觉encoder（如Faster-RCNN）。

Contribution

第一个基于patch projection的多模态预训练模型，其是首个使用patch projection来做visual embedding的方法。
证明了可以将BERT的方法和Vison Transformer结合起来用于多模态transformer。
体现了全词掩码在预训练时以及图像增强在微调时的重要性。

Method

现有的视觉语言模型的三种结构类别：

VE = Vision Embedding

TE = Text Embedding

MI = Modality Interaction

上图是4种不同类型的VLP模型示意图。其中每个矩形的高表示相对计算量大小，VE、TE和MI分别是visual embedding、text embedding和modality interaction的简写。

作者提出这4种类型的主要依据有两点：

1.在参数或者计算上，两种模态是否保持平衡。

2.在网络深层中，两种模态是否相互作用。

VSE、VSE++和SCAN属于(a)类型。对图像和文本独立使用encoder，图像的更重，文本的更轻，使用简单的点积或者浅层attention层来表示两种模态特征的相似性。

CLIP属于(b)类型。每个模态单独使用重的transformer encoder，使用池化后的图像特征点积计算特征相似性。

ViLBERT、UNTER和Pixel-BERT属于(c)类型。这些方法使用深层transformer进行交互作用，但是由于VE仍然使用重的卷积网络进行特征抽取，导致计算量依然很大。

作者提出的ViLT属于(d)类型。ViLT是首个将VE设计的如TE一样轻量的方法，该方法的主要计算量都集中在模态交互上。

Modality Interaction Schema

模态交互部分可以分成两种方式：一种是single-stream(如BERT和UNITER)，另一种是dual-stream(如ViLBERT和LXMERT)。其中single-stream是对图像和文本concate然后进行交互操作，而dual-stream是不对图像和文本concate然后进行交互操作。ViLT延用single-stream的交互方式，因为dual-stream会引入额外的计算量。

现有的VLP模型的text embedding基本上都使用类BERT结构(图1)，但是visual embedding存在着差异。在大多数情况下，visual embedding是现有VLP模型的瓶颈。visual embedding的方法总共有三大类，其中region feature方法通常采用Faster R-CNN二阶段检测器提取region的特征，grid feature方法直接使用CNN提取grid的特征，patch projection方法将输入图片切片投影提取特征。ViLT是首个使用patch projection来做visual embedding的方法。

网络结构ViLT

作者提出的ViLT可以认为是目前最简单的多模态Transformer方法。ViLT使用预训练的ViT来初始化交互的transformer，这样就可以直接利用交互层来处理视觉特征，不需要额外增加一个视觉encoder。

文本特征输入部分，将文本看成一个词序列，通过word embedding matrix转化成word embedding，然后和position embedding进行相加，最后和modal-type embedding进行concate。

图像特征输入部分，将图像切块看成一个图像块序列，通过linear projection转化成visual embedding，然后和postion embedding进行相加，最后和modal-type embedding进行concate。

其中word embedding和visual embedding通过可学习的modal-type embedding标志位来区分，其中0标志位表示word embedding部分，1标志位表示visual embedding部分。

wrod embedding和visual embedding分别都嵌入了一个额外的可学习[class] embedding，方便和下游任务对接。

Pretraining Objectives

ViLT预训练的优化目标有两个：一个是image text matching(ITM)，另一个是masked language modeling(MLM)。

ImageText Matching：随机以0.5的概率将文本对应的图片替换成不同的图片，然后对文本标志位对应输出使用一个线性的ITM head将输出feature映射成一个二值logits，用来判断图像文本是否匹配。另外ViLT还设计了一个word patch alignment (WPA)来计算teextual subset和visual subset的对齐分数。

Masked Language Modeling：MLM的目标是通过文本的上下文信息去预测masked的文本tokens。随机以0.15的概率mask掉tokens，然后文本输出接两层MLP与车mask掉的tokens。

Whole Word Masking：另外ViLT还使用了whole word masking技巧。whole word masking是将连续的子词tokens进行mask的技巧，避免了只通过单词上下文进行预测。比如将“giraffe”词tokenized成3个部分[“gi”, “##raf”, “##fe”]，可以mask成[“gi”, “[MASK]”, “##fe”]，模型会通过mask的上下文信息[“gi”，“##fe”]来预测mask的“##raf”，就会导致不利用图像信息。

Experiment

本文提出的方法在效率上大大提升且表现出相似的性能，相比于region feature的方法速度快了60倍，相比于grid feature的方法快了4倍，而且下游任务表现出相似甚至更好的性能。

如图所示，ViLT相比于region feature的方法速度快了60倍，相比于grid feature的方法快了4倍，而且下游任务表现出相似甚至更好的性能。

缺点：

1、性能不够高，在一些数据集上得表现比不过C类方法，有可能因为对于现有的任务来说，因为数据集的bias，或者这个任务需要更多的视觉信息，因此需要更多得视觉部分，最后的效果才能好。

2、虽然推理时间快，但是训练速度很慢。只是结构上简化了多模态学习，但一般人还是玩不起。

GIRAFFE—NeRF、GRAF工作的延申

GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields

论文报告： https://www.bilibili.com/video/BV1TX4y1P7ou/

github: https://github.com/autonomousvision/giraffe

GIRAFFE：composition方向的代表作

2021CVPR的最佳论文奖得主GIRAFFE是NeRF、GRAF工作的延申。

在NeRF之后，有人提出了GRAF（Generative Radiance Fields），关键点在于引入了GAN来实现Neural Radiance Fields；并使用conditional GAN实现对渲染内容的可控性。

在GRAF之后，GIRAFFE实现了composition（创作）。在NeRF、GRAF中，一个Neural Radiance Fields表示一个场景，one model per scene。而在GIRAFFE中，一个Neural Radiance Fields只表示一个物体，one object per scene（背景也算一个物体）。这样做的妙处在于可以随意组合不同场景的物体，可以改变同一场景中不同物体间的相对位置，渲染生成更多训练数据中没有的全新图像。

如图所示，GIRAFFE可以平移、旋转场景中的物体，还可以在场景中增添原本没有的新物体。另外，GIRAFFE还可以改变物体的形状和外观，因为网络中加入了形状编码、外观编码变量（shape codes zsi , appearance codes zai ）。

GIRAFFE是一个基于学习的、完全可微的渲染引擎，用于将场景合成为多个“特征域”的总和。

简单回顾一下nerf，它们是一种描述和渲染3D场景的方法，在3D体积中任何给定的点上它的密度和辐射。它与光场的概念密切相关，光场是表达光如何流经给定空间的函数。对于空间中给定的(x,y,z)视点，图像将方向(θ, φ)的射线投射到一个场景中。对于这条线上的每个点，我们收集其密度和视相关的发射辐射，并以类似于传统光线追踪的方式将这些光线合成为单个像素值。这些NeRF场景是从各种姿势拍摄的图像收集学习，你会使用在结构从运动应用程序。

传统的GAN架构使用编码器和解码器设置，就像下图这样。在训练过程中，编码器接收一个图像，将其编码成一个压缩的表征，解码器利用这个表征来创建一个改变样式的新图像。在我们的训练数据集中的所有图像中重复多次，以便编码器和解码器学习如何在训练期间最大化我们想要实现的任务的结果。一旦训练完成，你可以发送一个图像到编码器，它会做同样的过程，生成一个新的和看不见的图像，根据你的需要。无论做什么工作，它都会起到非常相似的作用，不管是把一张脸的图像翻译成卡通画家那样的另一种风格，还是用草图创造出一幅美丽的风景。仅使用解码器，我们也称之为生成器，因为它是负责创建新图像的模型，我们可以在这个编码信息空间中行走，并对发送给生成器的信息进行采样，以生成无限量的新图像。这种编码的信息空间通常被称为潜在空间，而我们用来生成新图像的信息就是潜在代码。我们基本上是在这个最优空间内随机选择一些潜在的代码，然后它会根据我们想要完成的任务生成一个新的随机图像，当然，也会遵循这个生成器的训练过程。这是难以置信的酷，但正如我刚才所说，图像是完全随机的，我们没有或很少的想法，它看起来像什么，这已经是一个非常少有用的创造者。

这就是他们用这篇论文解决的问题。实际上，通过获取物体形状和外观的潜在代码并将其发送给解码器或生成器，他们能够控制物体的姿势，这意味着他们可以移动物体，改变物体的外观，添加其他物体，改变背景，甚至改变相机的姿势。所有这些变换都可以在每个对象或背景上独立完成，而不会影响图像中的任何其他内容！

如你看到的那样子，它比其他基于GAN的方法要好得多，这些方法通常无法将对象彼此分离，并且都会受到特定对象修改的影响。

与他们的方法不同的是，他们在三维场景表示中解决这个问题，就像我们如何看待现实世界一样，而不是像其他GANs那样停留在二维图像世界中。但除此之外，过程非常相似。它们对信息进行编码，识别对象，在潜在空间内对其进行编辑，然后解码生成新的图像。在这里，在这个潜在的空间里还有更多的步骤要做。我们可以将其视为经典GAN图像合成网络与神经渲染器的结合，神经渲染器用于从发送到网络的图像生成3D场景，正如我们看到的。

实现这一目标主要有三个步骤。对输入图像进行编码后，意味着我们已经处于潜在空间中，第一步是将图像转换为三维场景。但不仅仅是一个简单的3D场景，一个由3D元素组成的3D场景，即物体和背景。这种将图像视为由生成的体渲染组成的场景的方式允许它们更改生成图像中的摄影机角度并独立地控制对象。这是通过使用模型NERV来实现的，但是它们没有使用一个模型从输入图像生成整个锁定场景，而是使用两个单独的模型独立地生成对象和背景。这里称为采样特征字段。该网络的参数也在训练过程中学习。它与NERF非常相似。

有了这个场景和分离的元素，我们可以单独编辑它们而不影响图像的其余部分。这是第二步。他们可以对物体做任何他们想做的事情，比如改变它的位置和方向。换句话说，它们改变了物体或背景的姿势。在这一点上，他们甚至可以添加新的对象放置在他们想要的任何地方。然后，通过将所有特征字段添加到一起，将它们简单地组合到包含所有对象和背景的最终三维场景中。

最后，我们必须回到自然图像的二维世界。所以最后一步是把这个3D场景渲染成一个规则的图像。由于我们仍然处于三维世界中，我们可以改变相机的视点来决定我们将如何看待场景。然后，我们根据该相机光线和其他参数（如alpha值和透射率）对每个像素进行评估。这就是他们所说的特征图像，但是这个特征图像是由每个像素的特征向量组成的图像。由于我们仍处于潜在空间，这些特征需要转化为RGB颜色和高分辨率图像。这是通过使用典型的解码器来完成的，就像其他GAN架构一样，将其放大到原始尺寸，同时学习RGB通道的特征转换。瞧à, 你有你的新形象，有更多的控制，什么是生成！

当然，正如你所看到的，它在实际数据中使用时仍然不是完美的。尽管如此，它仍然令人印象深刻，是朝着正确方向迈出的重要一步，特别是考虑到这些都是完全由GANs生成的合成图像，而且它只是第一篇能够以这种精度控制生成图像的论文。

参考资料：

Michael Niemeyer and Andreas Geiger, (2021), “GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields”, Published in CVPR 2021.
Project link with paper and more: https://m-niemeyer.github.io/project-pages/giraffe/index.html
Code: https://github.com/autonomousvision/giraffe
NERF video: https://youtu.be/ZkaTyBvS2w4

位置编码

代码实现

解释

NeRF 网络

代码实现

体素渲染

第二轮渲染

Loss

训练数据

训练数据

拍摄角度预处理

计算光线角度

NDC 下的光线

训练数据的生成

1 引言

2 前NeRF时代

2.1 传统图形学的渲染

2.2 神经网络侵略3D渲染任务：NeRF呼之欲出

隐式场景表示（implicit scene representation）

DeepSDF

3 NeRF！

3.1 Radiance Fields（RF）

3.2 Neural Radiance Fields（NeRF）

3.3 NeRF的体积渲染

3.4 NeRF的训练

4 后NeRF时代

GIRAFFE：composition方向的代表作

其他最新相关工作

5 不止是NeRF：Neural Rendering

相关资源

Github论文收集仓库

综述论文

论文

教材

三篇Georgia Tech老师写的博客

离散形式

Codex

细节

模型局限性

模型潜在的影响

总结

后续工作：

DeepMind AlphaCode

Training：模型训练​

Sampling & Evaluation：海量试错​

Capabilities & Limitations：能力和限制​

总结​

关于BERT和GPT

GPT-1

前言

方法

预训练：

微调

不同任务的输出构造

GPT-2

前言

方法

实验

GPT-3

前言

方法

Ref

OpenAI Whisper

论文：稳健的语音识别通过大规模的弱监督

摘要

引言

方法

实验

结论

基于Whisper开发应用工具：

AutoCut: 通过字幕来剪切视频

转录某个视频生成 .srt 和 .md 结果。

剪切某个视频

一些小提示

原理介绍

Embedding

预训练

Visual Prompting

目标检测领域的里程碑式的工作

代码实现：

Training：模型训练

Sampling & Evaluation：海量试错

Capabilities & Limitations：能力和限制

总结

转录某个视频生成 `.srt` 和 `.md` 结果。