stable diffusion：潜在扩散模型

参考：

1、https://zhuanlan.zhihu.com/p/573984443

2、https://zhangzhenhu.github.io/blog/aigc

3、 https://zhuanlan.zhihu.com/p/599160988

扩散概率模型（diffusion probabilistic models）

1、扩散概率模型（diffusion probabilistic model）

2、降噪扩散概率模型（Denoising diffusion probabilistic model,DDPM）

3、基于分数的解释（Score-based DDPM）

4、扩散模型的三种等价表示

5、改进降噪扩散概率模型（Improved Denoising Diffusion Probabilistic Models,IDDPM）

6. 参考文献

Jascha Sohl-Dickstein, Eric A. Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. 2015. arXiv:1503.03585.2(1,2,3,4,5,6,7)

Calvin Luo. Understanding diffusion models: a unified perspective. 2022. arXiv:2208.11970.3(1,2,3,4)

Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. 2020. arXiv:2006.11239.4

Diederik P. Kingma, Tim Salimans, Ben Poole, and Jonathan Ho. Variational diffusion models. 2022. arXiv:2107.00630.5

Yang Song and Stefano Ermon. Generative modeling by estimating gradients of the data distribution. 2019. arXiv:1907.05600.

去噪扩散隐式模型（Denoising Diffusion Implicit Models,DDIM）

Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. 2022. arXiv:2010.02502.

基于分数的生成模型

Yang Song and Stefano Ermon. Generative modeling by estimating gradients of the data distribution. 2019. arXiv:1907.05600.

Yang Song, Jascha Sohl-Dickstein, Diederik P. Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. 2021. arXiv:2011.13456.

Aapo Hyvärinen and Peter Dayan. Estimation of non-normalized statistical models by score matching. Journal of Machine Learning Research, 2005.

Yang Song and Stefano Ermon. Improved techniques for training score-based generative models. 2020. arXiv:2006.09011.

条件控制扩散模型

Prafulla Dhariwal and Alex Nichol. Diffusion models beat gans on image synthesis. 2021. arXiv:2105.05233.2(1,2)

Calvin Luo. Understanding diffusion models: a unified perspective. 2022. arXiv:2208.11970.3

Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. 2022. arXiv:2207.12598.4

Alex Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, and Mark Chen. Glide: towards photorealistic image generation and editing with text-guided diffusion models. 2022. arXiv:2112.10741.5

Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with clip latents. 2022. arXiv:2204.06125.6

Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S. Sara Mahdavi, Rapha Gontijo Lopes, Tim Salimans, Jonathan Ho, David J Fleet, and Mohammad Norouzi. Photorealistic text-to-image diffusion models with deep language understanding. 2022. arXiv:2205.11487.

稳定扩散模型（Stable diffusion model）

Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. 2021. arXiv:2112.10752.

DDPM 模型在生成图像质量上效果已经非常好，但它也有个缺点，那就是尺寸是和图片一致的，元素和图片的像素是一一对应的，所以称 DDPM 是像素(pixel)空间的生成模型。我们知道一张图片的尺寸，如果想生成一张高尺寸的图像，张量大小是非常大的，这就需要极大的显卡（硬件）资源，包括计算资源和显存资源。同样的，它的训练成本也是高昂的。高昂的成本极大的限制了它在民用领用的发展

潜在扩散模型

2021年德国慕尼黑路德维希-马克西米利安大学计算机视觉和学习研究小组（原海德堡大学计算机视觉小组），简称 CompVis 小组，发布了论文 High-Resolution Image Synthesis with Latent Diffusion Models 1，针对这个问题做了一些改进，主要的改进点有：

引入一个自编码器，先对原始对象进行压缩编码，编码后的向量再应用到扩散模型。
通过在 UNET 中加入 Attention 机制，处理条件变量

清华&MSRA |使用2D扩散模型生成3D新视点图像

本文提出使用2D扩散模型生成3D感知图像的新模型。文章首次在大规模数据集ImageNet上训练该模型，能产生高质量的图像。

3D-aware Image Generation using 2D Diffusion Models

Jianfeng Xiang, Jiaolong Yang, Binbin Huang, Xin Tong

[Tsinghua University & Microsoft Research Asia & ShanghaiTech University]

【论文链接】https://arxiv.org/pdf/2303.17905.pdf

【项目链接】https://jeffreyxiang.github.io/ivid/

【摘要】本文介绍了一种新颖的3D感知图像生成方法，利用了2D扩散模型。作者将3D感知图像生成任务形式化为多视角2D图像集生成，并进一步发展为序列无条件-有条件多视角图像生成过程。这使得能够利用2D扩散模型提高方法的生成建模能力。此外，文章结合来自单目深度估计器的深度信息，使用仅静态图像构建有条件扩散模型的训练数据。作者在大规模数据集ImageNet上训练我们的方法，这是以前的方法没有涉及的。它产生高质量的图像，明显优于以前的方法。此外，该方法展示了其能力，即使训练图像来自“野外”真实环境中不同的未对准的图像，也能生成具有大视角的实例。

AI生成3D模型：DreamFusion、Point-E、Magic3D

1、DreamFusion（谷歌）

项目主页：https://dreamfusion3d.github.io/

paper: https://arxiv.org/abs/2209.14988

code: https://github.com/ashawkey/stable-dreamfusion

该文章解决的是3D重建领域的少视角重建(Sparse-view Reconstruction)问题，结合了扩散模型和NeRF。

摘要

最近扩散模型在上亿级别的文本-图像对数据上训练在文本图像生成上取得巨大的进展，将这种方法应用于3D合成，需要大规模的有标签的3D数据集和高效的架构来去噪3D数据，而这两者目前都不存在。在这项工作中，通过使用预先训练好的二维的文本到图像的扩散模型来绕开这些限制进行文本到3D的合成。本文引入一种基于概率密度蒸馏的损失函数，可以使用2D的扩散模型作为先验用于优化参数化图像生成器。使用这个损失函数就像一个DeepDream-like的过程，(这里的DeepDream是谷歌提出，使用梯度上升的方法可视化网络每一层的特征，即用一张噪声图像输入网络，反向更新的时候不更新网络权重，而是更新初始图像的像素值，以这种训练图像的方式可视化网络)。本文梯度下降优化一个随机初始化的3D模型使得任意随机视角随机渲染的图像都达到较低的损失。生成的模型可以任意修改，不需要三维数据，也不需要修改扩散模型。

本文的方法和DreamFields的方法类似，但是用一个2D扩散模型蒸馏推导而来的损失函数取代CLIP。这个损失函数是通过概率密度蒸馏而来的，就是用KL- divergence最小化前向过程和反向的概率密度，这里的反向过程是是与训练好的2D扩散模型，因为反向过程也是一个估计score的过程，所以我理解这就是他叫 score distillation sampling的原因吧。

该工作基于的3D表示方法也是NeRF中的一种。事实上，基于NeRF的重建方法通常需要针对特定场景的大量的视图，并且对于训练集中出现频率较少的视角，其关于该视角的重建结果也会很差。而对于少视角3D重建，虽然最近已经有很多工作结合了深度网络和渲染公式来完成这样的任务，但是它们要么缺乏3D一致性，要么感知质量比较差。

在3D生成领域，DreamFusion使用文本扩散模型优化3D表示，并且取得了非常好的效果。

如上图，这是DreamFusion的架构图，右边一部分就是Diffusion Model，这里用的是一个预训练的模型，左边一部分就是NeRF，是一个目标场景的3D表示，虽然画的花里胡哨的，但是其实思路非常直白简单：训练的时候锁住Diffusion的梯度，增加视角guidance，用生成结果来优化和训练NeRF；泛化阶段只需要使用优化后的NeRF就可以了。在这里，Diffsuion的作用是根据文本生成相应视角和内容的图片，NeRF的作用是约束3D一致性。

2、Magic3D（NVIDIA）

高分辨率文本到3D内容创建：

项目主页：https://deepimagination.cc/Magic3D/

论文：https://arxiv.org/abs/2211.10440

人们只需要输入一段文字比如「一只坐在睡莲上的蓝色箭毒蛙」，AI 就能给你生成个纹理造型俱全的 3D 模型出来。Magic3D 还可以执行基于提示的 3D 网格编辑：给定低分辨率 3D 模型和基本提示，可以更改文本从而修改生成的模型内容。此外，作者还展示了保持画风，以及将 2D 图像样式应用于 3D 模型的能力。

类似于 DreamFusion 用文本生成 2D 图像，再将其优化为体积 NeRF（神经辐射场）数据的流程，Magic3D 使用两阶段生成法，用低分辨率生成的粗略模型再优化到更高的分辨率。

英伟达的方法首先使用低分辨率扩散先验获得粗糙模型，并使用稀疏 3D 哈希网格结构进行加速。用粗略表示作为初始，再进一步优化了带纹理的 3D 网格模型，该模型具有与高分辨率潜在扩散模型交互的高效可微分渲染器。

Magic3D 可以在 40 分钟内创建高质量的 3D 网格模型，比 DreamFusion 快 2 倍（后者平均需要 1.5 小时），同时还实现了更高的分辨率。

Magic3D 可以在较短的计算时间内根据文本 prompt 合成高度详细的 3D 模型。Magic3D 通过改进 DreamFusion 中的几个主要设计选择来使用文本 prompt 合成高质量的 3D 内容。

具体来说，Magic3D 是一种从粗到精的优化方法，其中使用不同分辨率下的多个扩散先验来优化 3D 表征，从而生成视图一致的几何形状以及高分辨率细节。Magic3D 使用监督方法合成 8 倍高分辨率的 3D 内容，速度也比 DreamFusion 快 2 倍。

Magic3D 的整个工作流程分为两个阶段：

在第一阶段，该研究优化了类似于 DreamFusion 的粗略神经场表征，以实现具有基于哈希网格（hash grid）的内存和计算的高效场景表征。
在第二阶段该方法切换到优化网格表征。这个步骤很关键，它允许该方法在高达 512 × 512 的分辨率下利用扩散先验。由于 3D 网格适用于快速图形渲染，可以实时渲染高分辨率图像，因此该研究利用基于光栅化的高效微分渲染器和相机特写来恢复几何纹理中的高频细节。

3、Point-E（OpenAI）

Point·E，可以依据文本提示直接生成 3D 点云：

项目主页：https://openai.com/research/point-e

Github: https://github.com/openai/point-e

通常意义上，文本到 3D 合成的方法分为两类：

方法 1：直接在成对的 (text, 3D) 数据或无标签的 3D 数据上训练生成模型。

此类方法虽然可以利用现有的生成模型方法，有效地生成样本，但由于缺乏大规模 3D 数据集，因此很难扩展到复杂的文本提示。

方法 2：利用预先训练好的 text-to-image 模型，优化可区分的 3D 表征。

此类方法通常能够处理复杂多样的文本提示，但每个样本的优化过程都代价高昂。此外，由于缺乏强大的 3D prior，此类方法可能会陷入 local minima（无法与有意义或连贯的 3D 目标一一对应）。

Point·E 结合了 text-to-image 模型以及 image-to-3D 模型，综合以上两种方法的优势，进一步提升了 3D 建模的效率，只需要一个 GPU、一两分钟即可完成文本到 3D 点云的转换。

Point·E 中，text-to-image 模型利用了大型语料库（text, image pair)，使其对复杂的文本提示也能处理得当；image-to-3D 模型则是在一个较小的数据集 (image, 3D pair) 上训练的。

用 Point·E 依据文本提示生成 3D 点云的过程分为三个步骤：

1、依据文本提示，生成一个合成视图 (synthetic view)

GLIDE – 基于扩散模型的文本图像生成大模型

2、依据合成视图，生成 coarse point cloud (1024 point)

3、基于低分辨率点云和合成视图，生成 fine point cloud (4096 Point)

由于数据格式和数据质量对训练结果影响巨大，Point·E 借助 Blender，将所有训练数据都转换为了通用格式。

Blender 支持多种 3D 格式，并配有优化的渲染 engine。Blender 脚本将模型统一为一个 bounding cube，配置一个标准的 lighting 设置，最后使用 Blender 内置的实时渲染 engine 导出 RGBAD 图像。

4、Zero-1-to-3: Zero-shot One Image to 3D Object

项目链接：

https://zero123.cs.columbia.edu/

源码：

https://github.com/cvlab-columb

Method

We learn a view-conditioned diffusion model that can subsequently control the viewpoint of an image containing a novel object (left). Such diffusion model can also be used to train a NeRF for 3D reconstruction (right). Please refer to our paper for more details or checkout our code for implementation.

Text to Image to Novel Views

Here are results of applying Zero-1-to-3 to images generated by Dall-E-2.

5、SceneDreamer：从2D图像中学习生成无限3D场景

来自南洋理工大学 S-Lab 的研究者提出了一个新的框架 SceneDreamer，专注于从海量无标注自然图片中学习无界三维场景的生成模型。

项目主页：https://scene-dreamer.github.io/
代码：https://github.com/FrozenBurning/SceneDreamer
论文：https://arxiv.org/abs/2302.01330
在线 Demo：https://huggingface.co/spaces/FrozenBurning/SceneDreamer

为满足元宇宙中对 3D 创意工具不断增长的需求，三维场景生成最近受到了相当多的关注。3D 内容创作的核心是逆向图形学，旨在从 2D 观测中恢复 3D 表征。考虑到创建 3D 资产所需的成本和劳动力，3D 内容创作的最终目标将是从海量的互联网二维图像中学习三维生成模型。最近关于三维感知生成模型的工作在一定程度上解决了这个问题，多数工作利用 2D 图像数据生成以物体为中心的内容（例如人脸、人体或物体）。然而，这类生成任务的观测空间处于有限域中，生成的目标占据了三维空间的有限区域。这就产生了一个问题，我们是否能从海量互联网 2D 图像中学习到无界场景的 3D 生成模型？比如能够覆盖任意大区域，且无限拓展的生动自然景观

想要达成这样的目标，我们面临着如下三个挑战：

1）无界场景缺乏高效三维表征：无边界场景常常占据了一个任意大的欧氏空间，这凸显了高效且具备表现力的底层三维表征的重要性。

2）缺乏内容对齐：已有三维生成工作使用具备对齐性质的数据集（如人脸、人体、常用物体等），这些有界场景中的目标物体通常具备类似的语义、相近的尺度位置和方向。然而，在海量的无标注二维图像中，不同物体或场景常常具备迥异的语义，且拥有多变的尺度、位置和方向。这样缺乏对齐的性质会带来生成模型训练的不稳定性。

3）缺乏相机位姿先验：三维生成模型依赖于准确相机位姿或相机位姿分布的先验来实现图像到三维表征的逆向渲染过程。但互联网自然图像来源于不同的场景和像源，让我们无法获取其相机位姿准确信息或先验。

为此我们提出了一个原则性的对抗学习框架 SceneDreamer，从海量的无标注自然图像中学习生成无界三维场景。该框架包含三个主要模块：1）高效且高表现力的鸟瞰（BEV）三维场景表征；2）学习场景通用表征的生成式神经哈希网格；3）由风格驱动的体积渲染器，并经过对抗学习的方式直接从二维图像中进行训练。

6、 Shap・E，合成 3D 条件生成式模型

论文地址：https://arxiv.org/abs/2305.02463
项目地址：https://github.com/openai/shap-e

我们先来看一下生成效果。与根据文字生成图像类似，Shap・E 生成的 3D 物体模型主打一个「天马行空」。

本文提出的 Shap・E 是一种在 3D 隐式函数空间上的潜扩散模型，可以渲染成 NeRF 和纹理网格。在给定相同的数据集、模型架构和训练计算的情况下，Shap・E 更优于同类显式生成模型。研究者发现纯文本条件模型可以生成多样化、有趣的物体，更彰显了生成隐式表征的潜力。

不同于 3D 生成模型上产生单一输出表示的工作，Shap-E 能够直接生成隐式函数的参数。训练 Shap-E 分为两个阶段：首先训练编码器，该编码器将 3D 资产确定性地映射到隐式函数的参数中；其次在编码器的输出上训练条件扩散模型。当在配对 3D 和文本数据的大型数据集上进行训练时，该模型能够在几秒钟内生成复杂而多样的 3D 资产。与点云显式生成模型 Point・E 相比，Shap-E 建模了高维、多表示的输出空间，收敛更快，并且达到了相当或更好的样本质量。

研究者首先训练编码器产生隐式表示，然后在编码器产生的潜在表示上训练扩散模型，主要分为以下两步完成:
1. 训练一个编码器，在给定已知 3D 资产的密集显式表示的情况下，产生隐式函数的参数。编码器产生 3D 资产的潜在表示后线性投影，以获得多层感知器（MLP）的权重；

2. 将编码器应用于数据集，然后在潜在数据集上训练扩散先验。该模型以图像或文本描述为条件。
研究者在一个大型的 3D 资产数据集上使用相应的渲染、点云和文本标题训练所有模型。

3D 编码器:

潜在扩散
生成模型采用基于 transformer 的 Point・E 扩散架构，但是使用潜在向量序列取代点云。潜在函数形状序列为 1024×1024，并作为 1024 个 token 序列输入 transformer，其中每个 token 对应于 MLP 权重矩阵的不同行。因此，该模型在计算上大致相当于基础 Point・E 模型（即具有相同的上下文长度和宽度）。在此基础上增加了输入和输出通道，能在更高维度的空间中生成样本。

7、Make-it-3D：diffusion+NeRF从单张图像生成高保真的三维物体

Title: Make-It-3D: High-Fidelity 3D Creation from A Single Image with Diffusion Prior
Paper: https://arxiv.org/pdf/2303.14184.pdf
Code: https://make-it-3d.github.io/

人类具有一种与生俱来的能力，可以轻松地想象3D几何和虚构出从不同角度看物体的外观，这基于他们对世界的先验知识。

在本文中，研究者的目标是实现类似的目标：从一个真实或人工生成的单张图像中创建高保真度的3D内容。这将为艺术表达和创意开辟新的途径，例如为像Stable Diffusion这样的前沿2D生成模型创建的幻想图像带来3D效果。通过提供一种更易于访问和自动化的创建视觉上惊人的3D内容的方法，研究者希望吸引更广泛的受众加入到轻松的3D建模世界中来。

本文探讨了仅使用单张图像创建高保真度3D内容的问题。这本质上是一项具有挑战性的任务，需要估计潜在的3D几何结构，并同时产生未见过的纹理。为了解决这个问题，论文利用训练好的2D扩散模型的先验知识作为3D生成的监督。论文的方法名为：Make-It-3D，采用两阶段优化pipeline：第一阶段通过在前景视图中结合参考图像的约束和新视图中的扩散先验来优化神经辐射场；第二阶段将粗略模型转化为纹理点云，并利用参考图像的高质量纹理，结合扩散先验进一步提高逼真度。大量实验证明，论文的方法在结果上显著优于先前的方法，实现了预期的重建效果和令人印象深刻的视觉质量。论文的方法是第一个尝试从单张图像为一般对象创建高质量3D内容的方法，可用于text-to-3D的创建和纹理编辑等各种应用。

论文的主要贡献总结如下：

论文提出了Make-It-3D框架，使用2D扩散模型作为3D-aware先验，从单个图像中创建高保真度的3D物体。该框架不需要多视图图像进行训练，并可应用于任何输入图像，无论是真实的还是生成的。
通过两个阶段的创建方案，Make-It-3D是首个实现普适对象高保真3D创建的工作。生成的3D模型展现出精细的几何结构和逼真的纹理，与参考图像相符。
除了图像到3D创建之外，论文的方法还能实现高质量text-to-3D创建和纹理编辑等多种应用。

论文利用了文本-图像生成模型和文本-图像对比模型的先验知识，通过两阶段(Coarse Stage和Refine Stage)的学习来还原高保真度的纹理和几何信息，所提出的两阶段三维学习框架如图2所示。

8、ProlificDreamer：直接文本生成高质量3D内容

论文：《ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation》

论文链接：https://arxiv.org/abs/2305.16213
项目主页：https://ml.cs.tsinghua.edu.cn/prolificdreamer/

清华大学 TSAIL 团队最新提出的文生 3D 新算法 ProlificDreamer，在无需任何 3D 数据的前提下能够生成超高质量的 3D 内容。ProlificDreamer 算法为文生 3D 领域带来重大进展。利用 ProlificDreamer，输入文本 “一个菠萝”，就能生成非常逼真且高清的 3D 菠萝：

将 Imagen 生成的照片（下图静态图）和 ProlificDreamer（基于 Stable-Diffusion）生成的 3D（下图动态图）进行对比。有网友感慨：短短一年时间，高质量的生成已经能够从 2D 图像领域扩展到 3D 领域了

在数字创作和虚拟现实等领域，从文本到三维模型（Text-to-3D）的技术具有重要的价值和广泛的应用潜力。这种技术可以从简单的文本描述中生成具体的 3D 模型，为设计师、游戏开发者和数字艺术家提供强大的工具。然而，为了根据文本生成准确的 3D 模型，传统方法需要大量的标记 3D 模型数据集。这些数据集需要包含多种不同类型和风格的 3D 模型，并且每个模型都需要与相应的文本描述相关联。创建这样的数据集需要大量的时间和人力资源，目前还没有现成的大规模数据集可供使用。由谷歌提出的 DreamFusion [1] 利用预训练的 2D 文本到图像扩散模型，首次在无需 3D 数据的情况下完成开放域的文本到 3D 的合成。但是 DreamFusion 提出的 Score Distillation Sampling (SDS) [1] 算法生成结果面临严重的过饱和、过平滑、缺少细节等问题。高质量 3D 内容生成目前仍然是非常困难的前沿问题之一。ProlificDreamer 论文提出了 Variational Score Distillation（VSD）算法，从贝叶斯建模和变分推断（variational inference）的角度重新形式化了 text-to-3D 问题。具体而言，VSD 把 3D 参数建模为一个概率分布，并优化其渲染的二维图片的分布和预训练 2D 扩散模型的分布间的距离。可以证明，VSD 算法中的 3D 参数近似了从 3D 分布中采样的过程，解决了 DreamFusion 所提 SDS 算法的过饱和、过平滑、缺少多样性等问题。此外，SDS 往往需要很大的监督权重（CFG=100），而 VSD 是首个可以用正常 CFG（=7.5）的算法。

与以往方法不同，ProlificDreamer 并不单纯优化单个 3D 物体，而是优化 3D 物体对应的概率分布。通常而言，给定一个有效的文本输入，存在一个概率分布包含了该文本描述下所有可能的 3D 物体。基于该 3D 概率分布，我们可以进一步诱导出一个 2D 概率分布。具体而言，只需要对每一个 3D 物体经过相机渲染到 2D，即可得到一个 2D 图像的概率分布。因此，优化 3D 分布可以被等效地转换为优化 2D 渲染图片的概率分布与 2D 扩散模型定义的概率分布之间的距离（由 KL 散度定义）。这是一个经典的变分推断（variational inference）任务，因此 ProlificDreamer 文中将该任务及对应的算法称为变分得分蒸馏（Variational Score Distillation，VSD）。具体而言，VSD 的算法流程图如下所示。其中，3D 物体的迭代更新需要使用两个模型：一个是预训练的 2D 扩散模型（例如 Stable-Diffusion），另一个是基于该预训练模型的 LoRA（low-rank adaptation）。该 LoRA 估计了当前 3D 物体诱导的 2D 图片分布的得分函数（score function），并进一步用于更新 3D 物体。该算法实际上在模拟 Wasserstein 梯度流，并可以保证收敛得到的分布满足与预训练的 2D 扩散模型的 KL 散度最小。

3D表示+2D Diffusion做3D任务的四个流派：

用Diffusion优化3D隐式场（其中Diffusion是预训练的），特别是NeRF相关工作，例如DreamFusion和SparseFusion；
使用3D Unet定制3D Diffusion，特别是point cloud相关工作；
把3D表示拆解并且重新拼接，变成超多通道2D图像，直接复用2D Diffusion，特别是Triplane相关工作，例如3D Neural Field Generation using Triplane Diffusion；
把2D Diffusion的Unet()换成一个renderer+encoder的结构，即间接引入3D约束，例如RenderDiffusion；
将3D约束编码成条件，用来约束2D Diffusion，例如DiffPose；

9： GET3D 英伟达：噪声—->3D物体

A Generative Model of High Quality 3D Textured Shapes Learned from Images (NeurIPS 2022 )

代码：https://github.com/nv-tlabs/GET3D

GET3D 包括两个分支：

1.几何分支：可微的输出任意拓扑的表面mesh

2.纹理分支：根据查询的表面点来产生 texture field，还可以扩展到表面的其他属性，比如材质

训练过程中，一个有效的可微栅格器将生成的带纹理 3D 模型投影到 2D 的高分辨率图片。整个过程都是可微分的，使得整个对抗训练可以从 discriminator 传递到两个分支。

10. DragGAN meets GET3D for interactive mesh generation and editing.

https://github.com/ashawkey/Drag3D

https://github.com/XingangPan/DragGAN

Diffusion Models从入门到放弃：必读的10篇经典论文

前言：diffusion models是现在人工智能领域最火的方向之一，并引爆了AIGC领域，一大批创业公司随之诞生。笔者2021年6月开始研究diffusion，见证了扩散模型从无人问津到炙手可热的过程，这些篇经典论文专栏里都详细介绍过原理、复现过代码。这篇博客以时间发展顺序，串讲一下从入门到精(放)通(弃)的10篇必读的经典论文。

摘自：https://zhuanlan.zhihu.com/p/595866176

1、DDPM奠基之作：《Denoising Diffusion Probabilistic Models》

推荐理由：本文是DDPM的奠基之作，是本领域最经典的论文之一。其实扩散模型并不是一个新的概念，这篇论文第一个给出了严谨的数学推导，可以复现的代码，完善了整个推理过程。后面diffusion models相关的论文基本都继承了前向加噪-反向降噪-训练这样的体系。所以强烈推荐初学者精读这篇论文！

博客地址：Diffusion Models扩散模型与深度学习(数学原理和代码解读)

代码地址：GitHub – lucidrains/denoising-diffusion-pytorch: Implementation of Denoising Diffusion Probabilistic Model in Pytorch

2、从DDPM到DDIM：《Denoising Diffusion Implicit Models》

推荐理由：作者使用简单的重参数化和混合学习目标来学习反向过程方差，该目标将VLB与DDPM的简化目标相结合。在混合目标下，所提出模型获得的对数似然比通过直接优化对数似然获得的对数似然更好，并发现后一个目标在训练期间具有更多的梯度噪声。最关键的是，原先的DDPM需要长达1000steps的推理步骤，而DDIM改善了反向扩散过程中的噪声水平，改变了xt递推公式，在更少的推理步骤(如100步)上取得了更好的结果。这项成果堪称革命性的，后面的大部分diffusion models论文(特别是运算量高的)都采用这一改进技术。

博客地址：深入解读：从DDIM到Improved Denoising Diffusion Probabilistic Models

代码地址：GitHub – ermongroup/ddim: Denoising Diffusion Implicit Models

3、第一波高潮！首次击败GANs：《Diffusion Models Beat GANs on Image Synthesis》

推荐理由：其实前面diffusion models也只是在生成领域小火了一把，并没有引起太多人的关注。主要原因有两点：一是扩散模型并没有太多数学理论上的创新；二是在生成指标上不如GANs。而这篇论文的出现把diffusion models的推向了第一波高潮！这篇论文有三个需要重点学习的地方：

一是在Unet基础上有了很多改进的小trick(不亏是OpenAI的作品)，改进之后的Unet更能适配噪声，因此指标上也进步了很多：

如果看完这部分不妨反问自己这几个问题：模型结构是如何共享信息参数的？self-attention的作用是什么？预测噪声数据和预测真实数据有没有本质区别？为什么要分层设计？为什么一定要使用Unet结构？如果不清楚，欢迎看看我之前的博客：《为什么Diffusion Models钟爱U-net结构？》

二是classifier-guidance的引入，这段推导用了二阶泰勒展开，非常精彩！之后的很多论文将类别引导扩展到一般的条件引导上，包括后来大火的GLIDE。这在latent diffusion models没出来之前，是一项非常成功、被广泛使用的条件引导技术！

三是规范化的代码guided-diffusion。OpenAI的工匠精神，这份代码打磨得非常好，堪称工业级！后面很多顶会论文都是在这份代码的基础上改进的。如果想要学习diffusion models的代码，推荐以这份代码为基础。

博客地址：击败GANs的新生成式模型：score-based model(diffusion model)原理、网络结构、应用、代码、实验、展望

代码地址：GitHub – openai/guided-diffusion

4、条件分类器技术进一步发展：《Classifier-Free Diffusion Guidance》

推荐理由：我推荐的其他论文基本上都发表机器学习/计算机视觉顶会，而这篇文章虽然只发表于cvpr workshop，但是作者提出了一个新的分数估计函数：有条件分数函数和无条件分数函数的线性组合，平衡了有条件的分数函数和无条件分数函数。当然在论文中作者先论述了《Diffusion Models Beat GANs on Image Synthesis》中提出的分类器技术的问题：额外训练一个分类器，并且往往会造成多样性下降的特点。当然这个问题也是必然出现的，因为分类器就是在生成质量和生成多样性中间做平衡。之所以推荐这篇论文，因为这项技术被后来的论文广泛应用，简单有用，值得学习！

博客地址：无分类器指导的Classifier-free Diffusion Models技术

代码地址：https://github.com/lucidrains/classifier-free-guidance-pytorch

5、Image-to-Image经典之作《Palette: Image-to-Image Diffusion Models》

推荐理由：我不确定Palette是不是第一个实现diffusion models 图像翻译工作的，但是一定是第一个火起来让很多圈内人关注的！Palette从pix2pix GANs中获取灵感，能够实现图像着色、图像修复、图像剪裁恢复、图像解压缩(超分)等等任务，最大的意义在于让更多人看到了diffusion models在图像翻译领域的潜力。从cvpr 2021开始，海量的相关论文被发表。

博客地址：用Diffusion Models实现image-to-image转换

代码地址：https://github.com/Janspiry/Palette-Image-to-Image-Diffusion-Models

6、畅游多模态领域：GLIDE

推荐理由：经典的三篇text-to-image的论文：DALLE 2、Imagen、GLIDE。在上半年各领风骚，让text-to-image方向成为diffusion中最受关注的领域。这三篇论文最先推荐的GLIDE的原因是它最先放出完成代码和预训练模型。预训练模型很重要！因为text-to-image领域都是大模型，不放出模型的话，我们这些非大组(指能分到40块显卡以上的)研究者根本无法在这基础上自己做迁移学习。GLIDE的核心跨模态引导公式来自《Diffusion Models Beat GANs on Image Synthesis》中的分类器引导，不同的是，这篇文章并没有给出严谨的证明过程。但是实验结果表明确实取得了很好的效果，后面的研究者从中获得启示，把其他的多模态信息按照这种方法注入，也取得了非常惊艳的结果。

博客地址：2021年度最火Diffusion Models：用于图像编辑和text引导图像生成的GLIDE

代码地址：https://github.com/openai/glide-text2im/tree/main/glide_text2im

7、stable diffusion的原型：《High-Resolution Image Synthesis with Latent Diffusion Models》

推荐理由：全体起立！终于讲到stable diffusion models了！这篇论文发表在cvpr 2022上，当时就受到了很多研究者们的关注，但是谁也没想到，一年后以latent diffusion models会孵化出stable diffusion这样彻底火出圈的作品。这篇论文有两个关键点值得关注：一是用encoder-decoder放缩到latent域上操作，又回到了生成领域最经典的结构，在latent域(即z)上操作，这种方法在vae上也算常用。二是cross-attention的结构，这种方法早在2020年的论文handwriting diffusion上就用过，但是当时并没有引起广泛的注意。在这之后cross-attention成为多模态的一种常用方法，成为新的常用条件扩散模型。

博客地址：详细解读Latent Diffusion Models：原理和代码

代码地址：https://github.com/CompVis/latent-diffusion

8、高调进军视频领域：《Video Diffusion Models》

推荐理由：有位“诗人”曾经说过：站在风口上X都能飞。这篇论文出现的时候，diffusion models已经在图像、多模态、3D等领域大杀四方了。video生成很显然是下一个风口，这时候谷歌研究院的作品video diffusion models横空出世。这篇论文需要注意两个点：一是怎样引入时序信息的方法，很值得借鉴。二是梯度引导法是首次被提出，当时我写的博客中说如果好用肯定会很快流行。事实证明，谷歌出品必属精品，果然流行的一番！

Video Diffusion Models：基于扩散模型的视频生成_沉迷单车的追风少年的博客-CSDN博客

博客地址：Video Diffusion Models：基于扩散模型的视频生成

代码地址：https://github.com/lucidrains/video-diffusion-pytorch

9、了不起的attention：《Prompt-to-Prompt Image Editing with Cross Attention Control》

推荐理由：在今年的ICLR中，diffusion models超过图神经网络，成为投稿最多的主题。这几千篇投稿中，这篇论文取得了审稿人的一致accept好评。这篇文章沿用了latent diffusion models提出了cross-attention的结构，但是做了不少改进，特别需要注意的是可解释性问题，作者将QKV可视化，替换attention map达到控制的目的。这种控制技术相比于LDM更细腻，更有说服力。

博客地址：【ICLR 2023】Diffusion Models扩散模型和Prompt Learning提示学习：prompt-to-prompt

代码地址：https://github.com/bloc97/CrossAttentionControl

10、Unet已死，transformer当立！《Scalable Diffusion Models with Transformers》

推荐理由：Unet本来是发源于医疗图像分割的backbone，后来pix2pix GANs开始引入到生成领域，diffusion models的研究者们一直想替换掉这个backbone，用更原生的方法。在语音领域、时间序列领域，早在2020年就有论文引入transformer作为backbone。不过笔者尝试将其引入到二维图像生成上，并没有取得好的效果。最近的一项研究成果成功用改进版本的transformer替换掉Unet，并取得了更好的效果。笔者最近复现了代码，大为震撼！我觉得这项研究生过会很快流行，强烈推荐！

博客地址：尚未写完，敬请期待哈哈

代码地址：https://github.com/facebookrese

Anything-3D

论文地址：https://arxiv.org/pdf/2304.10261.pdf

github: https://github.com/Anything-of-anything/Anything-3D

2D图像的3D重建一直是CV领域的重头戏。

层出不同的模型被开发出来试图攻克这个难题。

今天，新加坡国立大学的学者共同发表了一篇论文，开发了一个全新的框架Anything-3D来解决这个老大难问题。

借助Meta「分割一切」模型，Anything-3D直接让分割后的任意物体活起来了。

Here we present a project where we combine Segment Anything with a series of 3D models to create a very interesting demo. This is currently a small project, but we plan to continue improving it and creating more exciting demos.

Contributions are highly Welcomed!🤝🙌

Anything-3D！在现实世界中，各种物体和各类环境既多样又复杂。所以，在不受限制的情况下，从单一RGB图像中进行三维重建面临诸多困难。在此，新加坡国立大学研究人员结合了一系列视觉语言模型和SAM（Segment-Anything）物体分割模型，生成了一个功能多、可靠性强的系统——Anything-3D。目的就是在单视角的条件下，完成3D重建的任务。

他们采用BLIP模型生成纹理描述，用SAM模型提取图像中的物体，然后利用文本→图像的扩散模型Stable Diffusion将物体放置到Nerf（神经辐射场）中。在后续的实验中，Anything-3D展示出了其强大的三维重建的能力。不仅准确，适用面也非常广泛。Anything-3D在解决现有方法的局限这方面，效果明显。研究人员通过对各类数据集的测验和评估，展示了这种新框架的优点。

上图中，我们可以看到，「柯基吐舌头千里奔袭图」、「银翅女神像委身豪车图」，以及「田野棕牛头戴蓝绳图」。这是一个初步展示，Anything-3D框架能够熟练地把在任意的环境中拍摄的单视角图像中恢复成的3D的形态，并生成纹理。尽管相机视角和物体属性有很大的变化，但这种新框架始终能提供准确性较高的结果。要知道，从2D图像中重建3D物体是计算机视觉领域课题的核心，对机器人、自动驾驶、增强现实、虚拟现实，以及三维打印等领域都有巨大影响。虽说这几年来取得了一些不错的进展，但在非结构化环境中进行单图像物体重建的任务仍然是一个具有很大吸引力且亟待解决的问题。目前，研究人员的任务就是从一张单一的二维图像中生成一个或多个物体的三维表示，表示方法包括点云、网格或体积表示。然而，这个问题从根本上来说并不成立。由于二维投影所产生的内在模糊性，不可能明确地确定一个物体的三维结构。再加上形状、大小、纹理和外观的巨大差异，重建自然环境下的物体非常复杂。此外，现实世界图像中的物体经常会被遮挡，这就会阻碍被遮挡部分的精准重建。同时，光照和阴影等变量也会极大地影响物体的外观，而角度和距离的不同也会导致二维投影的明显变化。困难说够了，Anything-3D可以出场了。论文中，研究人员详细介绍了这个开创性的系统框架，将视觉语言模型和物体分割模型融合在一起，轻轻松松就能把2D物体搞成3D的。这样，一个功能强大、自适应能力强的系统就成了。单视图重建？Easy.研究人员表示，将这两种模型结合，就可以检索并确定出给定图像的三维纹理和几何形状。Anything-3D先用SAM模型识别物体的分布区域，在利用BLIP模型（Bootstrapping语言-图像模型）预训练对图像的文本描述。接下来，利用分割出来的物体和文本描述来执行3D重建任务。换句话说，该论文利用预先训练好的2D文本→图像扩散模型来进行图像的3D合成。此外，研究人员用分数蒸馏来训练一个专门用于图像的Nerf.

上图就是生成3D图像的全过程。左上角是2D原图，先经过SAM，分割出柯基，再经过BLIP，生成文本描述，然后再用分数蒸馏搞个Nerf出来。通过对不同数据集的严格实验，研究人员展示了这种方法的有效性和自适应性，同时，在准确性、稳健性和概括能力方面都超过了现有的方法。研究人员还对自然环境中3D物体重建中已有的挑战进行了全面深入地分析，探讨了新框架如何解决此类问题。最终，通过将基础模型中的零距离视觉和语言理解能力相融合，新框架更能从真实世界的各类图像中重建物体，生成精确、复杂、适用面广的3D表示。可以说，Anything-3D是3D物体重建领域的一个重大突破。

这个新框架可以交互式地识别单视角图像中的区域，并用优化的文本嵌入来表示2D物体。最终，使用一个3D感知的分数蒸馏模型有效地生成高质量的3D物体。总之，Anything-3D展示了从单视角图像中重建自然3D物体的潜力。研究者称，新框架3D重建的质量还可以更完美，研究人员正在不断努力提高生成的质量。此外，研究人员表示，目前没有提供3D数据集的定量评估，如新的视图合成和误差重建，但在未来的工作迭代中会纳入这些内容。同时，研究人员的最终目标是扩大这个框架，以适应更多的实际情况，包括稀疏视图下的对象恢复。

AvatarCLIP: Zero-Shot Text-Driven Generation and Animation of 3D Avatars

AvatarCLIP：仅用自然语言驱动实现制作3D avatar动画

1. 论文和代码地址

论文地址：https://arxiv.org/abs/2205.08535

代码地址：https://github.com/hongfz16/AvatarCLIP

2. 动机

3D avatar生成在数字时代有至关重要的作用，一般而言，创建一个3Davatar需要创建一个人物形象、绘制纹理、建立骨架并使用捕捉到的动作对其进行驱动。无论哪一个步骤都需要专业人才、大量时间和昂贵的设备，为了让这项技术面向大众，本文提出了AvatarCLIP，一个zero-shot文本驱动的3Davatar生成和动画化的框架。与专业的制作软件不同，这个模型不需要专业知识，仅仅通过自然语言就可以生成想要的avatar。本文主要是利用了大规模的视觉语言预训练模型CLIP来监督人体的生成，包括几何形状、纹理和动画。使用shapeVAE来初始化人类几何形状，进一步进行体渲染，接着进行几何雕刻和纹理生成，利用motionVAE得到运动先验来生成三维动画

3. 方法

3.1模型概述

下图展示了AvatarCLIP的框架，模型分为两个部分，上面的部分是生成静态的avatar，下面的部分是生成动作。

模型的输入是自然语言描述，body描述、外观描述和动作描述，模型的输出包括一个动画的3Davatar，以及一系列想要的poses。

静态avatar生成分为四步，首先根据SMPL的模板和语言提示初始化Mesh，接下来用NeuS提取mesh的隐式表示，然后使用隐式表示来构建形状和生成纹理，最后进行动画化。motion生成首先生成备选姿势，然后基于备选姿势生成动作序列。最后将动作做序列融入到动画中。

3.2静态avatar生成

3.2.1coarse shape mesh 生成

作为生成虚拟形象的第一步，生成一个粗糙的模板mesh。SMPL 被用作可能的人体形状的来源。如图 3 所示，首先通过对身体形状进行聚类来构建code-book。然后使用CLIP提取code-book和文本中身体形状渲染的特征，以获得最佳匹配的身体形状。

SMPL是通过主成分分析学习的，所以聚类的分布不均衡。通过训练一个shapeVAE，在VAE的隐空间使用K-Means聚类，来实现分类均匀的目的。对于CLIP引导的code-book查询，定义了一个中性状态的身体形状以及相应的中性状态文本作为参考。每个条目的得分在code-book中定义为

最终选择si最大的mesh 作为输出。

3.2.2隐式表达

为了生成高质量的 3D avatar，形状和纹理需要进一步塑造和生成以匹配外观 app 的描述。如前所述，我们选择使用隐式表示，即 Neus，作为此步骤中的基本 3D 表示，因为它在几何和颜色上都具有优势。为了加速优化和控制形状生成，更方便生成动画，所以需要先将生成的粗糙mesh shape转化为隐式表示。

通过使用模板mesh 的多视图渲染{ }优化随机初始化的NeuS 来创建的等效隐式表示。具体来说，如图4所示，NeuS = { ( ), ( )} 由两个子网组成。SDF网络 ( )以一定点作为输入，输出与其最近的表面有符号距离。颜色网络 ( )以点为输入，输出颜色。 ( ) 和 ( ) 都是使用 MLP 实现的。需要注意的是，与NeuS的原始实现相比，这里省略了颜色网络对观看方向的依赖。

视图方向依赖性最初设计用于对视角变化的阴影进行建模。在我们的例子中，对此类阴影效应进行建模是多余的，因为我们的目标是生成具有一致文本的 3D avatar，与原始设计类似，由三部分损失函数优化：

color是渲染图和ground truth之间的重建损失 reg是SDF正则化的损失 mask是仅仅重建前景的损失

3.2.3形状构建+纹理生成

通过CLIP风格化初始的NeuS N，粗糙的形状仍应保持，所以通过保留了原来的两个子网络 ( ) 和 ( ) 并引入额外的彩色网络 ( ). 两个颜色网络共享同一SDF网络 ( ) 如图5所示。 ( )和 ( ) 负责模板网格的重建 . ( ) 连同 ( ) 负责风格化部分，并且包括目标隐式3D化身。

形式上，新的NeuS模型 ′ = { ( ), ( ), ( )} 现在由三个子网络组成，其中 ( ) 和 ( ) 由预先培训的 , 和 ( )是随机初始化的颜色网络。

损失函数如下

没有纹理的渲染中颜色是不需要的，我们简单的计算一个灰度的光线通过：

其中A服从一个均匀分布，并随机采样，D= 1-A。通过上面的式子应用到一张图片的每一个像素中，我们可以得到没有纹理渲染的图片。

在实践中，我们发现纹理渲染上的随机着色有利于生成纹理的均匀性，这将在消融研究中稍后讨论。随机着色打开类似于无纹理渲染，其正式定义为

上面两种渲染过程的损失函数就损失函数的后两项，定义为：

3.2.4 增强过程

为了增强优化过程的鲁棒性，使用了三种增强手段：背景随机增强；随机相机参数采样；文本提示语义增强。

随机背景增强，使得CLIP能更加focus on 需要生成的对象上，本文采用了图六中展示的背景增强的手段。

为了防止网络找到仅为几个固定相机位置提供合理渲染的捷径解决方案，我们以手动定义的重要性采样方式对每个优化迭代的相机外部参数进行随机采样，以获得更连贯和平滑的结果。我们选择使用相机的“注视”模式，该模式由注视点、相机位置和向上方向组成。

向上的方向一般是人体向上的方向，注视点采用随机采样的方法，相机位置使用半径为从均匀分布U（1，2）采样，极角从均匀分布U（0，2 ), 方位角从高斯分布N（0， /3）采样，使得相机在大多数迭代中指向化身的前方。

到目前为止，在整个优化过程中没有引入人类先验，这可能会导致在错误的身体部位生成纹理或不为重要的身体部位创建纹理，这将在稍后的消融研究中显示。为了防止此类问题，我们建议通过以语义感知的方式增强提示，在优化过程中明确引入人类先验。例如，如图7所示，如果 app=“乔布斯”，我们将增加应用到两个附加提示 face=“史蒂夫·乔布斯的脸”和 back=“史蒂夫·乔布斯的背影”。对于每四次迭代，相机的注视点被设置为面部的中心，以获得面部的渲染，这将由提示进行监督面对“面部增强”直接监督面部的生成，这对生成的化身的质量很重要，因为人类对面部更敏感。对于第二增强提示， back被用作相应的文本，以明确地指导化身背部的生成。

3.2.5动画生成

首先，中每个顶点的最近邻居在模板网格的顶点中检索 . 混合中每个顶点的权重从中最近的顶点复制 . 其次，使用反向LBS算法来带来avatar的站立姿势站回零姿势 0。顶点被转换为 0 . 最后 0可以由任何姿势驱动使用LBS算法。因此，对于任何姿势，动画avatar都可以正式定义为:

LBS算法是线性混合蒙皮，用户在几何模型给上选择一系列控制单元，并计算几何模型受这些控制单元的影响权重，用户拖动控制单元，几何模型随着控制单元发生对应的变化。

3.3motion 生成

根据经验，CLIP不能直接估计运动序列和自然语言描述之间的相似性。它也缺乏评估运动序列的平滑性或合理性的能力。这两个限制表明，仅使用CLIP监督很难生成运动。因此，必须引入其他模块来提供运动先验。然而，CLIP能够评估渲染的人体姿势和描述之间的相似性。此外，类似的姿势可以被视为预期运动的参考。基于以上观察，我们提出了一个两阶段运动生成过程：1）由CLIP引导的候选姿态生成。2）使用具有候选姿势作为参考的运动先验来生成运动序列。

3.3.1生成candidate pose

我们首先从AMASS数据集创建code-book。为了减少维度，VPoser用于将姿势编码为 ∈ R ，然乎使用K-Means聚类来建立code-book Bz，每一个Bz然后通过解码器解码为一些列的姿势。

给定的文本描述运动，每个姿势特征从代码本中计算与文本特征的相似度 , 其用于选择Top-K条目作为候选姿势。

3.3.2motion VAE

本文提出了一种双重方法来生成与运动描述匹配的目标运动序列运动

1） motionVAE被训练以捕获人类运动先验。

2）我们使用候选姿态优化motion VAE的潜在代码作为参考。

motion VAE包含encoder、decoder和重参数模块。

encoder模块包括projection layer、positional embedding layer 、几个transformer encoder块和output layer。输出等于

重参数模块生成一个高斯分布，两个全连接层分别计算均值和方差

随机潜在编码z从得到的高斯分布中采样，潜在编码通过decoder解码得到motion序列

训练motion VAE过程中的损失函数定义为：

3.3.3生成运动序列

使用预训练的motion VAE，我们尝试优化其潜在代码以合成运动序列 Θ = motion ( )。提出了三个优化约束：

Lpose 是解码后的动作序列 Θ 和候选姿势之间的重构项。给定参考带来 = { 1, 2,., }，目标是构建一个与这些姿势足够接近的动作序列。我们建议最小化与其最近的帧Θ 之间的距离，其中 ∈ {1, 2,., } 和 ∈ {1, 2,., }。形式上，重建损失定义为

根据经验，仅使用重建损失 Lpose，生成的运动往往是过度平滑的。Ldelta 测量运动的范围，以防止运动过于平滑。作为对过度平滑运动的惩罚项。在增加 λ6 时会产生更强烈的运动。

L clips 鼓励运动中的每个单一姿势匹配输入运动描述。缺乏对姿势排序的监督将导致不稳定的生成结果。此外，候选姿势可能只对最终运动序列的一小部分有贡献，这将导致意外的运动片段。为了解决这两个问题，我们设计了一个附加的CLIP引导损失项：

是姿势Θ和文本描述之间的相似度得分。 clip ( ) = 是一个单调递增的函数，因此 L clip 对序列中的后面姿势给予更高的惩罚。通过上述 CLIP 引导的术语，整个运动序列将与运动更加一致。

4.实验

4.1总体结果

上图展示了具有多种身体形状，外观多样，质量高。它们由生成的与输入描述合理且一致的运动序列驱动。在zero-shot style中，AvatarClip 能够生成avatar和动作并且动画化，利用预训练模型中的先验信息。最初需要专业软件专家知识的化身生成和动画的整个过程现在可以在我们提出的模型帮助下简单地由自然语言驱动。

4.2Avatar 生成

4.2.1消融实验

1)背景增强的设计

2)低纹理渲染的监督

3)纹理渲染的随机阴影

4)语义感知提示增强。

图12所示的消融设置是通过随后将上述四种设计添加到baseline中形成的。如图12的前两列所示，背景增强对纹理生成有很大影响，如果没有背景增强，纹理会变得非常暗。比较第二列和第三列，添加对无纹理渲染的监督可以大大提高几何体质量。“消融2”的几何结构有很多随机凸起，这会使表面产生噪音。而“消融3”的几何结构是光滑的，并有详细的衣服褶皱。如“消融3”和“消融4”所示，在纹理渲染图上添加随机阴影有助于生成更均匀的纹理。例如，《消融3》中的“唐纳德·特朗普”上身比下身更亮，这在《消融4》中有所改进。如果没有人体语义的意识，前面的四个设置无法为化身生成正确的面部。最后一列使用语义感知提示增强，在面部生成方面具有最佳结果。

4.2.2coarse shape 生成

对于这一部分，我们设计了两种直观的基线方法，（i）SMPL上的直接优化（ii）VAE潜在空间上的直接优化。如图13（a）所示，两种优化方法都无法生成与描述文本一致的身体形状。即使是相反的文本指导（例如“kinny”和“overweight”）也会导致相同的优化方向。相比之下，我们的方法稳健地生成与输入文本一致的合理身体形状。我们方法的更多样的定性结果如图13（b）所示。

4.2.3形状雕刻和纹理生成的定性结果

广泛的驾驶文本。在广泛的实验中，我们的方法能够从广泛的外观描述中生成化身，包括三种类型：1）名人，2）虚构人物和3）描述人的一般词语，如图17所示。如图17（a）所示，给定名人姓名作为外观描述，生成了名人最具标志性的服装。由于我们的语义感知提示增强设计，人脸也能正确生成。对于图17（b）所示的虚构角色生成，可以正确生成大多数文本描述的化身。有趣的是，对于具有复杂几何形状的配件的角色（例如“蝙蝠侠”的头盔、“艾尔莎”的服装），优化过程有从模板人体中“生长”出新结构的趋势。至于一般描述，我们的方法可以处理非常广泛的范围，包括常见的工作名称（例如“教授”、“医生”）、描述某个年龄段的人的词语（例如“青少年”、“老年公民”）和其他幻想职业（如“女巫”、“巫师”）。可以观察到，除了化身本身之外，还可以生成它们各自的标志性对象。例如，“园丁”用手抓花和草。

尽管上面实验和演示了大量的生成结果，但在生成宽松服装和配饰时仍存在失败案例。例如，如图17所示，“艾尔莎”的服装和“奇异博士”的斗篷并没有生成。夸张的头发和胡须（如裹着面包的阿甘）的几何形状也很难正确生成。这是由优化过程中的重建损失引起的。不鼓励“生长”，允许对几何结构进行非常有限的更改。

Zero-Shot Controlling Ability：如图18所示，我们可以通过调整语义感知提示增强来控制化身上生成的人脸，例如，比尔·盖茨穿着钢铁侠套装。此外，我们可以通过直接的文本指导来控制化身的服装，例如“穿着白衬衫的史蒂夫·乔布斯”。

Concept Mixing：如图14所示，我们展示了将奇幻元素与名人混合的示例。在保持可识别身份的同时，奇幻元素与avatar自然融合。

Geometry Quality：低纹理渲染监督的关键设计主要有助于几何生成。我们主要将AvatarCLIP与基于NeRF的改编的Dream Field进行比较。如图19所示，我们的方法在几何质量方面始终优于Dream Fields。可以生成详细的肌肉形状、盔甲曲线和布料褶皱。

除了生成质量，我们还研究了我们算法的鲁棒性与baseline Text2Mesh相比。对于每种方法，我们都使用相同的五个随机种子，对同一提示进行五次独立运行。如图20所示，我们的方法能够以高质量和与输入文本一致的方式输出结果。Text2Mesh在大多数运行中失败，这表明网格的表示对于优化是不稳定的，尤其是在监督薄弱的情况下。

4.3 motion生成

4.3.1消融实验

为了评估我们在基于参考的动画模块中的设计选择的有效性（即提出的三个约束项，运动VAE作为运动先验的使用），我们将我们的方法与两个基线方法进行了比较，如图21所示。

对于“刷牙”，（i）生成无序和不相关的姿势序列。（ii）也未能生成合理的运动，这是由于其盲目地关注于重建无序的候选姿势所导致的。通过引入重新加权机制，我们的方法不仅关注重建，还考虑了生成的运动的合理性。

对于“踢足球”，当腿踢出时，（i）（ii）中的动作序列没有剧烈变化。Ldelta在控制运动强度方面起着重要作用。至于“举起双臂”，它应该生成一个从中立姿势到举起手臂的姿势的运动序列。然而，（i）生成与预期结果相反的运动序列。（ii）引入若干不相关的行动。在Lclipm，我们的方法能够以正确的顺序和更好的描述一致性生成运动。

此外，受应聘者姿势多样性的限制，要想做出更复杂的动作，比如“拥抱”、“弹钢琴”和“运球”，是一件很有挑战性的事情。

4.3.2与baseline对比

将三种baseline方法与我们的方法进行比较。baseline(I)直接对SMPL参数θ进行优化。基线(II)直接在VPoser的潜在空间上进行优化。这两种方法都很难产生合理的姿势。Baseline(III)在VPoster中使用了多通道Real NVP，在正太分布和潜在空间分布中得到双向映射，它可以生成相对合理的姿势，但仍然明显比我们的方法差。

如图22（b）展示了广泛的驱动文本。为了证明姿势生成方法的zero-能力，我们用四类运动描述进行了实验：1）抽象的情绪描述（例如“疲惫”和“悲伤”）；2）常见动作描述（如“行走”和“蹲下”）；3）与身体部位相关的运动描述（例如“举起双臂”、“洗手”）4）涉及与物体交互的运动（例如“投篮”）。

5. 总结

为了外行人也可以实现原来复杂的3D avatar创建的目的，本文提出了AvatarCLIP。本文的模型主要依赖于大规模预训练模型VAE——包括了形状和动作先验，以及大型可泛化的视觉语言预训练模型CLIP。并且通过一系列的实验证明了模型的有效性和效率。

但是在形象创建的过程中，受到CLIP的弱监督和低分辨率的影响，生成的结果在放大之后并不是完美的。此外，在给定相同的prompt的，要产生有较大区别的形象是比较困难的。因为，优化方向是相同的，所以导致了不同的提示产生相同的结果。在动作合成阶段，受code-book设计的限制，很难产生分布外的候选姿态，这限制了产生复杂运动的能力。此外，由于缺乏video CLIP，很难生成风格化的运动。

对于预训练模型的使用，会造成许多道德问题，比如，医生对应的生成是男性，而护士对应的生成是女性，这会造成性别歧视的问题。为了安全地使用zero-shot技术，需要开展关于大规模预训练模型的伦理问题的未来工作。此外，随着头像和动画制作的普及，用户可以很容易地制作出名人的假视频，这可能会被滥用，造成负面的社会影响。

Lama：《Resolution-robust Large Mask Inpainting with Fourier Convolutions》解读及实操

最近任务需求跟图像inpainting相关，因此调研使用了多个较新的开源模型，例如crfill、RePaint、Lama等。综合比较之下Lama的速度、效果都是最佳的，并且支持自定义输入尺寸进行推理（而非必须固定输入尺寸）。因此结合Lama论文进行实操，记录如下。

一、总体方法 & 创新点

1、总体方法流程：

对于输入原图 x ，使用一个二进制掩膜 m 进行遮罩 x ⊙ m ，形成一个四通道的输入tensor ：

x′ = stack(x ⊙ m, m)

再使用一个前向infer网络fθ(·)（也是一个生成器），以全卷积方式修复获得一个三通道彩色图像。

训练过程也是基于“图像与掩膜”这样的pair数据进行的。

2、创新点：

1）旧有方法都不具备足够广泛的感受野，因此对于大分辨率的图像或是大范围的inpainting而言，很容易会被局部附近的细节或干脆是mask所影响导致效果差。因此Lama考虑让模型在网络初始阶段就拥有更大的感受野，提出了基于快速傅立叶卷积（FFC）构造的网络结构。

2）损失函数：利用预训练分割网络进行特征提取实现损失函数构建，服务于大感受野和大掩膜

3）mask生成方法：动态的生成大掩膜，实现类似数据增强的效果

二、具体方法

1、Baseline：

图像与掩膜组成pair对输入网络并经过下采样后，进入FFC残差块。

在FFC块中，输入tensor被划分为两个分支进行运算。Local分支使用常规卷积；Global分支使用Real FFT进行全局上下文关注。其中在Global分支中经历了Real FFT2d和Inverse Real FFT2d的操作，实现了图像重建，具体张量变化看见论文2.1中的a)、 b)、c)。在FFC的输出中两分支进行结果合并。

2、损失函数

首先需要明确的是，对一个被掩膜遮盖的区域其实可以有多种合理的填充结果，就像口罩下的长相谁也无法准确预测。所以一旦掩膜变大，那么loss就必须被更加合理地设置以避免不符合事物逻辑的生成。

1）高感受野知觉损失 HRFPL

HRFPL是通过预训练的基础网络对输入图像x和生成图像x尖进行特征相似的计算。具体来说是使用空洞卷积或傅立叶卷积构建的HRF进行逐像素计算，然后M代表两阶段均值操作，即先取同层均值再取层间均值。

作者认为选取一个合适的预训练网络对于 HRFPL的效果至关重要。例如分类网络更关注局部的细节纹理，而难以理解全局的结构信息，缺乏对整体的认知。而分割模型则相反，具有更好的效果。

2）对抗损失

作者定义了一个在局部补丁级别上工作的鉴别器Dξ（·），用于区分“真实”和“虚假”补丁。对于输入pair对中的原图和掩膜图片，将原图上被掩膜覆盖的区域标记为“real”标签，将生成图片上对应区域标记为“fake”标签。

3）总体损失

在总体损失中，作者还使用

进行梯度惩罚，和基于识别器的感知实际损失或所谓的特征匹配损失-感知鉴别器网络LDiscPL的特征损失。众所周知，LDiscPL可以稳定训练，在某些情况下性能略有提高。

LAdv和LDiscPL负责生成自然外观当地细节，而LHRFPL负责监督全局结构的信号和一致性。

3、训练中的动态掩膜生成

作者认为掩膜的生成类似于数据增强，对模型的效果非常重要。作者采取了多种大掩膜生成方式，但也同时注意避免生成大于原始图像50%的掩膜。

三、实验与数据

训练使用Places和CelebA进行。下图结果中与其他模型在不同大小的掩膜上进行了对比，红色箭头代表表现逊于Lama，绿色则表示优于Lama。可以看到Lama在少参数量的情况下效果基本达到最优。

消融实验也证明了FFC在大掩膜上的效果。

论文还提供了大量实验细节，感兴趣的请查看原文。

四、使用记录

官方开源的模型中提供了一个名为Big-Lama的模型权重，效果最优。因为相比普通Lama，其生成器结构更复杂、训练数据规模更大。该模型是根据来自Places Challenge数据集的4.5M张图像的子集进行训练的，在八台NVidia V100 GPU上接受了约240小时的train。

我在Big-Lama上对infer refine的参数、mask生成方式做了反复测试，直观感受是其修复效果在其较快的infer速度上的确已经相当不错。同时我也尝试在训练中修改了mask的动态生成策略，实现了自定义mask生成来贴合我的任务场景，但考虑到训练成本尚未进行大规模训练，欢迎大家交流。

Inpaint Anything: Segment Anything Meets Image Inpainting

论文链接：http://arxiv.org/abs/2304.06790
代码库链接：https://github.com/geekyutao/Inpaint-Anything

4 月初，Meta 发布了史上首个图像分割基础模型–SAM（Segment Anything Model）。作为分割模型，SAM 的能力强大，操作使用方式也十分友好，比如用户简单地点击来选择对应物体，物体就会立即被分割出来，且分割结果十分精准。截至 4 月 15 号，SAM 的 GitHub 仓库的 Star 数高达 26k。

如何利用好如此强大的「分割一切」模型，并拓展到更加有实际需求的应用场景至关重要。例如，当 SAM 遇上实用的图像修补（Image Inpainting）任务会碰撞出什么样的火花？

来自中国科学技术大学和东方理工高等研究院的研究团队给出了令人惊艳的答案。基于 SAM，他们提出「修补一切」（Inpaint Anything，简称 IA）模型。区别于传统图像修补模型，IA 模型无需精细化操作生成掩码，支持了一键点击标记选定对象，IA 即可实现移除一切物体（Remove Anything）、填补一切内容（Fill Anything）、替换一切场景（Replace Anything），涵盖了包括目标移除、目标填充、背景替换等在内的多种典型图像修补应用场景。

主要功能：

尽管当前图像修补系统取得了重大进展，但它们在选择掩码图和填补空洞方面仍然面临困难。基于 SAM，研究者首次尝试无需掩码（Mask-Free）图像修复，并构建了「点击再填充」（Clicking and Filling）的图像修补新范式，他们将其称为修补一切（Inpaint Anything）（IA）。IA 背后的核心思想是结合不同模型的优势，以建立一个功能强大且用户友好的图像修复系统。

IA 拥有三个主要功能：(i) 移除一切（Remove Anything）：用户只需点击一下想要移除的物体，IA 将无痕地移除该物体，实现高效「魔法消除」；(ii) 填补一切（Fill Anything）：同时，用户还可以进一步通过文本提示（Text Prompt）告诉 IA 想要在物体内填充什么，IA 随即通过驱动已嵌入的 AIGC（AI-Generated Content）模型（如 Stable Diffusion ）生成相应的内容填充物体，实现随心「内容创作」；(iii) 替换一切（Replace Anything）：用户也可以通过点击选择需要保留的物体对象，并用文本提示告诉 IA 想要把物体的背景替换成什么，即可将物体背景替换为指定内容，实现生动「环境转换」。IA 的整体框架如下图所示：

Inpaint Anything（IA）示意图。用户可以通过单击来选择图像中的任何物体。借助强大的视觉模型，如 SAM、LaMa 和 Stable Diffusion (SD) ，IA 能够平滑移除选定物体（即 Remove Anything）。进一步地，通过向 IA 输入文本提示，用户可以用任何想要的内容填充物体（即 Fill Anything）或者任意替换对象的物体（即 Replace Anything）

移除一切（Remove Anything）示意图

「移除一切」步骤如下：

第 1 步：用户点击想要移除的物体；
第 2 步：SAM 将该物体分割出来；
第 3 步：图像修补模型（LaMa）填补该物体。

填补一切

Text prompt: “a teddy bear on a bench”

Click on an object, type in what you want to fill, and Inpaint Anything will fill it!

Click on an object;
SAM segments the object out;
Input a text prompt;
Text-prompt-guided inpainting models (e.g., Stable Diffusion) fill the “hole” according to the text.

「填补一切」步骤如下：

第 1 步：用户点击想要移除的物体；
第 2 步：SAM 将该物体分割出来；
第 3 步：用户通过文本示意想要填充的内容；
第 4 步：基于文本提示的图像修补模型（Stable Diffusion）根据用户提供的文本对物体进行填充。

替换一切

替换一切（Replace Anything）示意图，图中使用的文本提示：a man in office

「填补一切」步骤如下：

第 1 步：用户点击想要移除的物体；
第 2 步：SAM 将该物体分割出来；
第 3 步：用户通过文本示意想要替换的背景；
第 4 步：基于文本提示的图像修补模型（Stable Diffusion）根据用户提供的文本对物体的背景进行替换。

Text prompt: “a man in office”

Click on an object, type in what background you want to replace, and Inpaint Anything will replace it!

Click on an object;
SAM segments the object out;
Input a text prompt;
Text-prompt-guided inpainting models (e.g., Stable Diffusion) replace the background according to the text.

Remove Anything 3D

Remove Anything 3D can remove any object from a 3D scene! We release some results below.

研究者随后在 COCO 数据集、LaMa 测试数据集和他们自己用手机拍摄的 2K 高清图像上对 Inpaint Anything 进行测试。值得注意的是，研究者的模型还支持 2K 高清图和任意长宽比，这使得 IA 系统在各种集成环境和现有框架中都能够实现高效的迁移应用。

视频P图新SOTA：Towards An End-to-End Framework for Flow-Guided Video Inpainting

Github: https://github.com/MCG-NKU/E2FGVI/

E2FGVI由南开大学和海思合作完成。一作Li Zhen为南开大学博士生，共同一作Lu ChengZe也来自南开。通讯作者为南开大学计算机学院教授程明明，主要研究方向是计算机视觉和图形学。

Paper: Towards An End-to-End Framework for Flow-Guided Video Inpainting

在CVPR 2022收录的论文中，就出现了这么一个P图神器，它可以分分钟给你上演各种人像消失大法，不留任何痕迹。

去水印、填补缺失更是不在话下，并且各种分辨率的视频都能hold住。

正如你所见，这个模型如此丝滑的表现让它在两个基准数据集上都实现了SOTA性能。

同时它的推理时间和计算复杂表现也很抢眼：前者比此前的方法快了近15倍，可以在Titan XP GPU上以每帧0.12秒的速度处理432 × 240的视频；后者则是在所有比较的SOTA方法中实现了最低的FLOPs分数。

改善光流法

目前很多视频修复算法利用的都是光流法 （Optical flow）。也就是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性，找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息。

这个方法的缺点很明显：计算量大、耗时长，也就是效率低。

为此，研究人员设计了三个可训练模块，分别为流完成（flow completion）、特征传播 （feature propagation）和内容幻想（content hallucination），提出了一个流引导（flow-guided）的端到端视频修复框架：E2FGVI。

这三个模块与之前基于光流的方法的三个阶段相对应，不过可以进行联合优化，从而实现更高效的修复过程。

具体来说，对于流完成模块，该方法直接在mask viedo中一步完成操作，而不是像此前方法采用多个复杂的步骤。对于特征传播模块，与此前的像素级传播相比，该方法中的流引导传播过程在特征空间中借助可变形卷积进行。

通过更多可学习的采样偏移和特征级操作，传播模块释放了此前不能准确进行流估计的压力。

对于内容幻想模块，研究人员则提出了一种时间焦点Transformer来有效地建模空间和时间维度上的长程依赖关系。同时该模块还考虑了局部和非局部时间邻域，从而获得更具时间相关性的修复结果。

定量实验：

研究人员在数据集YouTube VOS和DAVIS上进行了定量实验，将他们的方法与之前的视频修复方法进行了比较。

如下表所示，E2FGVI在全部四个量化指标上都远远超过了这些SOTA算法，能够生成变形更少（PSNR和SSIM）、视觉上更合理（VFID）和时空一致性更佳（Ewarp）的修复视频，验证了该方法的优越性。

此外，E2FGVI也具有最低的FLOPs值（计算复杂度），尽管训练是在432 × 240分辨率的视频上进行，它的HQ版本做到了支持任意分辨率。

定性实验：

研究人员首先选择了三种最有代表性的方法，包括CAP、FGVC（基于光流法）和Fuseformer（入选ICCV 2021），进行对象移除（下图前三行）和缺失补全（下图后两行）的效果比较。

可以发现，前三种方法很难在遮挡区域恢复出合理的细节、擦除人物也会造成模糊，但E2FGVI可以生成相对真实的纹理和结构信息。

此外，它们还选用了5种方法进行了用户研究，结果大部分人都对E2FGVI修复后的效果更满意。

综上，研究人员也表示，希望他们提出的方法可以成为视频修复领域新的强大基线

AIGC的一些记录

摘自：https://zhuanlan.zhihu.com/p/615522634

最近AIGC发展的也太太太太太太快了，感觉完全follow不上了，我对text to image的认知还停留在stackgan上，汗颜。

这里总结了几篇比较新的survey，记录一下

A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT

ChatGPT is not all you need. A State of the Art Review of large Generative AI models

现有的一下GAI技术

这几年的一些GAI技术的总结，包括了ChatGPT （文本到文本的对话模型）与 DALL-E-2（文本到图像的生成模型）， Codex（文本到代码的生成模型），Dreamfusion （文本到3D图像）， Flamingo（图像到文本），Phenaki （文本到视频），AudioLM（文本到音频），Galactica（文本到科学文本），AlphaTensor（自动搜索高性能的矩阵运算逻辑）

实际上，ChatGPT 和其他生成式人工智能 (GAI) 技术属于人工智能生成内容 (AIGC) 的范畴，涉及通过人工智能模型创建数字内容，例如图像、音乐和自然语言。

AIGC 的目标是使内容创建过程更加高效和易于访问，从而能够以更快的速度制作高质量的内容。

AIGC是通过从人类提供的指令中提取和理解意图信息，并根据其知识和意图信息生成内容来实现的。近年来，大型模型在 AIGC 中变得越来越重要，因为它们提供了更好的意图提取，从而改进了生成结果。随着数据的增长和模型的规模，模型可以学习的分布变得更加全面和接近现实，从而导致更真实和高质量的内容生成。

按发布日期列出的涵盖模型。除了 2021 年发布的 LaMDA 和 2023 年发布的 Muse 之外，所有模型都在 2022 年发布。

为了能够训练这些巨大的模型，必须拥有强大的计算能力和一支技术精湛、经验丰富的数据科学和数据工程团队。因此，目前暂时只有下图中所示的公司，成功部署并将生成式人工智能模型投入商用。

在参与初创公司的主要公司方面，请注意微软向 OpenAI 投资了 10 亿美元，并帮助他们开发模型。

另外，请注意谷歌在 2014 年收购了 Deepmind。

在大学方面，请注意 VisualGPT 是由 KAUST、卡内基梅隆大学和南洋理工大学开发的

人体运动扩散模型是由以色列特拉维夫大学开发的。

同样，还有一些其他的项目是由公司与大学合作开发的。具体来说，Stable Diffsion（Runway、Stability AI 和 LMU MUNICH）、Soundify（Runway 和卡内基梅隆大学）和 DreamFusion（谷歌和加州大学伯克利分校）就是这种情况。

INTRODUCTION

近年来，人工智能生成内容 (AIGC) 获得了计算机科学界以外的广泛关注，整个社会开始对大型科技公司构建的各种内容生成产品感兴趣 [3]，例如 ChatGPT [4]和 DALL-E2 [5]。AIGC 是指使用先进的生成式 AI (GAI) 技术生成的内容，而不是由人类作者创建，它可以在短时间内自动创建大量内容。例如，ChatGPT 是 OpenAI 开发的用于构建对话式 AI 系统的语言模型，它可以有效地理解并以有意义的方式响应人类语言输入。此外，DALL-E-2 是另一个由 OpenAI 开发的最先进的 GAI 模型，它能够在几分钟内根据文本描述创建独特的高质量图像，例如“An astronaut riding a horse ina photorealistic style”，如下图所示。由于AIGC取得的骄人成绩，很多人认为这将是人工智能的新时代，对全世界产生重大影响。

从技术上讲，AIGC 是指在给定可以帮助教导和引导模型完成任务的人类指令后，利用 GAI 算法生成满足指令的内容。这个生成过程通常包括两个步骤：从人类指令中提取意图信息，并根据提取的意图生成内容。然而，正如之前的研究 [6, 7] 所证明的那样，包含上述两个步骤的 GAI 模型范例并不完全新颖，实际上例如text to image的应用，早年的stackgan等就已经在做这类事情了。

与之前的工作相比，最近 AIGC 的核心进步主要体现在使用了更大的数据集上训练更复杂的生成模型、使用更大的基础模型架构以及能够访问的更加广泛的计算资源的结果。

例如GPT-3的主框架与GPT-2保持一致，但预训练数据量从WebText[8]（38GB）增长到CommonCrawl[9]（过滤后570GB），基础模型大小从 1.5B 增长到 175B。因此，GPT-3 在各种任务上比 GPT-2 具有更好的泛化能力，例如人类意图提取(NLP中存在模型顿悟的现象，即当参数量超过某个大小之后，下游任务的performance会发生突飞猛进的情况)。

除了数据量和计算能力提升带来的好处之外，研究人员也在探索将新技术与 GAI 算法相结合的方法。例如，ChatGPT 利用人类反馈 (RLHF) [10-12] 的强化学习来确定给定指令的最合适响应，从而随着时间的推移提高模型的可靠性和准确性。这种方法让 ChatGPT 能够更好地理解人类在长对话中的偏好。同时，在计算机视觉中，Stability.AI 于 2022 年提出的stable diffusion [13] 在图像生成方面也取得了巨大的成功。与以前的方法不同，生成扩散模型可以通过控制探索和利用之间的权衡来帮助生成高分辨率图像，从而使生成图像的多样性与训练数据的相似性和谐地结合在一起。

通过结合这些进步，模型在 AIGC 任务中取得了重大进展，并已被各个行业采用，包括艺术 [14]、广告 [15] 和教育 [16]。在不久的将来，AIGC 将继续成为机器学习研究的重要领域。因此，对过去的研究进行广泛审查并确定该领域的未解决问题至关重要。本次调研是首次聚焦AIGC领域的核心技术和应用。

单模态和多模态的AIGC技术

图 2. AIGC 概览。一般来说，GAI模型可以分为两类：单模态模型和多模态模型。单模态模型从与生成的内容模态相同的模态接收指令，而多模态模型接受跨模态指令并产生不同模态的结果。

生成式人工智能（AIGC）的历史

nlp的前transformer时代的AIGC

生成模型在人工智能领域有着悠久的历史，可以追溯到 1950 年代随着隐马尔可夫模型 (HMM) [20] 和高斯混合模型 (GMM) [21] 的发展。这些模型生成序列数据，例如语音和时间序列。然而，直到深度学习的出现，生成模型的性能才得到显着改善。在早期的深度生成模型中，不同领域总体上没有太多重叠。在自然语言处理（NLP）中，传统的句子生成方法是使用 N-gram 语言建模 [22] 来学习单词分布，然后搜索最佳序列。但是，这种方法不能有效地适应长句子。为了解决这个问题，循环神经网络 (RNN) [23] 后来被引入用于语言建模任务，允许建模相对较长的依赖关系。随后开发了长短期记忆 (LSTM) [24] 和门控循环单元 (GRU) [25]，它们利用门控机制在训练期间控制记忆。这些方法能够处理样本 [26] 中的大约 200 个标记，这标志着与 N-gram 语言模型相比有了显着的改进。

cv领域的前transformer时代的AIGC

同时，在计算机视觉（CV）中，在基于深度学习的方法出现之前，传统的图像生成算法使用纹理合成 [27] 和纹理映射 [28] 等技术。这些算法基于手工设计的特征，生成复杂多样图像的能力有限。2014 年，生成对抗网络 (GANs) [29] 首次被提出，这是该领域的一个重要里程碑，因为它在各种应用中取得了令人瞩目的成果。变分自动编码器 (VAE) [30] 和扩散生成模型 [31] 等其他方法也已被开发用于对图像生成过程进行更细粒度的控制以及生成高质量图像的能力。

后transformer时代的发展

生成模型在各个领域的进步遵循了不同的路径，但最终出现了交叉点：transformer 架构 [32]。由 Vaswani 等人介绍。对于 2017 年的 NLP 任务，Transformer 后来被应用到 CV 中，然后成为各个领域许多生成模型的主导骨干 [9,33,34]。在 NLP 领域，许多著名的大型语言模型，例如 BERT 和 GPT，都采用 transformer 架构作为它们的主要构建块，与以前的构建块（即 LSTM 和 GRU）相比具有优势。在 CV 中，Vision Transformer (ViT) [35] 和 Swin Transformer [36] 后来通过将 transformer 架构与视觉组件相结合，进一步采用了这一概念，使其能够应用于基于图像的下游。

除了 transformer 对单个模态的改进之外，这种交集还使来自不同领域的模型能够融合在一起以用于多模态任务。多模态模型的一个这样的例子是 CLIP [37]。CLIP 是一种联合视觉语言模型，将 transformer 架构与视觉组件相结合，使其能够在大量文本和图像数据上进行训练。由于它在预训练过程中结合了视觉和语言知识，因此它也可以用作多模态提示生成中的图像编码器。总而言之，基于 transformer 的模型的出现彻底改变了 AI 生成，并使大规模训练成为可能。

近年来，研究人员也开始引入基于这些模型的新技术。例如，在 NLP 中，人们有时更喜欢prompt learning[38]，而不是微调（finetune），这是指在提示中包含从数据集中选择的几个示例，以帮助模型更好地理解任务要求。

图 3. 生成式人工智能在 CV、NLP 和 VL 中的历史（VL=cv+nlp）

自监督学习的提出（包括了cv中的各类花哨的对比学习方法，以及nlp中的pretrain task本身都可以归类为自监督学习）提供了更强大的原始输入的representations。

未来，随着AIGC变得越来越重要，将会引入越来越多的技术，为这一领域注入活力。

目前的一些知名工作

DALL·E 2

由 OpenAI 创建，能够根据包含文本描述的提示生成原始、真实和逼真的图像和艺术 [10]。幸运的是，可以使用 OPENAI API 访问此模型。特别是，DALL·E 2 设法结合了概念、属性和不同的风格。为此，它使用了 CLIP 。CLIP（对比语言-图像预训练）是一种在各种（图像、文本）对上训练的神经网络 [25]。使用 CLIP，可以用自然语言来指导预测最相关的文本片段，给定图像，该模型最近已合并为图像的成功表示学习器。具体而言，CLIP 嵌入具有几个理想的特性：它们对图像分布偏移具有鲁棒性，具有令人印象深刻的零样本能力，并且经过微调以实现最先进的结果。为了获得完整的图像生成模型，CLIP 图像嵌入解码器模块与先验模型相结合，从给定的文本标题生成可能的 CLIP 图像嵌入。我们在下图中说明了从提示生成的图像。从提示“A shiba inu wearing a beret and black turtleneck”生成的图像。

openai并未开放dalle2的源码，不过有一个不错的开源实现：https://github.com/lucidrains/DALLE2-pytorchgithub.com/lucidrains/DALLE2-pytorch

IMAGEN

Imagen 是一种文本到图像扩散模型 [17]，由大型transformer语言模型组成。至关重要的是，使用该模型观察到的主要发现是，在纯文本语料库上预先训练的大型语言模型在编码文本以进行图像合成方面非常有效 [28]。准确地说，使用 Imagen，已经发现增加语言模型的大小比增加图像扩散模型的大小更能提高样本保真度和图像-文本的语义一致性。该模型由谷歌创建，API 可以在他们的网页上找到。为了评估他们的模型，谷歌创建了 Drawbench，这是一组 200 个提示，支持文本到图像模型的评估和比较。最具体地说，该模型基于预训练的文本编码器（如 BERT [12]），该编码器执行从文本到一系列词嵌入的映射，以及将这些嵌入映射到分辨率不断提高的图像的级联条件扩散模型。我们在下图中显示了根据提示生成的图像。

同样，google并没有开放imagen的源码，不过同一个作者（这个人真的太屌了，算法开发怪兽）开放了自己的实现：https://github.com/lucidrains/imagen-pytorchgithub.com/lucidrains/imagen-pytorch

Stable diffusion

Stable diffusion是一种潜在扩散模型，它是开源的，由慕尼黑大学的 CompVis 小组开发。该模型与其他模型的主要区别在于使用了潜在扩散模型，并且它执行图像修改，因为它可以在其潜在空间中执行操作。对于 Stable Diffusion，我们可以通过他们的网站使用 API。更具体地说，Stable Diffusion 由两部分组成：文本编码器和图像生成器 [17]。图像信息创建者完全在潜在空间中工作。此属性使其比以前在像素空间中工作的扩散模型更快。我们在图 7 中展示了一个稳定扩散图像示例。

相对而言，Stable diffusion的开源代码就多多了，https://github.com/CompVis/stable-diffusiongithub.com/CompVis/stable-diffusion https://github.com/Stability-AI/stablediffusiongithub.com/Stability-AI/stablediffusion

除了官方放出的代码之外，keras-cv作为keras唯一官方的专门做cv的library也放出了基础版本stable diffusion的实现：https://github.com/keras-team/keras-cv/blob/master/keras_cv/models/stable_diffusion/stable_diffusion.pygithub.com/keras-team/keras-cv/blob/master/keras_cv/models/stable_diffusion/stable_diffusion.py

另外一个就是huggingface开放的diffuser了：https://github.com/huggingface/diffusersgithub.com/huggingface/diffusers

Muse

该模型是一种文本到图像转换器模型，可实现最先进的图像生成，同时比扩散或自回归模型更高效 [6]。具体来说，它是在离散标记空间中的掩码建模任务上进行训练的。因此，由于使用了离散令牌并且需要更少的采样迭代，它更有效。与自回归模型 Parti 相比，Muse 由于并行解码而更加高效。Muse 在推理时间上比 Imagen-3B 或 Parti-3B 快 10 倍，比 Stable Diffusion v 1.4 快 3 倍。Muse也比 Stable Diffusion 更快，尽管这两个模型都在 VQGAN 的潜在空间中工作。

前面描述的模型处理文本提示到 2D 图像的映射。但是，对于游戏等行业，需要生成 3D 图像。下面简要介绍两种文本到 3D 模型：Dreamfusion 和 Magic3D。

同样，google并未开放muse的开源代码，仍旧是这个巨佬。。。我丢https://github.com/lucidrains/muse-maskgit-pytorchgithub.com/lucidrains/muse-maskgit-pytorch

Dreamfusion

DreamFusion 是由 Google Research 开发的文本到 3D 模型，它使用预训练的 2D 文本到图像扩散模型来执行文本到 3D 合成 [24]。特别是，Dreamfusion 将以前的 CLIP 技术替换为从 2D 扩散模型中提取的损失。具体来说，扩散模型可以用作一般连续优化问题中的损失来生成样本。至关重要的是，参数空间中的采样比像素中的采样要困难得多，因为我们想要创建从随机角度渲染时看起来像好的图像的 3D 模型。为了解决这个问题，这个模型使用了一个可微分的生成器。其他方法侧重于对像素进行采样，但是，该模型侧重于创建从随机角度渲染时看起来像好图像的 3D 模型。

Dreamfusion 从一个特定角度创建的图像以及可以从其他文本提示生成的所有变体。为了看到完整的动画图像，我们建议访问 Dreamfusion 的网页。

图 8. 左侧显示了 Dreamfusion 生成的 3D 松鼠。然后，其他图像包含对松鼠生成的修改，带有文本提示，如“穿夹克”

Magic3D

该模型是NVIDIA公司制作的文本转3D模型。虽然 Dreamfusion 模型取得了显着的效果，但该方法存在两个问题：主要是处理时间长和生成的图像质量低。然而，Magic3D 使用两阶段优化框架 [20] 解决了这些问题。首先，Magic3D 先验构建低分辨率扩散，然后使用稀疏 3D 哈希网格结构进行加速。使用它，带纹理的 3D 网格模型通过高效的可区分渲染进一步优化。相比之下，在人类评估方面，该模型取得了更好的结果，因为 61.7% 的人更喜欢该模型而不是 DreamFusion。正如我们在图 9 中看到的，与 DreamFusion 相比，Magic3D 在几何和纹理方面实现了更高质量的 3D 形状。

有时，获取描述图像的文本也很有用，这恰好是对前面分析的图像到文本的模型的逆映射。下面将简单分析执行此任务的两个模型以及其他模型：Flamingo 和 VisualGPT。

Flamingo

一种由 Deepmind 创建的视觉语言模型，它在广泛的开放式视觉和语言任务中使用少量学习，只需提示一些输入/输出示例 [1]。具体来说，Flamingo 的输入包含视觉条件自回归文本生成模型，能够摄取一系列与图像和/或视频交错的文本标记，并生成文本作为输出。对模型连同照片或视频进行查询，然后模型使用文本答案进行回答。可以在图 10 中观察到一些示例。Flamingo 模型利用两个互补模型：一个分析视觉场景的视觉模型和一个执行基本推理形式的大型语言模型。语言模型是在大量文本数据上训练的。

VisualGPT

VisualGPT 是 OpenAI [7] 制作的图像字幕模型。具体来说，VisualGPT 利用预训练语言模型 GPT-2 [5] 中的知识。为了弥合不同模态之间的语义鸿沟，一种新颖的编码器-解码器注意机制[33]被设计为具有不饱和整流门函数。至关重要的是，该模型的最大优势在于它不需要像其他图像到文本模型那样多的数据。特别是，提高图像字幕网络中的数据效率将使快速数据管理、稀有物体的描述以及专业领域的应用成为可能。最有趣的是，这个模型的 API 可以在 GitHub 上找到。我们在图 11 中包含了模型针对提供给模型的三幅图像生成的文本提示的三个示例。

正如我们在前面的内容中看到的，现在可以从文本生成图像。因此，下一个合乎逻辑的步骤是生成视频

Phenaki

该模型由 Google Research 开发，能够在给定一系列文本提示的情况下执行逼真的视频合成 [34]。最有趣的是，我们可以从 GitHub 访问模型的 API。特别是，Phenaki 是第一个可以从开放域时间变量提示生成视频的模型。为了解决数据问题，它对大型图像-文本对数据集以及较少数量的视频-文本示例进行联合训练，可以产生超出视频数据集可用范围的泛化。这主要是由于图像文本数据集有数十亿个输入，而文本视频数据集要小得多。同样，限制来自可变长度视频的计算能力。

该模型由三部分组成：C-ViT 编码器、训练转换器和视频生成器。编码器获得视频的压缩表示。第一个标记被转换为嵌入。接下来是时间变换器，然后是空间变换器。在空间变换器的输出之后，他们在没有激活的情况下应用单个线性投影将标记映射回像素空间。因此，即使提示是新的概念组合，该模型也会根据开放域提示生成时间上连贯且多样化的视频。视频可能长达几分钟，而模型是在 1.4 秒的视频上训练的。下面我们在图 12 和图 13 中显示了通过一系列文本提示以及从一系列文本提示和图像创建视频的一些示例。

图 13. Phenaki 模型在给定图像和提示的情况下创建的图像序列。我们可以看到模型如何根据文本提示操作给定的图像。

Soundify

在视频编辑中，声音占故事的一半。但是，对于专业的视频编辑，问题来自于寻找合适的声音、对齐声音、视频和调整参数 [21]。为了解决这个问题，Soundify 是 Runway 开发的一个将音效与视频相匹配的系统。该系统使用优质音效库和 CLIP（一种具有前面提到的零镜头图像分类功能的神经网络）。具体来说，该系统分为三部分：分类、同步和混合。通过对视频中的发声器进行分类，分类将效果与视频相匹配。为了减少不同的声音发射器，视频根据绝对颜色直方图距离进行分割。在同步部分，确定间隔，将效果标签与每个帧进行比较，并精确定位高于阈值的连续匹配。在混音部分，效果被分成大约一秒的块。至关重要的是，块是通过淡入淡出拼接的。

图像并不是唯一重要的非结构化数据格式。对于视频、音乐和许多上下文，音频可能至关重要。因此，我们在本小节中分析输入信息为文本且输出信息为音频的三个模型。

AudioLM

此模型由 Google 开发，用于生成具有长期一致性的高质量音频。特别是，AudioLM 将输入音频映射到一系列离散标记中，并将音频生成作为该表示空间中的语言建模任务 [4]。通过对大量原始音频波形进行训练，AudioLM 学会在给出简短提示的情况下生成自然且连贯的连续音。尽管在没有任何音乐符号表示的情况下接受训练，但该方法可以通过生成连贯的钢琴音乐延续来扩展到语音之外。与其他模型一样，可以通过 GitHub 找到 API。音频信号涉及多个抽象尺度。在音频合成方面，多个音阶使得在显示一致性的同时实现高音频质量非常具有挑战性。该模型通过结合神经音频压缩、自监督表示学习和语言建模方面的最新进展来实现这一目标。

在主观评价方面，评分者被要求听一段 10 秒的样本，并判断它是人类语音还是合成延续。基于收集到的 1000 个评分，该率为 51.2%，这与随机分配标签相比没有统计学意义。这告诉我们，人类无法区分合成样本和真实样本。

Jukebox

这是一个由 OpenAI 开发的模型，可以在原始音频域 [13] 中通过唱歌生成音乐。同样，它的 API 可以在 GitHub 中找到。以前，文本到音乐类型中的早期模型以指定时间、音高和速度的钢琴卷轴的形式象征性地生成音乐。具有挑战性的方面是尝试将音乐直接制作为一段音频的非符号方法。事实上，原始音频的空间维度非常高，这使得问题非常具有挑战性。因此，关键问题是对原始音频进行建模会产生远程依赖性，这使得学习音乐的高级语义在计算上具有挑战性。

为了解决这个问题，该模型试图通过分层 VQ-VAE 架构来解决它，将音频压缩到离散空间 [14]，损失函数旨在保留最多的信息量。该模型可制作摇滚、嘻哈和爵士等不同流派的歌曲。但是，该模型仅限于英文歌曲。具体来说，它的训练数据集来自 LyricWiki 的 120 万首歌曲。VQ-VAE 有 50 亿个参数，并在 9 秒的音频片段上训练了 3 天。

Whisper

该模型是由 OpenAI 开发的音频到文本转换器。它完成了该领域的几项任务：多语言语音识别、翻译和语言识别[26]。与之前的案例一样，它的 API 可以在 GitHub 网站上找到。语音识别系统的目标应该是开箱即用地在广泛的环境中可靠地工作，而不需要为每个部署分布对解码器进行有监督的微调。这很难，因为缺乏高质量的预训练解码器。

具体来说，这个模型是在 680,000 小时的标记音频数据上训练的。这些数据是从互联网上收集的，这导致了一个非常多样化的数据集，涵盖了来自许多不同环境、录音设置、说话者和语言的广泛分布的音频。该模型确保数据集仅来自人声，因为机器学习语音会损害模型。文件在 30 秒的片段中被破坏，与该时间片段内出现的转录子集配对。该模型有一个编码器-解码器转换器，因为该架构已被验证可以可靠地扩展。我们可以通过下图观察模型的架构特征。我们可以看到不同类型的数据和学习顺序。

以前的模型都是将一种非结构化数据类型转换为另一种数据类型。但是，对于文本，将文本转换为另一种文本以满足一般问答等任务非常有用。以下四种模型处理文本，也输出文本，以满足不同的需求。

ChatGPT

流行的 ChatGPT 是 OpenAI 的一种模型，它以对话方式进行交互。众所周知，该模型会回答后续问题、挑战不正确的前提并拒绝不适当的请求。更具体地说，ChatGPT 背后的算法基于转换器。然而，训练是通过人类反馈的强化学习进行的。特别是，初始模型是使用有监督的微调进行训练的：人类 AI 训练员将提供他们扮演双方的对话，即用户和 AI 助手。然后，这些人将获得模型编写的回复，以帮助他们撰写回复。该数据集与 InstructGPT [3] 的数据集混合，后者被转换为对话格式。可以在他们的网站上找到演示，也可以在 OpenAI 的网站上找到 API。我们在图 14 中总结了 ChatGPT 训练的主要步骤，可在 ChatGPT 演示网站上找到。最后，ChatGPT 还能够生成代码和简单的数学运算。

LaMDA

LaMDA 是对话应用程序的语言模型 [32]。与大多数其他语言模型不同，LaMDA 接受了对话训练。它是一系列专门用于对话的基于 Transformer 的神经语言模型，具有多达 137B 个参数，并在 1.56T 公共对话数据和网络文本的单词上进行了预训练。微调可以确保模型的安全性和事实基础。只有 0.001% 的训练数据用于微调，这是该模型的一大成就。特别是，对话模式利用了 Transformer 在文本中呈现长期依赖关系的能力。具体来说，它们通常非常适合模型缩放。因此，LaMDA 使用单个模型来执行多项任务：它生成多个响应，这些响应经过安全过滤，基于外部知识源并重新排序以找到最高质量的响应。我们在图 15 中说明了与模型的对话示例。

PEER

由 Meta AI 研究开发的协作语言模型，在编辑历史上进行训练以涵盖整个写作过程 [29]。它基于四个图 14. ChatGPT 的训练步骤，将监督学习与强化学习相结合。步骤：计划、编辑、解释和重复。重复这些步骤，直到文本处于不需要进一步更新的令人满意的状态。该模型允许将撰写论文的任务分解为多个更容易的子任务。此外，该模型还允许人类随时进行干预并将模型引导至任何方向。

它主要接受维基百科编辑历史的训练。该方法是一种自我训练，使用模型来填充缺失的数据，然后在该合成数据上训练其他模型。这样做的缺点来自评论非常嘈杂和缺乏引用，这试图通过并不总是有效的检索系统来弥补。该框架基于迭代过程。制定计划、收集文件、执行编辑和解释它的整个过程可以重复多次，直到得出一个文本序列。对于训练，使用了 DeepSpeed transformer。

Meta AI Speech from Brain

Meta AI 开发的模型，用于帮助无法通过语音、打字或手势进行交流的人们 [11]。以前的技术依赖于需要神经外科干预的侵入性大脑记录技术。该模型试图直接从非侵入性大脑记录中解码语言。这将提供更安全、更具可扩展性的解决方案，使更多人受益。这种提出的方法的挑战来自每个人大脑中的噪声和差异以及传感器的放置位置。深度学习模型通过对比学习进行训练，并用于最大限度地对齐非侵入性大脑记录和语音。一种称为 wave2vec 2.0 的自监督学习模型。用于识别听有声读物的志愿者大脑中语音的复杂表征。用于测量神经元活动的两种非侵入性技术是脑电图和脑磁图。

训练数据来自四个开源数据集，代表 169 名志愿者收听有声读物的 150 小时录音。EEG 和 MEG 记录被插入大脑模型，该模型由具有残留连接的标准深度卷积网络组成。这些录音来自个人的大脑。然后，该模型同时具有声音的语音模型和 MEG 数据的大脑模型。结果表明，该算法的几个组成部分有利于解码性能。同样，分析表明该算法随着 EEG 和 MEG 记录的增加而改进。这项研究表明，尽管数据存在噪声和可变性，但经过自我监督训练的 AI 可以解码感知语音。这项研究的最大局限在于它侧重于语音感知，但最终目标是将这项工作扩展到语音生成。

虽然我们已经介绍了文本到文本模型，但并非所有文本都遵循相同的语法。一种特殊类型的文本是代码。在编程中，知道如何将想法转化为代码是必不可少的。为此，Codex 和 Alphacode 模型会有所帮助。

Codex

由 OpenAI 创建的 AI 系统，可将文本翻译成代码。它是一种通用编程模型，因为它基本上可以应用于任何编程任务 [8]。编程可以分为两部分：将问题分解为更简单的问题，并将这些问题映射到已经存在的现有代码（库、API 或函数）中。第二部分是程序员时间限制最多的部分，也是Codex最擅长的地方。为训练收集的数据是 2020 年 5 月从托管在 GitHub 上的公共软件存储库收集的，其中包含 179GB 的 1 MB 以下的唯一 Python 文件。该模型是根据 GPT-3 进行微调的，GPT-3 已经包含强大的自然语言表示。演示和 API 可以在 Open AI 的网站上找到。

Alphacode

其他语言模型已经展示了令人印象深刻的代码生成能力，但这些系统在评估更复杂、未见过的问题时仍然表现不佳。然而，Alphacode 是一个用于为需要更深入推理的问题生成代码的系统 [19]。三个组成部分是实现这一成就的关键：拥有用于训练和评估的广泛数据集、大型且高效的基于 Transformer 的架构以及大规模模型采样。在训练方面，该模型首先通过总计 715.1 GB 代码的 GitHub 存储库进行预训练。这是一个比 Codex 的预训练数据集更广泛的数据集。为了更好地训练，从 Codeforces 平台引入了微调数据集。通过这个平台，代码竞赛在验证阶段进行，我们在这个阶段提高了模型的性能。关于基于转换器的架构，他们使用编码器-解码器转换器架构。与常用的解码器架构相比，这种架构允许双向描述和额外的灵活性。同样，他们使用浅层编码器和深度编码器来提高模型的效率。为了降低采样成本，使用了多查询注意力。

即使是科学文本也正在成为生成式人工智能的目标。尽管要在该领域取得成功还有很长的路要走，但研究自动科学文本生成的首次尝试至关重要。

Galactica

Galactica 是 Meta AI 和 Papers with Code 开发的自动组织科学的新型大型模型。该模型的主要优点是能够对其进行多个时期的训练而不会过度拟合，其中上游和下游性能通过使用重复标记得到改善。数据集设计对该方法至关重要，因为所有数据均以通用降价格式处理，以混合不同来源的知识。引文通过特定的标记进行处理，该标记允许研究人员在给定任何输入上下文的情况下预测引文。模型预测引用的能力随着规模的扩大而提高，并且模型在引用分布方面变得更好。此外，该模型可以执行涉及 SMILES 化学公式和蛋白质序列的多模态任务。具体而言，Galactica 在仅解码器设置中使用 Transformer 架构，并为所有模型尺寸激活 GeLU。

Minerva

能够使用逐步推理解决数学和科学问题的语言模型。Minerva 非常明确地专注于为此目的收集训练数据。它解决定量推理问题，大规模制作模型并采用一流的推理技术。具体来说，Minerva 通过逐步生成解决方案来解决这些问题，这意味着包括计算和符号操作，而不需要计算器等外部工具。

Alphatensor

由研究公司 Deepmind 创建的 Alphatensor 因其发现新算法的能力而成为业界完全革命性的模型 [15]。在已发布的示例中，Alpha Tensor 创建了一种更高效的矩阵乘法算法，这非常重要，因为提高算法的效率会影响很多计算，从神经网络到科学计算例程。

该方法基于深度强化学习方法，其中训练代理 AlphaTensor 玩单人游戏，目标是在有限因子空间内找到张量分解。在 TensorGame 的每一步，玩家选择如何组合矩阵的不同条目以进行相乘。根据达到正确乘法结果所需的选定运算次数分配分数。为了解决代理 TensorGame，开发了 AlphaTensor。AlphaTensor 使用专门的神经网络架构来利用合成训练游戏的对称性。

GATO

GATO是Deepmind做的一个单一的通才智能体。它作为一种多模式、多任务、多实施的通才政策 [27]。具有相同权重的相同网络可以承载与播放 Atari、字幕图像、聊天、堆叠积木等截然不同的功能。在所有任务中使用单一神经序列模型有很多好处。它减少了对具有归纳偏差的手工制定政策模型的需求。它增加了训练数据的数量和多样性。这个通用代理在许多任务上都取得了成功，并且可以用很少的额外数据进行调整以在更多任务上取得成功。 r 在模型规模的操作点进行训练，允许实时控制现实世界的机器人，目前在 GATO 的情况下约为 1.2B 参数。

AIGC 的基础

基础模型

Transformer

Transformer 是许多最先进模型的骨干架构，例如 GPT-3 [9]、DALL-E-2 [5]、Codex [2] 和 Gopher [39]。它最初被提出是为了解决传统模型（如 RNN）在处理可变长度序列和上下文感知方面的局限性。Transformer 架构主要基于一种自注意力机制，该机制允许模型关注输入序列中的不同部分。 Transformer 由编码器和解码器组成。编码器接收输入序列并生成隐藏表示，而解码器接收隐藏表示并生成输出序列。编码器和解码器的每一层都由多头注意力和前馈神经网络组成。多头注意力是 Transformer 的核心组件，它学习根据令牌的相关性为令牌分配不同的权重。这种信息路由方法使模型能够更好地处理长期依赖性，从而提高各种 NLP 任务的性能。Transformer 的另一个优点是其架构使其高度可并行化，并允许数据战胜归纳偏差 [40]。此属性使 transformer 非常适合大规模预训练，使基于 transformer 的模型能够适应不同的下游任务。

Pre-trained Language Models（PLM）

自从引入 Transformer 架构以来，由于其并行性和学习能力，它已成为自然语言处理中的主导选择。通常，这些基于 transformer 的预训练语言模型通常可以根据其训练任务分为两类：autoregressive language modeling和masked language modeling [41]。给定一个由多个标记组成的句子，掩码语言建模的目标，例如 BERT [42] 和 RoBERTa [43]，是指在给定上下文信息的情况下预测掩码标记的概率。掩蔽语言建模最著名的例子是 BERT [42]，它包括掩蔽语言建模和下一句预测任务。

RoBERTa [43] 使用与 BERT 相同的架构，通过增加预训练数据量和纳入更具挑战性的预训练目标来提高其性能。同样基于 BERT 的 XL-Net [44] 结合了置换操作来更改每次训练迭代的预测顺序，从而使模型能够跨令牌学习更多信息。自回归语言建模，例如 GPT-3 [9] 和 OPT [45]，是在给定先前标记的情况下对下一个标记的概率进行建模，因此是从左到右的语言建模。与掩码语言模型不同，自回归模型更适合生成任务。

Reinforcement Learning from Human Feedback

尽管接受了大规模数据的训练，AIGC 可能并不总是产生符合用户意图的输出，其中包括对有用性和真实性的考虑。为了更好地使 AIGC 输出与人类偏好保持一致，人类反馈强化学习 (RLHF) 已应用于各种应用程序中的模型微调，例如 Sparrow、InstructGPT 和 ChatGPT [10、46]。

通常，RLHF 的整个流程包括以下三个步骤：预训练、奖励学习和强化学习微调。首先，语言模型 �0

作为初始语言模型在大规模数据集上进行了预训练。由于 �0 对于人类给定的input x给出的答案可能不符合人类的目的，因此

在第二步中，我们训练奖励模型来编码多样化和复杂的人类偏好。具体来说，给定相同的，不同的生成答案

由人类以人肉的方式进行评估（这成本我擦）。

随后使用 ELO [47] 等算法转移到逐点奖励标量

在最后一步中，语言模型被微调以使用强化学习最大化学习到的奖励函数。为了稳定 RL 训练，Proximal Policy Optimization (PPO) 通常用作 RL 算法。在 RL 训练的每一集中，都会考虑一个经验估计的 KL 惩罚项，以防止模型输出一些特殊的东西来欺骗奖励模型。具体来说，每一步的总奖励

由

给出，其中

是学习的奖励模型，

是 KL 惩罚项，

是经过训练的策略。有关 RLHF 的更多详细信息，请参阅 [48]。

（RLHF的部分可以参考这篇文章的精彩描述Akiko：从零实现ChatGPT——RLHF技术笔记734 赞同 · 44 评论文章

）

尽管 RLHF 通过结合流利性显示出可喜的结果，但由于缺乏公开可用的基准和实施资源，这一领域的进展受到阻碍，导致人们认为 RL 是 NLP 的一种具有挑战性的方法。为了解决这个问题，最近引入了一个名为 RL4LMs [49] 的开源库，它包含用于在基于 LM 的生成上微调和评估 RL 算法的构建块。

除了人类反馈之外，最新的对话代理 Claude 支持宪法 AI [50]，其中奖励模型是通过 RL 从 AI 反馈 (RLAIF) 中学习的。批评和 AI 反馈都以从“宪法”中得出的一小组原则为指导，这是人类唯一提供给Claude的东西。AI 反馈侧重于通过解释其对危险查询的反对意见来控制输出以降低危害。此外，最近对 RLAIF [51] 的初步理论分析证明了 RLHF 的经验成功，并为语言模型的专门 RLHF 算法设计提供了新的见解。

Computing

硬件

近年来，硬件的显着进步促进了大规模模型的训练。过去，使用 CPU 训练大型神经网络可能需要几天甚至几周的时间。但是，随着更强大的计算资源的出现，这个过程被加速了几个数量级。例如，NVIDIA A100 GPU 在 BERT-large 推理期间的速度是 V100 的 7 倍，是 T42 的 11 倍。此外，谷歌的张量处理单元 (TPU) 专为深度学习而设计，与当前一代的 A100 GPU3 相比，可提供更高的计算性能。这种计算能力的快速进步显着提高了 AI 模型训练的效率，并为开发大型复杂模型开辟了新的可能性。

分布式训练

另一个重大改进是分布式训练。在传统的机器学习中，训练通常在使用单个处理器的单个机器上执行。这种方法适用于小型数据集和模型，但在处理大型数据集和复杂模型时，这种方法显然不切实际。在分布式训练中，训练工作负载分配给多个处理器或机器，从而可以更快地训练模型。一些公司还发布了简化深度学习堆栈分布式训练过程的框架 [53-55]。这些框架提供的工具和 API 允许开发人员轻松地将他们的训练工作负载分布在多个处理器或机器上，而无需管理底层基础设施。

云计算

云计算在训练大规模模型方面也发挥了至关重要的作用。以前，模型通常在本地进行训练。现在，随着 AWS 和 Azure 等云计算服务提供对强大计算资源的访问，深度学习研究人员和从业者可以根据需要启动大型 GPU 或 TPU 集群来训练大型模型。总的来说，这些进步使得能够开发出更复杂、更准确的模型，为 AI 研究和应用的各个领域开辟了新的可能性。

生成式人工智能

单模态模型

在本节中，我们将介绍最先进的单模态生成模型。这些模型旨在接受特定的原始数据模态作为输入，例如文本或图像，然后以与输入相同的模态生成预测。我们将讨论这些模型中使用的一些最有前途的方法和技术，包括生成语言模型，例如 GPT3 [9]、BART [34]、T5 [56]，以及生成视觉模型，例如 GAN [29]、 VAE [30] 和normalizng flow [57]。

生成式语言模型

生成语言模型 (GLM) 是一种 NLP 模型，经过训练可以根据输入数据中的模式和结构生成可读的人类语言。这些模型可用于广泛的 NLP 任务，例如对话系统 [58]、翻译 [59] 和问答 [60]。

最近，预训练语言模型的使用已成为 NLP 领域的主流技术。通常，当前最先进的预训练语言模型可分为屏蔽语言模型（编码器）、自回归语言模型（解码器）和编码器-解码器语言模型，如图 4 所示

解码器模型广泛用于文本生成，而编码器模型主要应用于分类任务。通过结合这两种结构的优势，编码器-解码器模型可以利用上下文信息和自回归属性来提高各种任务的性能。本次调查的主要重点是生成模型。在以下部分中，我们将深入研究解码器和编码器-解码器架构的最新进展。

解码器模型

基于自回归解码器的语言模型最突出的例子之一是 GPT [61]，它是一种基于transformer的模型，它利用自我注意机制同时处理序列中的所有单词。GPT 接受了基于先前单词的下一个单词预测任务的训练，使其能够生成连贯的文本。随后，GPT-2 [62] 和 GPT-3 [9] 保持自回归从左到右的训练方法，同时扩大模型参数并利用基本网络文本以外的多样化数据集。

Gopher [39] 使用类似 GPT 的结构，但将 LayerNorm [63] 替换为 RSNorm，其中在原始 layernorm 结构中添加了residual connection以维护信息。除了增强了norm function外，其他几项研究也集中在优化注意力机制上。BLOOM [64] 与 GPT-3 具有相同的结构，但 BLOOM 没有使用稀疏注意力，而是使用全注意力网络，更适合建模长依赖关系。 [65] 提出了 Megatron，它扩展了常用的架构。

在此之上，后续的比较突破性的发展的典型例子为instructgpt，

下图为InstructGPT [10] 的架构。

首先，演示数据由人工标记器收集，并用于微调 GPT-3。然后从语言模型中抽取提示和相应的答案，人工贴标签者将从最好到最差的答案进行排序。此数据用于训练奖励模型。最后，使用经过训练的奖励模型，可以根据人类标注者的偏好优化语言模型。

GPT-3、BERT 和 T5 具有分布式训练目标以处理大量数据。这种方法后来也被 MT-NLG [66] 和 OPT [45] 采用。除了模型架构和预训练任务方面的进步外，在改进语言模型的微调过程方面也付出了巨大的努力。例如，InstructGPT [10] 利用预训练的 GPT-3 并使用 RLHF 进行微调，允许模型根据人类标记的排名反馈来学习偏好。

编码器-解码器模型

一种主要的编码器-解码器方法是文本到文本传输转换器 (T5) [56]，它将基于transformer的编码器和解码器组合在一起进行预训练。T5 采用“文本到文本”方法，这意味着它将输入和输出数据转换为标准化的文本格式。这使得 T5 可以使用相同的模型架构在广泛的 NLP 任务上进行训练，例如机器翻译、问答、摘要等。正如其名称所述，Switch Transformer [67] 利用“切换”（指简化的 MoE 路由算法）在 T5 上进行并行训练。与基本模型相比，该模型在相同的计算资源下成功地获得了更大的规模和更好的性能。另一种广泛使用的改进 T5 的方法是 ExT5 [68]，它由 Google 于 2021 年提出，扩展了之前 T5 模型的规模。与 T5 相比，ExT5 继续在 C4 和 ExMix 上进行预训练，ExMix 是跨不同领域的 107 个受监督 NLP 任务的组合。另一种广泛使用的编码器-解码器方法是 BART [34]，它融合了 BERT 的双向编码器和 GPT 的自回归解码器，使其能够利用编码器的双向建模能力，同时保留生成任务的自回归属性。HTLM [69] 利用 BART 去噪目标对超文本语言进行建模，其中包含有关文档级结构的有价值信息。该模型还在各种生成任务的零样本学习上实现了最先进的性能。

相反，DQ-BART [70] 旨在使用蒸馏和量化将 BART 压缩成更小的模型，从而在各种下游任务上实现 BART 的原始性能。

生成式视觉模型

生成对抗网络 (GAN) 在图像生成研究领域的基于深度学习的比较早的成功的工作了。GAN 由两部分组成，生成器和鉴别器。生成器尝试学习真实示例的分布以生成新数据，而鉴别器则确定输入是否来自真实数据空间。

生成器和鉴别器的结构极大地影响了 GAN 的训练稳定性和性能。LAPGAN [71] 使用拉普拉斯金字塔框架 [72] 中的级联卷积网络以从粗到精的方式生成高质量图像。 A. Radford 等人。 [73] 提出 DCGANs 结构，一类具有架构约束的 CNN，作为无监督学习的强大解决方案。Progressive GAN [74] 逐渐增加生成器和鉴别器，从低分辨率开始并添加层以对更精细的细节进行建模，从而实现更快、更稳定的训练并生成高质量的图像。由于传统的卷积 GAN 仅基于低分辨率特征图中的空间局部点生成高分辨率细节，SAGAN [75] 引入了注意力驱动的远程依赖建模和光谱归一化，以改善训练动态。此外，从复杂的数据集中生成高分辨率和多样化的样本仍然是一个挑战。为了解决这个问题，BigGAN [76] 被提议作为 GAN 的大规模 TPU 实现。StyleGAN [77] 通过分离高级属性和变体来改进 GAN，允许在质量指标、插值和分离方面进行直观控制和更好的性能。 [78, 79] 专注于逆映射——将数据投影回潜在空间，从而为辅助辨别任务提供有用的特征表示。为了解决模式崩溃和改进生成模型，D2GAN [80] 和 GMAN [81] 方法都通过结合额外的鉴别器扩展了传统的 GAN。MGAN [82] 和 MAD-GAN [83] 通过合并多个生成器和一个鉴别器来解决模式崩溃问题。CoGAN [84] 由一对具有权重共享约束的 GAN 组成，允许从单独的边缘分布中学习联合分布，而不需要训练集中的相应图像。

代表性变种：由于生成器的潜在向量是高度非结构化的，InfoGAN [85] 提出了另一种潜在代码来提取实际数据空间的重要结构化特征。在 CGANs [86-88] 中，生成器和鉴别器以附加信息为条件，例如类标签或来自其他模态的数据，以生成以特定属性为条件的样本。 f-GAN [89] 允许使用任何 f-divergence 作为训练生成模型的目标函数。f-divergence 的选择为控制生成样本的质量和训练模型的难度之间的权衡提供了一个灵活的框架。

目标函数：生成模型的目标是匹配真实的数据分布。WGAN [90] 和 LS-GAN [91, 92] 旨在使用真实数据密度的 Lipschitz 正则性条件对损失函数进行正则化，以便更好地泛化和生成真实的新数据。 [93] 是一种权重归一化技术，旨在稳定 GAN 中鉴别器的训练。车等。 [94] 正则化目标，可以稳定 GAN 模型的训练。UGAN [95] 通过定义关于鉴别器展开优化的生成器目标来稳定 GAN 的训练。 [96] 通过从真实/生成的数据对中采样来提高鉴别器的相对性，以提高生成器生成的数据分布的稳定性和覆盖率。

VAE：在变分贝叶斯推理 [97] 之后，变分自动编码器 (VAE) 是一种生成模型，它试图将数据反映到概率分布中，并学习接近其原始输入的重建。

复杂的先验：重写变分自动编码器的变分证据下限目标 (ELBO) 有助于改善变分界限 [98]。由于真正的聚合后验是难以处理的，VampPrior [99] 引入了以可学习的伪输入为条件的后验先验的变分混合。 [100–102] 提出围绕随机抽样过程跳过连接以捕获数据分布的不同方面。

正则化自动编码器： [1, 103, 104] 将正则化引入编码器的潜在空间，并在不符合任意选择的先验条件的情况下产生平滑且具有代表性的潜在空间。 [105] 提出了一种多尺度分层组织来对较大的图像进行建模。

flow：归一化流是通过一系列可逆和可微映射从简单到复杂的分布转换。

Coupling and autoregressive flows：通过[57]中的耦合方法学习数据的非线性确定性变换，使变换后的数据符合因式分布。丁等人。 [106] 提出多尺度流在生成方向上逐渐向分布引入维度。耦合层更灵活的推广是自回归流 [107–109]，它允许将并行密度估计作为通用逼近器。

Convolutional and Residual Flows：郑等。 [110] 使用一维卷积 (ConvFlow) 和 Hoogeboom 等人。 [111] 为建模 d×d 卷积提供了更通用的解决方案。他们利用三角形结构来改善输入之间的相互作用并有效地计算行列式。RevNets [112] 和 iRevNets [113] 率先构建了基于残差连接的可逆网络架构，缓解了梯度消失问题。此外，残差连接可以看作是一阶常微分方程 (ODE) [114] 的离散化，以提高参数效率。

Diffusion：生成扩散模型 (GDM) 是一类前沿的基于概率的生成模型，展示了计算机视觉领域的最新成果。它的工作原理是通过多级噪声扰动逐步破坏数据，然后学习反转此过程以生成样本。

Model Formulations：扩散模型主要分为三类。DDPM [115]分别应用两个马尔可夫链来逐步破坏具有高斯噪声的数据，并通过学习马尔可夫转移核来逆转前向扩散过程。基于分数的生成模型 (SGM) 直接作用于数据对数密度的梯度，也就是分数函数。NCSN[31] 用多尺度增强噪声扰动数据，并通过以所有噪声水平为条件的神经网络联合估计所有此类噪声数据分布的得分函数。由于完全分离的训练和推理步骤，它享有灵活的采样。Score SDE [116] 将前两个公式概括为连续设置，其中噪声扰动和去噪过程是随机微分方程的解。事实证明，概率流 ODE 也可以用来模拟逆向过程。

Training Enhancement：训练增强旨在通过引入来自另一个预训练模型或额外可训练超参数的先验知识来改进采样。受知识蒸馏思想的启发，Salimans 等人。 [117] 建议逐步将知识从预训练的复杂教师模型提取到更快的学生模型，这可以将采样步骤减半。TDPM [118] 和 ES-DDPM [119] 通过提前停止截断扩散过程来提高采样速度。为了从非高斯分布初始化的逆向过程生成样本，引入了另一种预训练的生成模型，如 VAE 或 GAN 来近似这种分布。法兰赛斯等。 [120] 将训练步骤的数量制定为变量以实现最佳权衡。改进的 DDPM [121] 首先通过将噪声尺度项添加到损失函数中来引入噪声尺度调整。同时，San Romans 等人 [122] 引入了噪声预测网络以逐步调整噪声调度。这种噪声调度学习通过在训练和推理期间有效地引导噪声的随机游走来改进重建。

Efficient Training-free Sampling：无需额外训练，免训练采样直接减少离散化时间步长的数量，同时最大限度地减少离散化误差。在相同的训练目标下，DDIM [123] 将 DDPM 推广到一类非马尔可夫扩散过程并引入跳跃加速。这可以提供更短的生成马尔可夫链。AnalyticDPM [124] 通过估计最优模型逆向方差的解析形式和 KL-divergence w.r.t 其得分函数来提供更有效的推理。还有一些作品 [125, 126] 通过动态规划直接计算出最佳采样轨迹。

Noise Distribution：噪声扰动的分布是扩散模型的重要组成部分，其中大部分是高斯分布。同时，以更多的自由度拟合这种分布可以提高性能。Nachmani 等人。 [127] 证明 Gamma 分布可以改善图像和语音的生成，高斯分布的混合也优于单一分布。此外，冷扩散 [128] 提出了一个更普遍的结论，即噪声可以设置为任何分布作为生成行为扩散模型并不强烈依赖于噪声分布的选择。除了噪声扰动，CCDF [129] 表明没有必要从高斯分布进行初始化，它可以通过简单的前向扩散减少采样步骤，但噪声初始化更好。

Mixed Modeling：混合建模旨在将扩散模型与另一类生成模型相结合，以充分利用它们的所有优点，从而提供更强的表现力或更高的采样速度。DiffuseVAE [130] 通过使用 VAE 生成的模糊图像重建调节扩散采样过程，将标准 VAE 合并到 DDPM 管道中。LSGM [131] 在 VAE 的潜在空间中训练 SGM，将 SGM 泛化为非连续数据，并使 SGM 在小空间内学习更流畅。去噪扩散 GAN [132] 将条件 GAN 引入 DDPM 管道，以使用更具表现力的多模态分布参数化去噪过程，从而提供大的去噪步骤。DiffFlow [133] 将流函数集成到图 8 中。

生成视觉语言的一般结构。我们将生成过程分为编码器部分和解码器部分。编码器模型会将输入编码为潜在表示，然后解码器会将此表示解码为生成的输出。

基于 SDE 的扩散模型的轨迹，这使得向前的步骤也可以训练。从噪声扰动中引入的随机性赋予归一化流更强的表达能力，而可训练的正向过程大大减少了扩散轨迹长度。因此，DiffFlow 能够以更好的采样效率学习边界更清晰的分布。

单模态本身相对多模态简单一些，因为不需要额外的跨模态的一些特殊设计，单模态模型。。。额，话说去掉了多模态模型之后其它的vit，resnet，bert，tabnet，tft这些不都是传统的单模态模型么。。

多模态模型

多模态生成是当今 AIGC 的重要组成部分。多模态生成的目标是通过学习数据中的多模态连接和交互来学习生成原始模态的模型 [7]。模态之间的这种联系和相互作用有时可能非常复杂，这使得与单模态表示空间相比，多模态表示空间难以学习。然而，随着前面章节中提到的强大的特定于模式的基础架构的出现，越来越多的方法被提出来应对这一挑战。在本节中，我们介绍了视觉语言生成、文本音频生成、文本图生成和文本代码生成方面最先进的多模态模型。由于大多数多模态生成模型总是与实际应用高度相关，因此本节将主要从下游任务的角度进行介绍。

视觉语言生成

编码器-解码器架构是一种广泛使用的框架，用于解决计算机视觉和自然语言处理中的单峰生成问题。在多模态生成中，特别是在视觉语言生成中，这种方法经常被用作基础架构。编码器负责学习输入数据的上下文表示，而解码器用于生成反映跨模态交互、结构和表示中连贯性的原始模态。在下文中，我们对最先进的视觉语言编码器进行了全面调查，然后对解码器组件进行了阐述。

视觉语言编码器。最近，用于单一模态的编码器的开发取得了显着进步，引发了如何从多种模态中学习上下文表示的问题。一种常见的方法是使用融合函数组合特定于模态的编码器，然后利用多个预训练任务来对齐表示空间 [37、134、135]。一般来说。这些编码器模型可以分为两类，级联编码器和交叉对齐编码器 [7]（说白了就是单塔和双塔）。

两种类型的视觉语言编码器：级联编码器和交叉对齐编码器。前者直接单塔内直接交互，后者在双塔之间存在约束（例如clip中的dual encoder）。

级联编码器（单塔）

多模态之间的交互的最直接的思路是连接来自单个编码器的嵌入。马东什么：多模态206 赞同 · 3 评论文章

一个早期的例子是 VisualBERT [134]，它利用了 BERT的结构（如下图）。马东什么：多模态一个早期的例子是 VisualBERT [134]，它利用了 BERT的结构（如下图）。

其中，bert作为文本编码器，CNN 作为图像编码器。来自图像编码器的嵌入将直接合并到 BERT 的token嵌入中，用的是joint representation

允许模型隐式学习对齐的联合表示空间

使用了隐式对齐

所谓隐式就是放到一个layer组件中做自由的交互，显式则是同一个样本的不同模态视角之间做一些距离计算之类的进行约束

VisualBERT 还利用了与 BERT 一样的多任务预训练范式，使用两个基于视觉的语言模型目标：使用图像和句子图像预测进行掩码语言建模。此外，VisualBERT 还结合了一些特定于模态的pretrain task。

另一个例子是 VL-BERT [136]，它与 VisualBERT 具有相似的架构。

与 VisualBERT 不同，VL-BERT 使用 Faster R-CNN [137] 作为感兴趣区域 (ROI) 提取器，并利用提取的 ROI 信息作为图像区域嵌入。VL-BERT 还包括一个额外的预训练任务，即带有语言线索的mask ROI 分类，以更好地结合视觉信息。后来，基于与 VisualBERT 相同的架构，提出了 UNITER [138]，

uniter具有不同的训练目标。UNITER使用掩码语言建模、掩码区域建模、图像文本匹配预测和词区域对齐预测作为其预训练任务。通过这种方式，UNITER 可以学习信息丰富的上下文嵌入。为此，我们看到级联编码器通常基于相同的 BERT 架构，并使用类似 BERT 的任务进行预训练。然而，这些模型总是涉及非常复杂的预训练过程、数据收集和损失设计。为了解决这个问题，[135] 提出了 SimVLM，它通过将 PrefixLM 设置为训练目标并直接使用 ViT 作为文本编码器和图像编码器来简化视觉语言模型的预训练过程。与以前的方法相比，SimVLM 在多种视觉语言任务上实现了最先进的性能，并且架构大大简化。

交叉对齐编码器（双塔or多塔）

另一种学习上下文表示的方法是查看模态之间的成对交互 [7]。与单塔结构不同，交叉对齐编码器始终使用双塔结构，其中每个模态一个塔，然后使用交叉模态编码器学习联合表示空间。

LXMERT [139] 使用 Transformers 提取图像特征和文本特征，

然后添加多模态交叉注意力模块进行协调学习。生成的输出嵌入将是视觉嵌入、语言嵌入和多模态嵌入。该模型还使用多个多模态任务进行了预训练。

同样，ViLBERT [140] 利用cross transformer模块来对齐两种模式。

给定视觉和语言嵌入，一种特定模态的key和value将被输入到另一种模态的注意力模块中，以生成包含这两种信息的集合注意力嵌入。通常，这些模型都利用跨层将信息融合到联合表示空间中。然而，由于其大量参数，在这种情况下使用transformer架构将是低效的。为了简化训练过程和计算，CLIP [37] 使用点积作为交叉层，比使用cross Transformer 做多个模态之间的交互更高效，能够实现高效的大规模下游训练。此外，CLIP 在大量成对数据上进行了训练，这已被证明优于许多其他模型。

文本解码器

给定某种模态的表示，视觉语言解码器的主要目的是将其转换为任务指定的某种原始模态（不同模态之间的translation）。这里主要关注文本到图像解码器（例如以文生图）和图像到文本的解码器（例如图片注释）。

图像到文本解码器，通常从编码器获取上下文表示，并将该表示解码为句子。随着大型语言模型的出现和有效性的验证，许多架构现在选择性地冻结语言解码器组件。因此，文本解码器可以大致分为两类：联合训练模型和冻结编码器。

联合训练的解码器

联合训练的解码器是指在解码表示时需要完整的交叉模式训练的解码器。图像本到文本生成的挑战通常在于在预训练期间如何对齐两种模式。因此，这类模型需要更强大的编码器而不是解码器。为了应对这一挑战，许多模型优先构建强大的编码器，然后将其与相对轻量级的解码器模型相结合。例如，VLP [138] 和 ALBEF [141] 利用一个简单的转换器解码器来解码信息：

BLIP [142] 在预训练期间将编码器和解码器结合在一起，允许多模式空间对齐以实现理解和生成目标。

BLIP 由三部分组成，一个用于提取图像和文本特征的单模态编码器，一个接受图像和文本特征作为输入的图像文本编码器，以及一个接受图像特征并输出文本的图像接地文本解码器。除了对齐的编码器和解码器结构，作者还设计了几个相应的预训练任务来帮助模型更好地学习多模态依赖。

冻结编码器

另一种有效执行图像到文本生成任务的方法是冻结大型语言模型并仅训练图像编码器，这也可以看作是执行多模态prompt的一种方法。由于 NLP 中prompt和in context learning的成功，人们越来越关注这种性质的方法。这让人们质疑这种方法在多模式环境中是否也有效。Frozen [143] 首先将in context learning引入视觉语言任务。它冻结了语言模型，只训练图像编码器。生成的图像表示将嵌入到语言模型的输入嵌入中。该方法在各种零样本和少样本视觉语言任务中实现了最先进的性能。

后来，Alayrac 等人提出了 Flamingo [144]，它进一步探索了多模态的in context learning。Flamingo 涉及冻结视觉编码器和冻结语言编码器以获得视觉语言表示，并利用门控交叉注意力密集层将图像表示融合为文本表示。最近，[145] 提出了一种用冻结语言模型实现 Visual和nlp 交互的方法，使模型能够生成交错的多模态数据。该方法还冻结输入编码器并训练文本到图像和图像到文本的线性映射，以进一步编码和解码生成的嵌入。然而，为什么这种基于prompt的方法在多模态生成中起作用仍然是一个问题。此外还提出了一些作品来回答这个问题。梅鲁洛等。提出了一种在冻结图像编码器和文本编码器之间注入线性投影的方法[146]。在训练期间，只调整线性投影。实验结果表明，具有相似大小的冻结语言模型通常在将视觉信息转换为语言方面表现同样出色，但经过语言监督预训练的图像编码器（如 CLIP 文本编码器）可以对额外信息进行编码，从而在视觉语言任务上表现得更好。

图像解码器

text to image generation是指给定一个指令，生成一个与该指令对应的图像。同样，图像生成中常用的模型也遵循编码器-解码器架构，其中编码器更侧重于学习语言信息，解码器更侧重于利用学习到的信息来限制图像合成。一般来说，最近的工作可以分为两类，基于 GAN 的方法和基于扩散的方法（btw在扩散模型之前基本都是走的gan，vae，gan的工作多的一笔）。

基于 GAN 的解码器

给定文本编码器

，基于 GAN 的方法结合了鉴别器和生成器，其中生成器接受由

生成的文本嵌入和噪声向量以生成输出

，这些输出与真实样本一起输入到鉴别器分布

[147]。该领域的一个著名模型是 StackGAN [148]。 StackGAN 架构由两个阶段组成：调节阶段和细化阶段。

在调节阶段，模型将文本描述作为输入并生成低分辨率图像。然后将该图像送入细化阶段，在该阶段进一步细化以生成与文本描述相匹配的高分辨率图像。

AttnGAN [149] 是另一种基于 StackGAN 架构的文本到图像合成模型。Attngan 在 StackGAN 架构中加入了注意力机制，以进一步提高生成图像的质量。然而，这些模型在指令学习过程中主要使用相对简单的文本编码器，这可能会导致一定的信息丢失。

StyleCLIP [150] 是一种最新的文本到图像合成模型，它使用对比学习来对齐文本和图像特征。它基于 StyleGAN [77] 架构，产生了对以前的文本到图像合成模型（如 StackGAN）的重大进步。StyleCLIP 还遵循编码器-解码器结构，使用文本编码器对指令进行编码，使用图像解码器合成新图像。StyleCLIP 的一项关键创新是它使用对比学习来对齐文本和图像特征。通过训练模型以最大化文本和图像特征之间的相似性，同时最小化不同文本和图像对之间的相似性，StyleCLIP 能够学习文本和图像特征之间更有效的映射，从而产生更高质量的图像合成（这种translation之间的对齐一般都是显式的，sample中image和text是一一对应的）。

基于扩散的解码器

生成图像建模最近在使用扩散模型方面取得了巨大成功。这些模型也已应用于文本到图像的生成。例如，GLIDE [151] 将消融扩散模型 (ADM) 引入到文本到图像的生成中。与之前基于扩散的方法相比，GLIDE 使用具有 3.5B 参数的更大模型和更大的成对数据集，在许多基准测试中取得了更好的结果。与 GLIDE 不同，Imagen [152] 将冻结的 T5 语言模型与超分辨率扩散模型相结合。

图 11. DALL-E-2 的模型结构。虚线上方是CLIP预训练过程，旨在对齐视觉和语言模态。虚线下方是图像生成过程。文本编码器接受指令并将其编码为表示，然后先验网络和扩散模型解码该表示以生成最终输出。

冻结编码器将对文本指令进行编码并生成嵌入，然后第一个扩散模型将相应地生成低分辨率图像。第二个扩散模型接受带有文本嵌入的图像并输出高分辨率图像。DALL-E-2 [5] 将 CLIP 编码器与扩散解码器相结合，用于图像生成和编辑任务。与 Imagen 相比，DALL-E-2 利用先验网络在文本嵌入和图像嵌入之间进行转换。除了模型设计方面的进步外，这些基于扩散的模型与以前的生成方法之间的另一个主要区别是，这些基于扩散的模型通常在具有更多参数的更大数据集上进行训练，这使得它们有可能学习比其他模型更好的表示。

除了前面提到的方法，还有使用 VAE 作为解码器的作品。例如，Ramesh 等人。提出了 DALL-E [33]，这是一种零镜头图像生成器，它利用 dVAE 作为图像编码器和解码器，BPE 作为文本编码器，并在推理过程中使用预训练的 CLIP。

其它

文本音频生成：

近年来，文本-音频多模式处理领域取得了显着增长。该领域的大多数模型要么专注于合成任务，例如语音合成，要么专注于识别任务，例如自动语音识别。它们指的是将书面文本转换为口头语音或将人类语音准确转录为机器可读文本的过程。然而，文本音频生成是一项不同的任务，涉及使用多模式模型创建新颖的音频或文本。虽然相关，但文本音频生成、合成和识别任务在其目标和用于实现这些目标的技术方面有所不同。在这项工作中，我们专注于文本音频生成而不是合成或识别任务。

AdaSpeech [153] 被提议通过在梅尔谱解码器中利用两个声学编码器和条件层归一化，使用有限的语音数据有效地定制高质量的新语音。由于之前的研究在风格转换方面存在局限性，Lombard [154] 利用频谱整形和动态范围压缩 [155] 在存在噪声的情况下生成高度清晰的语音。Cross-lingual generation 是另一项有影响力的跨语言语音传输工作。 [156] 可以产生多种语言的高质量语音，并通过使用音素输入表示和对抗性损失项来跨语言传输语音，从而将说话者身份与语音内容区分开来。

文本音乐生成

[157] 提出了一种针对音频和歌词的深度跨模态相关学习架构，其中模态间典型相关分析用于计算音频和歌词之间时间结构的相似性。为了更好地学习社交媒体内容，JTAV [158] 使用跨模态融合和专注池技术融合了文本、听觉和视觉信息。与 JTAV 不同，[159] 结合了与音乐更相关的多种类型的信息，例如播放列表-曲目交互和流派元数据，并将它们的潜在表示对齐以模拟独特的音乐作品。此外，还有一些工作专注于在给定音频作为输入的情况下生成文本信息，例如描述和字幕。 [160] 提出通过结合音频内容分析和自然语言处理来利用每个曲目的信息来生成音乐播放列表的描述。MusCaps [161] 是一种音乐音频字幕模型，它通过多模式编码器处理音频文本输入并利用音频数据预训练来生成音乐音频内容的描述，以获得有效的音乐特征表示。对于音乐和语言预训练，Manco 等人。 [162] 提出了一种多模式架构，它使用弱对齐文本作为唯一的监督信号来学习通用音乐音频表示。CLAP [163] 是另一种从自然语言监督中学习音频概念的方法，它利用两个编码器和对比学习将音频和文本描述带入联合多模态空间。

文本到graph生成

文本图生成是一个重要的多模态主题，可以在很大程度上释放 NLP 系统的潜力。自然语言文本本质上是模糊的，因为它携带了各种冗余信息，而且逻辑组织也很弱。同时，有利于机器处理结构化、组织良好和压缩形式的内容。知识图谱（KG）是语言处理系统中将语义内部状态之间的关系反映为图结构的结构化意义表示。并且越来越多的作品从文本中提取 KG 以辅助文本生成，这些文本包含跨多个句子的复杂思想。语义解析也可以表述为文本到图形生成的问题。它旨在将自然语言文本转换为逻辑形式，主要是抽象意义表示（AMR）[164]，这是一种广泛覆盖的句子级语义表示。与 text-to-KG generation 相比，它强调提供机器可解释的表示而不是构建语义网络。相反，KG-to-text generation 旨在基于已构建的 KG 生成流畅且逻辑连贯的文本。除了 NLP 领域，文本图形生成也可以推动计算机辅助药物设计的发展。有新兴的工作将高度结构化的分子图与语言描述联系起来，这有助于人类理解深刻的分子知识和新分子探索。下面，我们简要概述这四个主题中的一些代表作品。

文本到knowledge graph的生成

李等。 [165] 将文本到 KG 的构建视为知识图谱完成（KGC）的过程，其中缺失的术语逐渐被推理覆盖。采用双线性模型和另一个基于 DNN 的模型来嵌入项并计算任意元组的分数以进行加法运算。KG-BERT [166] 利用预训练语言模型的力量在 KGC 期间捕获更多上下文信息。这个想法是通过微调的 BERT 模型将三元组表示为文本序列，并将图补全模型表示为序列分类问题。马拉维亚等。 [167] 提出了一种结合图卷积网络（GCN）的方法来提取更多的结构和语义上下文。它还通过引入图形扩充和渐进屏蔽策略来解决图形稀疏性和可扩展性问题。或者，另一行作品 [168-170] 直接查询预训练的语言模型以获得语义知识网络。具体来说，语言模型被反复提示以预测完形填空句中的掩码项，以获取相关知识。CycleGT [171] 是一种无监督方法，允许 text-KG 双向翻译。采用无监督循环训练策略提供自我监督，使整个训练过程可以使用非平行文本和图形数据。利用类似的策略，DualTKB [172] 进一步证明，即使在弱监督环境下，模型性能也可以大大提高。卢等人。[173] 提出了一个统一的文本到图形框架，它包含了大多数信息提取任务。同时，预定义模式的使用可能会限制其对节点和边的不同文本形式的泛化。Grapher [174] 通过在两个独立的阶段生成节点和边来有效地执行端到端文本到 KG 的构建。具体来说，预训练的语言模型首先使用实体提取任务进行微调以生成节点。随后，引入焦点损失和稀疏邻接矩阵来解决边缘构建过程中的偏斜边缘分布问题。

知识图到文本生成

GTR-LSTM [176] 是一个序列到序列的编码器解码器框架，它从线性化的 KG 三元组生成文本。它可以处理 KG 中的循环以捕获全局信息。同时，其线性化图的性质仍然会导致相当大的结构信息丢失，尤其是对于大型图。为了解决这个问题，Song 等人。 [177] 使用图状态 LSTM 对图语义进行编码，该图状态 LSTM 可以在一系列状态转换期间在节点之间传播信息。它被证明能够对节点之间的非本地交互进行建模，同时由于高度并行化也很高效。赵等。[175] 提出 DUALENC，一种双编码模型，以弥合输入图和输出文本之间的结构差异。具体来说，它利用基于 GCN 的图形编码器来提取结构信息，同时还采用神经规划器来创建图形的顺序内容计划，以生成线性输出文本。或者，Koncel-Kedziorski 等人。 [178] 使用从图形注意力网络 (GAT) [179] 扩展而来的基于转换器的架构对文本生成的图形结构进行编码。这个想法是通过使用自我注意机制遍历其局部邻域来计算 KG 的节点表示。相反，Ribeiro 等人。 [180] 专注于联合利用局部和全局节点编码策略从图形上下文中捕获补充信息。HetGT [181] 改编自 transformer，旨在独立地对图中的不同关系进行建模，以避免通过简单地混合它们来避免信息丢失。输入图首先被转化为异构Levi图，然后根据每个部分的异构性拆分成子图，用于未来的信息聚合。

语义解析

早期作品 [182、183] 将语义解析表述为序列到序列生成问题。然而，AMR 本质上是一个结构化对象。序列到序列问题设置只能捕获浅层词序列信息，同时可能忽略丰富的句法和语义信息。吕等。 [184] 通过将 AMR 表示为根标记的有向无环图 (DAG)，将语义解析建模为图预测问题。这将需要图中的节点与句子中的单词之间的对齐。提出了一种将对齐视为联合概率模型中的潜在变量的神经解析器，用于 AMR 解析期间的节点对齐和边缘预测。陈等。 [185] 通过神经序列到动作 RNN 模型构建具有动作集的语义图。通过在解码过程中整合结构和语义约束来加强解析过程。张等。 [186] 通过基于无对准器注意力的模型解决 AMR 解析中的重入属性出现的问题，该模型将问题表述为序列到图的转换。利用指针生成器网络，证明可以使用有限的标记 AMR 数据有效地训练模型。Fancellu 等人。 [187] 提出了一种图感知顺序模型来构建用于 AMR 图预测的线性化图。在没有潜在变量的情况下，它可以确保每个格式正确的字符串仅与一种新颖的图形感知字符串重写策略的一个派生配对。

文本分子生成

Text2Mol [189] 是一种跨模态信息检索系统，用于检索基于语言描述的分子图。基于 BERT 的文本编码器和 MLP-GCN 组合分子编码器用于在语义空间中创建多模态嵌入，通过对比学习与配对数据对齐。MolT5 [190] 没有从现有分子中检索，而是提出了一个自我监督的学习框架，用于文本条件从头分子生成和分子字幕。它通过预训练和微调策略解决了跨模态数据对的稀缺性。具体来说，它使用去噪目标在未配对的文本和分子字符串上预训练模型，然后使用有限的配对数据进行微调。然而，受其线性化图形性质的限制，分子的基于字符串的表示不是唯一的并且可能导致结构信息丢失。为了解决这个问题，MoMu [188] 引入了一个基于图的多模态框架，该框架通过对比学习联合训练两个独立的编码器，以与弱配对的跨模态数据进行语义空间对齐。除了从头分子图生成之外，它还可以适应各种下游任务。

文本代码生成

文本代码生成旨在从自然语言描述中自动生成有效的程序代码或提供编码辅助。LLM 最近在从自然语言 (NL) 描述生成编程语言 (PL) 代码方面展现出巨大潜力。早期的作品直接将文本代码生成制定为纯语言生成任务。然而，NL 和 PL 是具有固有不同模态的数据类型，在语义空间对齐期间，额外的策略对于捕获 NL 和 PL 之间的相互依赖性至关重要。与 NL 数据相比，PL 数据还封装了丰富的结构信息和不同的语法，这使得从 PL 上下文中理解语义信息更具挑战性。此外，文本代码模型也应该是多语言的，因为它们可以提供更好的泛化能力。下面主要介绍以自然语言描述为条件的代码生成模型。我们还审查了其他基于语言的编码辅助模型。

文本条件编程代码生成

CodeBERT [191] 是一种基于双峰 Transformer 的预训练文本代码模型，可以捕获 NL 和 PL 之间的语义联系。它采用混合目标函数，利用二项式 NL-PL 配对数据进行模型训练，单峰 PL 代码数据分别用于学习更好的生成器，以在语义空间中对齐 NL 和 PL。该模型进一步在六种多语言 PL 上进行了预训练，以实现更好的泛化。CuBERT [192] 与 CodeBERT 具有相似的模型架构，同时它不需要在函数的自然语言描述与其主体之间执行句子分离以进行句子对表示。CodeT5 [193] 提出了一种预训练的编码器-解码器 Transformer 模型，它可以更好地从代码中捕获上下文语义信息。具体来说，它引入了新颖的标识符感知预训练任务，通过从代码令牌中区分标识符并在屏蔽时恢复它们来保留关键令牌类型信息。PLBART [194] 将双峰文本代码模型从生成任务扩展到更广泛的判别任务类别，例如统一框架下的克隆和漏洞代码检测。另一行作品 [195、196] 引入了程序图的概念 [197] 以显式建模 PL 代码底层的结构以协助生成。程序图被构造为抽象语法树 (AST)，以封装来自程序特定语义和语法的知识。

交互式编程系统

由于 NL 的内在歧义，文本代码生成受到编程代码生成的棘手搜索空间和用户意图的不当规范的共同挑战。CODEGEN [198] 提出了一种多轮程序合成方法，该方法将以单个复杂的 NL 规范为条件的程序合成分解为由一系列用户意图控制的渐进生成。它以自回归变换器的形式构建，学习给定先前标记的下一个标记的条件分布，并在 PL 和 NL 数据上进行训练。TDUIF [199] 通过形式化用户意图和提供更易于理解的用户反馈来扩展交互式编程框架。它进一步实现了可扩展的自动算法评估，不需要用户在循环中，具有高保真用户交互建模。

AIGC的应用

聊天机器人

聊天机器人是一种计算机程序，旨在通过基于文本的界面模拟与人类用户的对话。聊天机器人通常使用语言模型以对话方式理解和响应用户查询和输入。它们可以被编程来执行范围广泛的任务，例如，提供客户支持和回答常见问题。图14.当前研究领域、应用与相关公司的关系图，其中深蓝色圆圈代表研究领域，浅蓝色圆圈代表应用，绿色圆圈代表公司。

最突出的例子是Xiaoice[200]。 XiaoIce 由 Microsoft 的一组研究人员和工程师开发，使用了自然语言处理、机器学习和知识表示方面的最先进技术。Xiaoice的一个重要特征是它能够表达同理心，这是通过使用情感分析方法实现的，让小冰像人一样表现。2020 年，谷歌提出了 Meena [201]，这是一个在社交媒体对话上训练的多轮开放域聊天机器人，它实现了最先进的交互式 SSA 分数和困惑度。最近，微软发布了他们最新版本的 Bing，其中包含 ChatGPT，使用户能够提出开放域或条件问题并通过对话获得结果。这为未来聊天机器人的发展提供了新的可能性。

艺术画

人工智能艺术生成是指使用计算机算法来创作原创艺术作品。这些算法在现有艺术品的大型数据集上进行训练，并使用机器学习技术生成模仿著名艺术家的风格和技巧或探索新艺术风格的新作品。随着基于扩散的模型的快速发展，越来越多的公司推出了他们的艺术生成产品。该领域最显着的进步之一是由 OpenAI 推出的 DALL-E 系列。DALL-E [1]，即现在的 Craiyon，最初是在 VQ-VAE 和 CLIP 上构建的，然后diffusion也应用到这个产品上，成为 DALL-E2 [5]。DreamStudio [13] 由 Stability.ai 创建，是一种文本到图像生成服务，它利用stable diffusion根据给定的短语或句子生成图像。该技术提供与 DALL-E-2 相当的性能，但处理速度更快，使其成为许多用户的热门选择。由 Google 开发的 Imagen [152] 在其图像编辑和生成服务中使用diffusion。在一篇博客文章中，谷歌报告说他们与人类评分者进行了一项研究，以评估人工智能生成的图像的质量。结果表明，Imagen 在并排比较中优于其他模型，人类评分者更喜欢样本质量和图像文本对齐方面的评分更高。

音乐

深度音乐生成是指利用深度学习技术和人工智能算法生成新颖原创的音乐作品。一个突出的方法是以钢琴卷的形式产生音乐的象征性表示。这种方法需要为每个要演奏的音符指定时间、音高、速度和乐器。AIVA 4 是最著名的例子之一，由 Aiva Technologies 于 2016 年开发。它可以生成多种风格的音乐片段，包括电子、流行、爵士等，并且可以在各种环境中使用。作为全球首位被交响乐组织认可的人工智能作曲家，AIVA获得了SACEM音乐学会作曲家的全球地位。 OpenAI 在 2020 年开发了 Jukebox [203]。它在原始音频领域以不同的流派和艺术风格生成带有歌声的音乐。Jukebox 在音乐质量、连贯性、音频样本持续时间以及受艺术家、流派和歌词影响的能力方面被认为是一个飞跃。

代码

基于人工智能的编程系统通常旨在完成代码完成、源代码到伪代码映射、程序修复、API 序列预测、用户反馈和自然语言到代码生成等任务。最近，强大的 LLM 的出现将基于 AI 的编程的边界向前推进了一大步。CodeGPT [204] 是由 OpenAI 开发的开源代码生成模型，它与 GPT 系列中的许多其他模型一样遵循 transformer 架构。它可以针对各种代码生成任务进行微调，例如代码补全、摘要或基于大量源代码数据的翻译。CodeParrot [205] 是一个编程学习平台，在编码过程中为用户提供个性化的反馈和帮助。以渐进式人机交互的方式设计了各种交互练习和编程挑战。一个独特的功能是脚手架策略，它将复杂的任务拆分为更小且易于管理的步骤，以帮助学生逐渐建立他们的编码技能。与大多数以前的模型相比，Codex [206] 在更大、更多样化的数据集上进行了训练，这是向前迈出的重要一步。具体来说，它旨在从头开始生成完整的编码程序，而 CodeGPT 只能生成完成给定提示的代码片段。它还享有适应多种编程语言的好处，可以提供更好的灵活性和通用性。

教育

AIGC 有可能通过利用多模态数据（例如教程视频、学术论文和其他高质量信息）在教育方面取得重大进展，从而改善个性化教育体验。在学术方面，Google Research 引入了 Minerva [207]，它建立在 PaLM 通用语言模型 [209] 和一个额外的以科学和数学为中心的数据集之上，以解决大学水平的多步定量任务，涵盖代数，概率论、物理学、数论、初等微积分、几何学、生物学、电气工程、化学、天文学和机器学习。例如，它可以给出证明任何

不等式

的分步细节，它还可以在其他三种选择（包括钠、铬和铝）中正确识别镅作为放射性元素。正如博客 5 中所述，Minerva 通过组合技术在推理任务上实现了最先进的性能，包括少量提示、思维链或便签本提示以及多数表决。虽然 Minerva 的表现仍然低于人类表现，但随着不断改进和未来的进步，AIGC 可以提供负担得起的个性化数学导师。商用方面，巧匠教育科技宣布将开发一款基于AIGC的自动课程、AI导师、在线教育自适应学习的班级机器人产品，预计2023年第四季度出货。

AIGC 的效率

在过去的十年中，具有神经网络的深度生成 AI 模型一直主导着机器学习领域，其兴起归功于 2012 年的 ImageNet 竞赛 [210]，这导致了一场创建更深、更复杂模型的竞赛。在自然语言理解中也可以看到这种趋势，其中开发了具有大量参数的模型，例如 BERT 和 GPT-3。然而，不断增加的模型占用空间和复杂性，以及训练和部署所需的成本和资源，对现实世界中的实际部署提出了挑战。核心挑战是效率，可以分解如下：

（1）推断的效率：这涉及到在实际应用中部署模型进行推理的问题，即计算模型在给定输入下的输出。推理效率主要与模型的大小、速度和资源消耗（例如，磁盘和内存使用）有关。

（2）训练的效率：这包括影响模型训练速度和资源需求的因素，例如训练时间、内存占用以及在多个设备上的可扩展性。它还可能包括关于在特定任务上实现最佳性能所需数据量的考虑。

Prompt Learning（提示学习）

Prompt learning 是近年来在预训练大型语言模型的背景下提出的一个相对较新的概念。以前，要对给定的输入进行预测，传统监督学习的目标是找到一个预测概率

的语言模型。通过快速学习，目标变成了找到一个模板

直接预测概率

[211]。因此，使用语言模型的目标变成了通过提供指定要完成的任务的提示来鼓励预训练模型进行预测。通常，prompt learning会冻结语言模型，直接对其进行few-shot或zeroshot学习。这使得语言模型能够在大量原始文本数据上进行预训练，并适应新的领域而无需再次调整。因此，Prompt Learning可以帮助节省大量时间和精力。

Traditional Prompt Learning

利用语言模型进行提示学习的过程可以分为两个主要阶段：prompt engineering和answer engineering。

Prompt engineering：一般来说，常用的提示工程有两种形式：离散提示和连续提示。离散提示通常由人类为特定任务手动设计，而连续提示被添加到输入嵌入中以传达特定于任务的信息。

Answer engineering：重新制定任务后，语言模型根据提供的提示生成的答案需要映射到ground truth空间。Answer engineering有不同的范式，包括离散搜索空间和连续搜索空间。由于该主题与分类任务更密切相关，我们建议感兴趣的读者自己去看相关的综述了解更多信息。

除了单提示学习法外，还有多提示法。这些方法主要侧重于在推理过程中将多个提示组合在一起作为输入以提高预测的鲁棒性，这比依赖单个提示更有效。多提示学习的另一种方法是提示增强，旨在通过提供已经回答的额外提示来帮助模型回答问题。

In-context Learning

最近，In-context Learning作为提高语言模型性能的有效方法受到了广泛关注。这种方法是提示学习的一个子集，涉及使用预训练的语言模型作为主干，以及向提示添加一些输入标签演示对和说明。上下文学习已被证明在指导语言模型产生更好的答案方面非常有效，这些答案更符合给定的提示。最近的一些研究还表明，上下文学习可以被视为一种隐式微调形式，因为它使模型能够学习如何根据输入提示更准确地生成答案。

预训练基础模型的效率

在 AIGC 框架的背景下，每个提议方法的基本组成部分都涉及利用大型预训练基础模型 (PFM) [212]。PFM，如 BERT [42]、GPT2 [62] 和 RoBERTa [43]，通过在广泛的 NLP 任务上取得最先进的结果，彻底改变了自然语言处理领域。然而，这些模型非常大且计算量大，可能导致效率问题。当使用有限的计算资源工作时尤其如此，例如在个人计算机上或在处理能力有限的云环境中。为了解决这些效率问题，最近的许多工作都致力于探索更具成本效益的预训练方法来预训练大规模 PFM。学习算法的有效性取决于训练方法和模型架构效率。例如，ELECTRA [213] 引入了一个 RTD 任务来预测每个输入标记是否被其他标记替换，从而使 ELECTRA 能够针对所有输入标记进行训练。除了有效的训练方法外，模型架构效率也有助于提高 PFM 效率。通过降低 Transformer 算法的复杂性，大多数基于 Transformer 算法的 PFM 可能会受益于更高效的模型架构。

Model Compression

模型压缩是减小模型尺寸和提高计算效率的有效途径。它需要更少的计算资源和内存，比原始模型更能满足各种应用的需求，其策略可分为两类：参数压缩和结构压缩。参数压缩方法包括参数剪枝、参数量化、低秩分解和参数共享。参数剪枝基于相当大的 PFM 删除冗余参数，而参数量化将模型参数减少到低阶数，而不会对模型性能产生显着影响。低秩分解降低了高维参数向量的维数，参数共享映射模型参数以减少它们的数量。结构压缩是指设计新的紧凑网络结构并采用知识蒸馏，其中通过软标签等技术将从较大的教师模型中学到的知识转移到较小的学生模型中。例如，DistilBERT [214] 使用知识蒸馏来压缩 BERT，将其大小减小 40%，同时保持其 97% 的语言理解能力。ALBERT 使用分解嵌入参数化和跨层参数共享来减少模型参数的数量。

虽然 AIGC 有可能在许多不同的应用程序中非常有用，但它也引发了对安全和隐私的重大担忧。在本节中，我们将讨论揭示 AIGC“黑暗”面的研究以及为确保 AIGC 能够以安全和负责任的方式使用而提出的对策。

安全/隐私

pass 不感兴趣

未解决的问题和未来的方向

高风险应用程序。尽管社区见证了 AIGC 在图像、文本和音频生成方面的巨大成功，但这些领域可以说具有更高的容错性。相反，用于高风险应用的 AIGC，包括医疗保健 [248]、金融服务 [249]、自动驾驶汽车 [250] 和科学发现 [251]，仍然具有挑战性。在这些领域中，任务是关键任务，需要高度的准确性、可靠性、透明度以及更少或接近零的容错能力。例如，用于自动组织科学的大型语言模型 Galactica [252] 可以执行知识密集型科学任务，并且在多个基准任务上具有良好的性能。由于以权威的口吻对其产生的有偏见和不正确的结果进行了强烈批评，其公开演示在首次发布后仅三天就被从该服务中删除。对于这些高风险应用程序中的生成模型来说，提供置信度分数、推理和源信息以及生成的结果至关重要。只有当专业人员了解这些结果的来源和来源时，他们才能自信地在他们的任务中使用这些工具。

专业化和泛化。 AIGC 依赖于基础模型的选择，这些模型在不同的数据集上进行训练，包括基于爬网的 [37] 和精心策划的 [252]。[230] 中指出，“在更多样化的数据集上进行训练并不总是比更专业的基础模型对下游性能更好。”然而，高度专业化的数据集的管理可能既耗时又不划算。更好地理解跨域表示以及它们如何适应测试时间分布变化可能会指导设计训练数据集以平衡专业化和泛化。

Continual Learning and Retraining 人类知识库不断扩大，新任务不断涌现。要生成具有最新信息的内容，不仅需要模型“记住”所学知识，还需要能够从新获取的信息中进行学习和推理。对于某些场景[253]，在保持预训练基础模型不变的情况下，对下游任务进行持续学习就足够了。必要时 [254]，可以对基础模型进行持续学习。然而，也有人观察到，持续学习可能并不总是优于重新训练的模型 [255]。这就需要了解何时应该选择持续学习策略以及何时选择再培训策略。此外，从头开始训练基础模型可能会让人望而却步，因此 AIGC 下一代基础模型的模块化设计可能会阐明模型的哪些部分应该重新训练。

Reasoning 推理是人类智能的重要组成部分，它使我们能够得出推论、做出决定和解决复杂问题。然而，即使使用大规模数据集进行训练，有时 GAI 模型在常识推理任务中仍然会失败 [256、257]。最近，越来越多的研究人员开始关注这个问题。思想链 (CoT) 提示 [256] 是一种很有前途的解决方案，可以应对生成式 AI 模型中的推理挑战。它旨在增强大型语言模型在问答上下文中学习逻辑推理的能力。通过解释人类用来得出模型答案的逻辑推理过程，他们可以遵循与人类处理推理相同的道路。通过采用这种方法，大型语言模型可以在需要逻辑推理的任务中实现更高的准确性和更好的性能。CoT 还应用于其他领域，如视觉语言问答 [257] 和代码生成 [258]。然而，如何根据特定任务构建这些CoT提示仍然是一个问题。

Scaling up 放大一直是大规模预训练中的一个常见问题。模型训练总是受到计算预算、可用数据集和模型大小的限制。随着预训练模型规模的增加，训练所需的时间和资源也显着增加。这对寻求利用大规模预训练来完成自然语言理解、计算机视觉和语音识别等各种任务的研究人员和组织提出了挑战。

另一个问题与使用大规模数据集进行预训练的效果有关，如果模型大小和数据量等实验超参数设计不当，可能无法产生最佳结果。因此，次优的超参数可能会导致浪费资源消耗，并且无法通过进一步的训练获得预期的结果。已经提出了几项工作来解决这些问题。霍夫曼等人。 [259] 引入了一个正式的比例定律来根据参数的数量和数据集的大小来预测模型的性能。这项工作为了解扩大规模时这些关键因素之间的关系提供了一个有用的框架。Aghajanyan 等人。 [260] 进行实证分析以验证霍夫曼比例定律，并提出一个额外的公式来探索多模态模型训练设置中不同训练任务之间的关系。这些发现为大规模模型训练的复杂性以及跨不同训练领域优化性能的细微差别提供了宝贵的见解。