AnyGPT：具有离散序列建模的统一多模态大语言模型

code:  https://github.com/OpenMOSS/AnyGPT
paper: https://arxiv.org/abs/2402.12226
Demos: https://junzhan2000.github.io/AnyGPT.github.io/

AnyGPT，一种任意到任意的多模态语言模型，它利用离散表示来统一处理各种模态，包括语音、文本、图像和音乐。AnyGPT可以稳定地训练，而无需对当前的大型语言模型（LLM）架构或训练范式进行任何更改。相反，它完全依赖于数据级预处理，促进新模式无缝集成到LLMs中，类似于新语言的合并。基础模型将四种模态对齐，允许不同模态和文本之间的多式联运转换。此外，我们基于各种生成模型构建了AnyInstruct数据集，其中包含任意模态相互转换的指令。它由108k个多回合对话样本组成，这些样本错综复杂地交织在各种模态中，从而使模型能够处理多模态输入和输出的任意组合。经过此数据集的训练，我们的聊天模型可以进行免费的多模式对话，其中可以随意插入多模式数据。实验结果表明，AnyGPT能够促进任何到任何多模态对话，同时实现与所有模态的专用模型相当的性能，证明离散表示可以有效且方便地统一语言模型中的多个模态。

基本模型可以执行各种任务，包括文本到图像、图像字幕、自动语音识别（ASR）、零触发文本到语音（TTS）、文本到音乐和音乐字幕。我们可以按照特定的指令格式执行推理。

提出了一个可以统一训练的综合框架。如图1所示，该框架由三个主要组件组成：（ 1 ）多模态分词器，（ 2 ）作为主干的多模态语言模型，以及（ 3 ）多模态de-tokenizer。分词器将连续的非文本模态转换为离散的标记，这些标记随后被排列成多模态交织序列。然后，使用下一个标记预测训练目标通过语言模型训练序列。在推理过程中，多模态令牌被解码回其原始表示的相关的多模态token。为了丰富生成的质量，可以部署多模态增强模块来对生成的结果进行后处理，包括语音克隆或图像超分辨率等应用。

AnyInstruct多模态交错指令数据合成过程：

生成108k多轮对话数据，每个对话都交错包含text、speech、image、music模态的数据

1.Generation of text-based conversations incorporating multimodal elements.

•脑暴100个meta topics覆盖大量的音视元素相关场景，再用GPT-4扩展至20000个特定主题 •提示LLM生成基于这些主题的具体对话场景，由于LLM在生成多模态元素时有局限，准备了一些样例尽量包含多个模态 •根据场景使用GPT-4生成多轮对话，多模态用详细的文字进行表述’

2.用DALL-E-3、MusicGen、微软TTS API根据用户提示和模型的文本回复生成对应模态的数据。

最终包含205k图片，503k语音，113k音乐

模型预训练数据：

为了实现从任何模态到任何其他模态的生成，至关重要的是要在这些模态之间保持良好的数据一致。不幸的是，这种数据非常稀缺。为了解决这一挑战，我们构建了一个以文本为中心的双峰对齐数据集。在这里，文本是作为一个重要的中介桥梁之间的差距差距各种形式。通过将不同的模态与语言模型中的文本模态对齐，我们的目标是实现所有模态之间的相互对齐。

预训练数据分布，按令牌计数分段，内部部分指示模态，中间部分详细说明数据类型，外部部分指定单个数据集。

Image & Text ：我们利用来自LAION-2B的图像-文本对（Schuhmann 等人，2022）、LAION-COCO（lai，2022 b）、LAION-Aesthetics（lai，2022 a）和JouneyDB（Pan 等人，2023年）。LAION-2B提供了与来自网络的嘈杂替代文本配对的图像，而LAION-COCO代表了其中的600 M子集，由BLIP标题。我们通过过滤文本质量、图像纵横比和剪辑得分等来细化这些数据集，产生了3亿对的高质量语料库。为了提高整体图像生成的保真度，我们用高质量的LAION-Aesthetics子集和Midjourney的合成数据集ColonneyDB补充了我们的数据。

Speech & Text ：我们收集了几个大规模的英语自动语音识别（ASR）数据集，Gigaspeech (Chen et al., 2021), Common Voice (Ardila et al., 2020), and Multilingual LibriSpeech(MLS) (Pratap et al., 2020). 共同构成了57，000小时的语音文本对语料库，涵盖了各种各样的说话人，领域和录音环境。

Music&Text：从互联网上抓取了超过一百万个音乐视频，开始了广泛的数据收集过程。核心步骤涉及使用Spotify API将这些视频的标题与相应的歌曲进行匹配。随后，我们为每个音乐音频收集了一组全面的元数据，包括视频标题、描述、关键字、播放列表名称和Spotify歌词。该元数据被格式化为JSON并输入GPT-4处理。GPT-4作为智能字幕生成器的作用至关重要;它利用嘈杂的元数据提取有意义的信息，并将其简洁地概括为连贯的句子。这种方法使我们能够为大量的音乐音频生成高质量的文本字幕，有效地减少了数据集中幻觉的发生。

Tokenization

Image Tokenizer：

使用SEED tokenizer：

ViT encoder 224x224input 16x16patches

Causal Q-Former 32token

VQ Codebook Codebook大小8192

MLP 将视觉code解码至生成空间的embedding（与unCLIP-SD对齐）

UNet decoder复原图像

Speech Tokenizer:

采用具有残差矢量量化（RVQ）的编码器-解码器架构

•RVQ 8层，每层codebook大小1024

•每秒编码为50帧，10s即500×8 •量化器第1层捕捉语义信息，
2~8层编码副语言细节 •AnyGPT中使用LLM处理第1层语义token，
其余层由声音克隆模型提供？（VALLE中表示声音主要受第1层影响），因此Speech这块新增的token数是1024

Music Tokenizer :

对于音乐，我们采用Encodec（D’efossez 等人，2022），具有使用残差矢量量化（RVQ）量化的潜在空间的卷积自动编码器，作为音乐令牌化器。

•RVQ 4层，每层codebook2048 •每秒编码为50帧 •不同之处在于LLM会依次预测每帧4层的token，然后再下一帧

Language Model Backbone

为了将多模态离散表示合并到预先训练的LLMs中，我们使用新的模态特定令牌扩展词汇表，从而扩展相应的嵌入和预测层，新合并的参数随机初始化。来自所有模态的标记联合收割机以形成新的词汇表，其中每个模态在语言模型内被训练以在共享的表征空间中对齐。

•统一的多模态语言模型：通过特定模态的tokenizer，可以将多模态数据压缩为离散的token序列，并使用LLM的next token prediction loss训练，天然地统一各种任务形式 • •使用LLaMA-2-7B作为backbone

Multimodal Generation:

为了高质量生成采用2阶段框架，语义信息建模和感知信息建模。LLM在语义层面生成经过融合对齐的内容，然后NAR模型在感知层面将语义token转换成高保真的多模态内容，达到效果与效率间的平衡

•Image
使用Diffusion Model解码SEED tokens生成图片

•Speech
使用SoundStorm从SpeechTokenizer的semantic tokens生成acoustic tokens（LLM生成第1层，SoundStorm生成2~7层？），再用SpeechTokenizer解码生成语音
具备Zero-shot的声音克隆功能

•Music
使用Encodec解码生成音频

Instruction Tuning

实验:

局限性和未来工作:

任意到任意多模式LLM基准测试:任何对任何多模态大型语言模型（LLMs）领域是一个新兴的研究领域。然而，缺乏一个专门的基准来评估模型在多个维度上的能力，以及减轻潜在风险，这是一个相当大的挑战。因此，必须制定一个全面的基准。

增强LLMs:尽管具有离散表示的多模态LLMs可以稳定地训练，但与单模态训练相比，观察到更高的损失，从而阻止了每种模态的最佳性能。改进多模态融合的潜在策略可能涉及扩展LLMs和标记器或采用混合专家（莫伊）架构，以更好地管理不同的数据并优化性能。

更好的Tokenizer：可以从各种角度来增强 Tokenizer ，包括采用上级码本训练方法，开发更具凝聚力的多模态表示，以及在各种模态中应用信息解纠缠。

更长的上下文：多模态内容，例如图像和音频，通常跨越广泛的序列。例如，AnyGPT将音乐建模限制在5秒，这大大限制了其音频输出的实际用途。此外，对于任何对任何多模态对话，扩展的上下文允许更多数量的会话交换，从而丰富交互的深度和复杂性。

AE、VAE、VQ-VAE、GAN、Diffusion-生成模型系列

深度生成模型应用于图像、音频、视频合成和自然语言处理等不同领域。随着深度学习技术的快速发展，近年来出现了不同的深度生成模型。这导致了越来越多的兴趣，比较和评估这些模型的性能和适用性，以不同的领域。在本文中，我们旨在提供深度生成模型的全面比较，包括扩散模型，生成对抗网络（GAN）和变分自动编码器（VAE）。我将回顾它们的基本原则、优点和缺点。我的目标是提供对这些模型之间的差异和相似性的清晰理解，以指导研究人员和实践者为他们的特定应用选择最合适的深度生成模型。

GAN学习生成类似于训练数据集的新数据。它由两个神经网络，一个生成器和一个判别器组成。生成器接受从正态分布中采样的随机值并生成合成样本，而判别器尝试区分真实的和生成的样本。生成器被训练为产生可以欺骗判别器的真实输出，而判别器被训练为正确区分真实的和生成的数据。图1的最上面一行显示了它的工作方案。

AE包含一个编码器和一个解码器。在训练时，输入图像x会被编码成一个较短的向量z，再被解码回另一幅长得差不多的图像。网络的学习目标是让重建出来的图像和原图像尽可能相似。注意该模型只能做图像压缩，无法完成图像的生成任务。AE的编码器编码出来的向量空间是不规整的。也就是说，解码器只认识经编码器编出来的向量，而不认识其他的向量。如果你把自己随机生成出来的向量输入给解码器，解码器是生成不出有意义的图片的。AE不能够随机生成图片，所以它不能很好地完成图像生成任务，只能起到把图像压缩的作用。

VAE由编码器和解码器组成。编码器将高维输入数据映射成低维表示，而解码器试图通过将该表示映射回其原始形式来重构原始高维输入数据。编码器通过预测平均值和标准偏差向量来输出潜码的正态分布作为低维表示。图1的中间行演示了它的工作。

扩散模型包括正向扩散和反向扩散过程。前向扩散是一种马尔可夫链，它逐渐向输入数据中添加噪声，直到获得白噪声。这不是一个可以学习的过程，通常需要1000个步骤。逆扩散过程的目的是将正向过程逐步反向，去除噪声以恢复原始数据。使用可训练的神经网络来实现反向扩散过程。图1的最下面一行显示了这一点。

AE 自编码器

自编码器是一种无监督学习技术，它使用神经网络来寻找给定数据分布的非线性潜在表示。神经网络由两部分组成：编码网络(encoder) z=f(x) 和解码网络(decoder) ^x=g(z) 。

从模型图中可以很明显的看出，对于AutoEncoder模型，采取的是无监督训练的方式，对于输入的 $x$ 经过一个Encoder层后得到一个特征向量 $z$ ，再将该向量 $z$ 通过一个Decoder层得到最终输出 $x%20%E2%80%99$ ，通过最小化重构模型的输入 $x$ 和模型的输出 $x%E2%80%99$ 的误差作为损失函数训练模型得到一个较好的关于输入 $x$ 的特征向量 $z$ ，模型设计的初衷的获得一个对应于源数据 $x$ 的一个低维特征向量 $z$ ，在获得此向量的基础上可以应用在很多分类任务上，但是AE模型并不适用于生成任务。

尽管AE已经可以获得较好的向量表示，在还原任务上可以做出较好的效果，但其并不是一个生成式模型，这是因为对于一个生成模型而言，他一般需要满足两个条件限制：

1.生成模型的编码器和解码器是可以分离开的；

2.对于固定维度下任意采样出的编码，解码器都能产生一张真实且清晰的图片。

AE模型并不满足第二点的条件，举个例子来说，对于输入的全月图和半月图，通过对AE模型的训练可以很好的完成还原任务，但是我们对于二者特征向量中取一个点，对于一个正常的生成模型而言，应该生成一个介于全月和半月之间的图片。然而，对于真实的AE而言，它生成的结果要么是乱码要么就是异常模糊的图片。为什么会发生这种情况呢？因为模型在训练的时候并没有显性对中间变量z的分布p(z)进行建模，在模型训练时所采用的f(z)是有限的，而对于z所处的空间存在大量f(z)外的点而言模型是并不理解的，如果像该例子随机在全月和半月中采样一个点，大概率得到不能够生成有效图片的点。

变分自编码器 (VAE)

https://zhuanlan.zhihu.com/p/34998569

在 VAE 中，encoder不再直接输出隐向量z，而是输出隐向量z的分布的均值μ 与标准差σ，再从这个分布中采样得到隐向量z。

AE 将输入encode成隐空间里的单个点，而 VAE 则是将输入encode成隐空间里的分布(distribution)。

从encode单个点变成encode一个分布，这样就不太容易有空隙(gap)了。但是，训练过程中，为了尽可能减小 reconstruction loss，模型会学成：均值μ 相差很远，标准差σ 很小。这样一来，VAE 就跟普通的AE 差不多了，仍然容易有空隙。而我们希望学到的隐空间Z 是连续、稠密、聚在一团而又能很好分开(distinct)不同标签的。

为了避免这个问题，就在损失函数中加入了KL loss。这样，loss = reconstruction loss + KL loss。 KL loss 是方差为μ，标准差为σ的分布N(μ, σ²) 与标准正态分布N(0, 1) 的 KL散度（KL散度可以衡量两个概率分布之间的距离）。加入了 KL loss 后，隐空间Z 就会呈正态分布聚在一团。

VQ-VAE:向量量化

量化自编码器

VQ-VAE 与 VAE 的主要区别是：VAE 想学到连续(continuous)的隐空间，而 VQ-VAE 想学到离散(discrete)的隐空间。

VQ-VAE 通过向网络添加离散的 codebook 组件来扩展标准自编码器。codebook 是与相应索引关联的向量列表。它用于量化自编码器的瓶颈；将编码器网络的输出与 codebook 的所有向量进行比较，并将欧氏距离最接近的 codebook 向量喂给解码器。

这个 argminargmin 操作有点令人担忧，因为它相对于编码器是不可微分的。但在实践中，可以通过这样的方式将 decoder 的梯度直接传递给 encoder （encoder 和 codebook 向量的梯度设置为1，其他 codebook 向量梯度设置为0）。

然后，解码器的任务是重构来自该量化矢量的输入，就像在标准自编码器公式中那样。

生成多个codes

当解码器只能接受一组 codebook 向量作为输入时，人们怎么能指望它产生大量多样化的图像呢？

我们需要为每个训练点提供一个唯一的离散值，以便能够重建所有数据。如果情况确实如此，那么模型难道不会通过将每个训练点映射到不同的离散 code 来记住数据吗？

如果编码器只输出一个矢量，这的确会成为问题，但在实际的 VQ-VAE 中，编码器通常会产生一系列矢量。例如，对于图像，编码器可能会输出一个32×32 的矢量网格，每个网格都被量化，然后将整个网格送到解码器。所有向量都被量化为相同的 codebook，因此离散值的数量不会改变，但是通过输出多个codes，我们能够成倍地增加解码器可以构造的数据点的数量。

例如，假设我们正在处理图像，我们有一个尺寸为512的密码本，我们的编码器输出一个 32×32 的矢量网格。在这种情况下，我们的解码器可以输出 512^32×32=29216 个不同图像！

当然，模型仍然可以记住训练数据，但是通过编码器中嵌入正确的归纳偏差（即对图像使用conv-net）和使用正确的隐变量结构（即用于图像的 32×32 网格），模型应该能够学习到一个很好地表示数据的离散空间。

VQ-VAE使用了如下方式关联编码器的输出与解码器的输入：假设嵌入空间已经训练完毕，对于编码器的每个输出向量ze(x)，找出它在嵌入空间里的最近邻zq(x)，把ze(x)替换成zq(x)作为解码器的输入。

学习 Codebook

就像编码器和解码器网络一样，codebook 通过梯度下降来学习的。理想情况下，我们的编码器将输出一个接近学习到的 codebook 向量。这里本质上存在一个双向问题：学习与编码器输出对齐的 codebook 向量和学习与codebook 向量对齐的编码器输出。

这两个问题可以通过向损失函数添加项来解决。整个VQ-VAE 损失函数是：

在这里，我们使用与上一节中相同的符号，sg[x]sg[x] 代表“停止梯度”。

第一项是标准的重构损失；第二项是 codebook 对齐损失，其目标是使所选的 codebook 矢量尽可能接近编码器输出。编码器输出有一个停止梯度运算符，因为这项仅用于更新 codebook。第三项与第二项类似，但它将停止梯度放在 codebook 向量上，因为它旨在更新编码器输出，让其尽可能接近 codebook 向量。这项称为codebook 损失，其对总体损失的重要性由超参数 ββ 调整。当然，如果有多个，则最后两项在模型的每个量化向量输出上取平均值。

这个损失函数基本上完成了我们对 VQ-VAE 的描述。

这样，我们可以完整地训练一个 VQ-VAE，能够重构一组不同的图像，这些图像与下图中的原始图像不同。我们还可以训练 VQ-VAE 来重构其他模态，如音频或视频。

优化编码器和解码器

为了优化编码器和解码器，我们先来制订一下VQ-VAE的整体优化目标。由于VQ-VAE其实是一个AE，误差函数里应该只有原图像和目标图像的重建误差。

VQ-VAE使用了一种叫做”straight-through estimator”的技术来完成梯度复制。这种技术是说，前向传播和反向传播的计算可以不对应。你可以为一个运算随意设计求梯度的方法。基于这一技术，VQ-VAE使用了一种叫做sg(stop gradient，停止梯度)的运算：

也就是说，前向传播时，sg里的值不变；反向传播时，sg按值为0求导，即此次计算无梯度。（反向传播其实不会用到式子的值，只会用到式子的梯度。反向传播用到的loss值是在前向传播中算的）。

GAN

GAN（Generative Adversarial Network）是一种由生成器和判别器组成的对抗性模型。生成器试图生成与真实数据相似的数据，而判别器则试图区分真实数据和生成器生成的数据。两个模型通过对抗训练来提高自己的性能，最终生成器可以生成高质量的数据。

Diffusion

Diffusion Models是一种基于概率的生成模型，它通过模拟数据的扩散过程来生成新的数据。这种模型的核心思想是将已有的数据视为初始状态，然后通过不断迭代的扩散过程，逐步生成新的数据。Diffusion Models的优势在于其理论基础较为严密，其背后的数学推导和概率理论较为深入。这使得Diffusion Models在一些特定的数据生成任务上具有较好的表现。

相比GAN来说，扩散模型训练更稳定，而且能够生成更多样的样本，OpenAI的论文Diffusion Models Beat GANs on Image Synthesis也证明了扩散模型能够超越GAN。简单来说，扩散模型包含两个过程：前向扩散过程和反向生成过程，前向扩散过程是对一张图像逐渐添加高斯噪音直至变成随机噪音，而反向生成过程是去噪音过程，我们将从一个随机噪音开始逐渐去噪音直至生成一张图像，这也是我们要求解或者训练的部分。

扩散模型包括两个过程：前向过程（forward process）和反向过程（reverse process），其中前向过程又称为扩散过程（diffusion process），如下图所示。无论是前向过程还是反向过程都是一个参数化的马尔可夫链（Markov chain），其中反向过程可以用来生成数据，这里我们将通过变分推断来进行建模和求解。

模型设计：

可以选择采用AutoEncoder架构来作为噪音预测模型。DDPM所采用的模型是一个基于residual block和attention block的U-Net模型。如下所示：

U-Net属于encoder-decoder架构，其中encoder分成不同的stages，每个stage都包含下采样模块来降低特征的空间大小（H和W），然后decoder和encoder相反，是将encoder压缩的特征逐渐恢复。U-Net在decoder模块中还引入了skip connection，即concat了encoder中间得到的同维度特征，这有利于网络优化。DDPM所采用的U-Net每个stage包含2个residual block，而且部分stage还加入了self-attention模块增加网络的全局建模能力。另外，扩散模型其实需要的是T个噪音预测模型，实际处理时，我们可以增加一个time embedding（类似transformer中的position embedding）来将timestep编码到网络中，从而只需要训练一个共享的U-Net模型。具体地，DDPM在各个residual block都引入了time embedding，如上图所示。

裸眼3D相关产品

随着AIGC等前沿技术的迅速发展，互联网正在逐步从2D转向3D，我们正在迎来一个体验升维的新时代。除了“人戴眼镜”的XR、元宇宙设备，联想也在探索“屏戴眼镜”的裸眼3D技术。这种技术使用户无需佩戴任何额外设备，就能体验到真实的3D效果。基于联想研究院的低延时双眼追踪、跨应用3D渲染引擎，以及业界首个支持4K超高清的实时2D内容转3D等技术，联想推出了全球首款27英寸4K裸眼3D显示器，并在1月份的国际消费电子展（CES）上进行了展示，持续引领下一代设备创新潮流。联想的裸眼3D显示引擎代表着当今显示技术的一个重要创新趋势，它以尖端的裸眼3D显示技术作为核心，创新性地构建了一个全面的3D系统级显示空间。这一技术的核心在于其能够无缝整合包括自主研发的实时高清2D转3D应用和跨应用渲染显示应用在内的一些列应用生态，从而使用户能够沉浸在一个逼真的3D环境中，体验3D世界中的生态内容。

通过联想的这一革命性技术，用户能够体验到前所未有的3D视觉效果，无论是观看电影、玩游戏还是进行专业级的设计工作，都能获得更加立体和真实的感觉。此外，联想裸眼3D技术及解决方案能够支持丰富的3D生态资源，为用户提供广泛的3D内容选择，不仅增强了娱乐体验，也为专业应用，如教育、医疗和工业设计等领域开启了新的可能性。

值得一提的是，联想的裸眼3D显示技术及解决方案也具有很高的易用性。它能够智能识别用户的观看习惯，能够根据不同的观看角度和距离，实时调整3D效果，从而确保最佳的视觉体验。联想裸眼3D显示产品及技术解决方案的推出，不仅展示了联想在显示技术领域的创新实力，也为整个3D显示行业的发展开辟了新的道路。

相关链接：https://mp.weixin.qq.com/s/iYxyyWJfroIvbOPDg4AY1g

https://mp.weixin.qq.com/s/P52TiW0WM9rQtBe4nLMiiA

EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

https://nvlabs.github.io/eg3d/

将三维坐标对应的体素特征定义为三个正交投影平面的特征

目前的3D GAN要么过于计算密集型，要么缺少多视图一致性，该方法加强了计算效率并且提升了重建质量。使用了显式-隐式结构，不仅生成多视角一致性图片，还能生成高质量3D几何。通过解耦feature generation和neural rendering，该架构就可以用上SOTA的2D CNN生成器比如styleGAN2。

使用单视角2D图片集，无监督地生成高质量且视角一致性强的3D模型，一直以来都是一个挑战。现存的3D GANs要不计算量巨大，要不无法保证3D-consistent。前者限制了生成图片的质量，后者无法解决视角一致性的问题。这篇工作提出的新网络架构，能又快又好地生成3D geometry。

这篇工作提出了两个方法。首先，作者用显隐混合的方法，提高了时空效率，并有较高的质量。第二，提出了dual-discrimination策略，保证了多视角一致性。同时，还引入了pose-based conditioning to the generator，可以解耦pose相关的参数，保证了输出的视角一致性，同时忠实地重建数据集隐含的pose-correlated参数。

同时，这个框架能解耦特征生成和神经渲染，从而可以直接使用SOTA的2D GANs，比如StyleGAN2。

contribution

引入一个基于三平面的3D GAN架构，计算效率高而且效果质量好
提出一个3D GAN训练策略，通过dual discrimination和generator pose conditioning加强多视角一致性，建模出位置相关的属性分布（比如表情等）
在FFHQ和AFHQ上有最佳的非条件3D感知视图合成结果，生成高质量3D几何

Tri-Plane Hybrid 3D Representation

我们需要一种高效且表达力强的3D表示方法，来训练高分辨率的GAN。

这里以单场景过拟合(SSO)来证明三平面表示法的有效性。

每个平面都是N×N×C的，其中C是通道数。

每次查询一个3D坐标x∈R3，将其投影至每个平面上，用双线性插值得到3个特征向量Fxy,Fxz,Fyz

将这3个特征向量累加后，通过一个轻量级的decoder，也就是一个小型MLP，输出RGB和Density

再用volume rendering得到最终图像

这样做的好处是，decoder规模很小，赋予了显式表示更强的表达能力，并减小了计算压力。

在新视角合成的实验上，三平面紧凑而富有表达力，以更低的计算成本，得到了更好的表现，三平面的时空成本是O(N2)的，而voxel是O(N3)的，最重要的是，用2D GANs生成planes，就能得到3D表示。对比NERF，通过显式的投影降低了计算复杂度同时没有减少表达性能。做了个对比实验，baseline是mip-nerf和voxel grid，这里的tri-plane实验中的MLP用了傅里叶feature编码。在同样地内存消耗下运算更快，在同样地结构下速度快且内存消耗少。

Pipeline

CNN Generator Backbone & Rendering

三平面的特征，是由StyleGANA生成的，同时Latent Code和相机参数会输入Mapping Network，生成一个Intermediate Latent Code

StyleGAN2被修改后，输出256×256×96256×256×96的特征图，之后被reshape成32通道的平面

接着从三平面采样，累加后，通过轻量级decoder，生成density和32通道的特征，然后由neural volume renderer生成2D特征图（而非RGB图）

Super Resolution

三平面仍不足以直接生成高分辨率图，因此添加了超分模块

使用了2个StyleGAN2的卷积层，上采样并优化32通道特征图，得到最终的RGB图像

Dual Discrimination

对StyleGAN2的discrimination做了两个修改

首先，添加Dual Discrimination以保证生成图片的视角一致性，即保证原始图片（低分辨率生成的）和超分后的图片的一致性，将低分辨率图片直接双线性上采样后，和超分图片concat形成6通道图片，真实图片也模糊后的自己拼接，也形成6通道图片，进行判别。

这样做，不仅能encourage最终输出和真实图片的分布匹配，也让神经渲染器尽可能匹配下采样的真实图片，并让超分图片和神经渲染保持一致。

其次，作者对discriminator输入了相机内外参，作为一个conditioning label，从而让generator学到正确的3D先验。

Modeling Pose-Correlated Attributes

真实世界数据集如FFHQ，相机姿态与其他参数（如表情）有关联

比如，相机角度与人是否微笑是有关系的，这会导致生成结果视角不一致

因此，为了更好的生成质量，需要将这些参数与相机姿态解耦

这篇工作使用了Generator Pose Conditioning解耦pose和其他参数

Mapping Network不仅接受Latent Code，还接受相机参数做为输入

给予backbone相机姿态作为先验，从而让视角可以和生成产生联系

也就是说，generator可以建模数据集中隐式的pose dependent biases，更忠实地反映数据集特征

为了避免在渲染时因相机移动产生视角不一致，在渲染时保持generator输入的相机参数不变

条件控制扩散模型

参考：https://www.zhangzhenhu.com/aigc/Guidance.html

无论是 DDPM 还是 DDIM，这些扩散模型在生成图片时，都是输入一个随机高斯噪声数据，然后逐步的产出一张有意的真实图片。这个过程中每一步都是一个随机过程，所以每次执行产出的图片都不一样，生成的图像多样性非常好。但这也是一个缺点：生成的图像不可控，无法控制这个生成过程并令其生成我们想要的图像内容。

鉴于此，很多研究中在如何控制图像生成过程方面提出了很多有效的方案。直觉的讲，我们可以在扩散过程中引入额外的信息来指导或者说控制整个扩散模型，假设这个额外的信息为 y，它可以是一段文本、一张图片或者图像的类别标签。引入 y 之后的模型就变成了一个以 y 为条件的条件概率分布。

自然而然地，接下来就需要探讨，引入y 之后对前向扩散过程和逆向采用过程分别有什么影响，需要做出什么调整。首先看下对前向扩散过程的影响，先说结论：引入 y 之后，对前向扩散过程没有任何影响。其实，从直觉上讲，前向扩散过程是对原始图片加噪声，直至变成纯噪声，这个过程显然与 y没有任何关系。但做研究要严谨，还是需要给出数学证明的。证明过程在论文 1 中已经给出。

条件扩散模型的前向过程与非条件扩散模型的前向过程完全一样。

1、classifier guidance

OpenAI 的团队在 2021 年发表一篇论文 1 : A. Diffusion models beat gans on image synthesis ，在这篇论文中，提出一种利用图片类别标签指导图像生成的方案，称为 classifier guidance，通过这种改进使扩散模型生成图像的质量大幅提升，并在 IS 和 FID 评分上超过了 GAN 模型，所以你看论文的名字，简单直接。

论文的源码在： https://github.com/openai/guided-diffusion 。

实际上这篇论文做了很多改进，比如对UNET也做了改进。但这里我们只关注 guidance 部分。原论文的推导过程比较繁杂，这里我们采用另一篇文章 2 的推导方案，直接从 score function 的角度去理解。

虽然引入 classifier guidance 效果很明显，但缺点也很明显：

需要额外一个分类器模型，极大增加了成本，包括训练成本和采样成本。
分类器的类别毕竟是有限集，不能涵盖全部情况，对于没有覆盖的标签类别会很不友好

后来《More Control for Free! Image Synthesis with Semantic Diffusion Guidance》推广了“Classifier”的概念，使得它也可以按图、按文来生成。Classifier-Guidance方案的训练成本比较低（熟悉NLP的读者可能还会想起与之很相似的PPLM模型），但是推断成本会高些，而且控制细节上通常没那么到位。

2、Classifier-free guidance

引导函数的方法存在一些问题：1）额外的计算量比较多；2）引导函数和扩散模型分别进行训练，不利于进一步扩增模型规模，不能够通过联合训练获得更好的效果。

提出了一个等价的结构替换了外部的classifier，从而可以直接使用一个扩散模型来做条件生成任务。

实际做法只是改变了模型输入的内容，有conditional(随机高斯噪声+引导信息的embedding)和unconditional两种采样输入。两种输入都会被送到同一个diffusion model，从而让其能够具有无条件和有条件生成的能力。

3、CLIP Guidance

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., and Sutskever, I. Learning transferable visual models from natural language supervision. arXiv:2103.00020, 2021

Prafulla Dhariwal and Alex Nichol. Diffusion models beat gans on image synthesis. 2021. arXiv:2105.05233.[2](1,2)

Calvin Luo. Understanding diffusion models: a unified perspective. 2022. arXiv:2208.11970.[3]

Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. 2022. arXiv:2207.12598.[4]

Alex Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, and Mark Chen. Glide: towards photorealistic image generation and editing with text-guided diffusion models. 2022. arXiv:2112.10741.[5]

Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with clip latents. 2022. arXiv:2204.06125.[6]

Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S. Sara Mahdavi, Rapha Gontijo Lopes, Tim Salimans, Jonathan Ho, David J Fleet, and Mohammad Norouzi. Photorealistic text-to-image diffusion models with deep language understanding. 2022. arXiv:2205.11487.

去噪扩散隐式模型（Denoising Diffusion Implicit Models,DDIM）

Paper: https://arxiv.org/abs/2010.02502

Code: https://github.com/ermongroup/ddim

摘自：扩散模型之DDIM

在 DDPM 中，生成过程被定义为马尔可夫扩散过程的反向过程，在逆向采样过程的每一步，模型预测噪声

DDIM 的作者发现，扩散过程并不是必须遵循马尔科夫链，在之后的基于分数的扩散模型以及基于随机微分等式的理论都有相同的结论。基于此，DDIM 的作者重新定义了扩散过程和逆过程，并提出了一种新的采样技巧，可以大幅减少采样的步骤，极大的提高了图像生成的效率，代价是牺牲了一定的多样性，图像质量略微下降，但在可接受的范围内。

对于扩散模型来说，一个最大的缺点是需要设置较长的扩散步数才能得到好的效果，这导致了生成样本的速度较慢，比如扩散步数为1000的话，那么生成一个样本就要模型推理1000次。这篇文章我们将介绍另外一种扩散模型DDIM（Denoising Diffusion Implicit Models），DDIM和DDPM有相同的训练目标，但是它不再限制扩散过程必须是一个马尔卡夫链，这使得DDIM可以采用更小的采样步数来加速生成过程，DDIM的另外是一个特点是从一个随机噪音生成样本的过程是一个确定的过程（中间没有加入随机噪音）。

前提条件：1.马尔可夫过程。2.微小噪声变化。

步骤一：在DDPM中我们基于初始图像状态以及最终高斯噪声状态，通过贝叶斯公式以及多元高斯分布的散度公式，可以计算出每一步骤的逆向分布。之后继续重复上述对逆向分布的求解步骤，最终实现从纯高斯噪声，恢复到原始图片的步骤。

步骤二：模型优化部分通过最小化分布的交叉熵，预测出模型逆向分布的均值和方差，将其带入步骤一中的推理过程即可。

文章中存在的一个核心问题是：由于1.每个步骤都是马尔可夫链。2.每次加特征的均值和方差都需要控制在很小的范围下。因此我们不得不每一步都进行逆向的推理和运算，导致模型整体耗时很长。本文核心针对耗时问题进行优化，一句话总结：在满足DDPM中逆向推理的条件下，找到一种用 xt 和 x0 表达 xt−1 且能能大幅减少计算量的推理方式。

代码实现：

DDIM和DDPM的训练过程一样，所以可以直接在DDPM的基础上加一个新的生成方法（这里主要参考了DDIM官方代码以及diffusers库），具体代码如下所示：

class GaussianDiffusion:
    def __init__(self, timesteps=1000, beta_schedule='linear'):
     pass

    # ...
        
 # use ddim to sample
    @torch.no_grad()
    def ddim_sample(
        self,
        model,
        image_size,
        batch_size=8,
        channels=3,
        ddim_timesteps=50,
        ddim_discr_method="uniform",
        ddim_eta=0.0,
        clip_denoised=True):
        # make ddim timestep sequence
        if ddim_discr_method == 'uniform':
            c = self.timesteps // ddim_timesteps
            ddim_timestep_seq = np.asarray(list(range(0, self.timesteps, c)))
        elif ddim_discr_method == 'quad':
            ddim_timestep_seq = (
                (np.linspace(0, np.sqrt(self.timesteps * .8), ddim_timesteps)) ** 2
            ).astype(int)
        else:
            raise NotImplementedError(f'There is no ddim discretization method called "{ddim_discr_method}"')
        # add one to get the final alpha values right (the ones from first scale to data during sampling)
        ddim_timestep_seq = ddim_timestep_seq + 1
        # previous sequence
        ddim_timestep_prev_seq = np.append(np.array([0]), ddim_timestep_seq[:-1])
        
        device = next(model.parameters()).device
        # start from pure noise (for each example in the batch)
        sample_img = torch.randn((batch_size, channels, image_size, image_size), device=device)
        for i in tqdm(reversed(range(0, ddim_timesteps)), desc='sampling loop time step', total=ddim_timesteps):
            t = torch.full((batch_size,), ddim_timestep_seq[i], device=device, dtype=torch.long)
            prev_t = torch.full((batch_size,), ddim_timestep_prev_seq[i], device=device, dtype=torch.long)
            
            # 1. get current and previous alpha_cumprod
            alpha_cumprod_t = self._extract(self.alphas_cumprod, t, sample_img.shape)
            alpha_cumprod_t_prev = self._extract(self.alphas_cumprod, prev_t, sample_img.shape)
    
            # 2. predict noise using model
            pred_noise = model(sample_img, t)
            
            # 3. get the predicted x_0
            pred_x0 = (sample_img - torch.sqrt((1. - alpha_cumprod_t)) * pred_noise) / torch.sqrt(alpha_cumprod_t)
            if clip_denoised:
                pred_x0 = torch.clamp(pred_x0, min=-1., max=1.)
            
            # 4. compute variance: "sigma_t(η)" -> see formula (16)
            # σ_t = sqrt((1 − α_t−1)/(1 − α_t)) * sqrt(1 − α_t/α_t−1)
            sigmas_t = ddim_eta * torch.sqrt(
                (1 - alpha_cumprod_t_prev) / (1 - alpha_cumprod_t) * (1 - alpha_cumprod_t / alpha_cumprod_t_prev))
            
            # 5. compute "direction pointing to x_t" of formula (12)
            pred_dir_xt = torch.sqrt(1 - alpha_cumprod_t_prev - sigmas_t**2) * pred_noise
            
            # 6. compute x_{t-1} of formula (12)
            x_prev = torch.sqrt(alpha_cumprod_t_prev) * pred_x0 + pred_dir_xt + sigmas_t * torch.randn_like(sample_img)

            sample_img = x_prev
            
        return sample_img.cpu().numpy()

这里以MNIST数据集为例，训练的扩散步数为500，直接采用DDPM（即推理500次）生成的样本如下所示：

同样的模型，我们采用DDIM来加速生成过程，这里DDIM的采样步数为50，其生成的样本质量和500步的DDPM相当：

完整的代码示例见https://github.com/xiaohu2015/nngen。

其它：重建和插值

如果从直观上看，DDIM的加速方式非常简单，直接采样一个子序列，其实论文DDPM+也采用了类似的方式来加速。另外DDIM和其它扩散模型的一个较大的区别是其生成过程是确定性的。

Claude2：ChatGPT的替代产品知识更新到23年，代码数学显著提升，免费可用

网址：https://claude.ai/chats

Anthropic是一家专注于人工智能（AI）研究的公司，由OpenAI的前首席科学家Ilya Sutskever和Dario Amodei共同创立。Claude是Anthropic公司发布的基于transformer架构的大语言模型，被认为是最接近ChatGPT的商业产品。

Claude模型可以在Slack中免费使用，一度是我们团队使用的ChatGPT的最强替代者，对中文支持很好，意图理解也非常优秀。Claude 2的发布应该会很快会在Slack中体现。本次也推出了Claude Chat网页版，完全免费，支持直接根据PDF总结结果（最高不超过10MB的文档，单词数应该是7.5万以内都可以）。

Claude模型介绍

Claude是Anthropic公司开发的一系列大型语言模型。这些模型使用了Transformer架构，并通过无监督学习、人类反馈强化学习（RLHF）进行训练。Claude模型可以理解和生成人类语言，用于各种任务，如回答问题、写作、编辑和编程。

大多数人使用Claude的感受应该都是它与ChatGPT很像，对意图的识别和文本的生成都有很好的支持。相比较免费版本的ChatGPT（训练数据在2021年9月之前），Claude模型中包含更多的最新数据，因此就免费版本来说，Claude更好。

Claude 2 在哪些方面得到了加强？

总的来说，Claude 2 注重提高以下能力：

Anthropic 致力于提高 Claude 作为编码助理的能力，Claude 2 在编码基准和人类反馈评估方面性能显著提升。
长上下文（long-context）模型对于处理长文档、少量 prompt 以及使用复杂指令和规范进行控制特别有用。Claude 的上下文窗口从 9K token 扩展到了 100K token（Claude 2 已经扩展到 200K token，但目前发布版本仅支持 100K token）。
以前的模型经过训练可以编写相当短的回答，但许多用户要求更长的输出。Claude 2 经过训练，可以生成最多 4000 个 token 的连贯文档，相当于大约 3000 个单词。
Claude 通常用于将长而复杂的自然语言文档转换为结构化数据格式。Claude 2 经过训练，可以更好地生成 JSON、XML、YAML、代码和 Markdown 格式的正确输出。
虽然 Claude 的训练数据仍然主要是英语，但 Claude 2 的训练数据中非英语数据比例已经明显增加。
Claude 2 的训练数据包括 2022 年和 2023 年初更新的数据。这意味着它知道最近发生的事件，但它仍然可能会产生混淆。

该研究进行了一系列评估实验来测试 Claude 2 的性能水平，包括对齐评估和能力评估两部分。

在模型对齐方面，该研究针对大模型的三个关键要求做了具体评估，包括：遵循指令、生成内容有用（helpfulness）；生成内容无害（harmlessness）；生成内容准确、真实（honesty）。

Claude 2和之前的Claude模型都是通用的大型语言模型，使用Transformer架构。Claude 2是该公司迄今为止最强大的系统，它代表了从早期的“有用且无害”的语言助手模型到现在的连续演进。Claude 2并没有从先前模型和研究中带来变革性的变化，而是代表了一种连续的演变和一系列小而有意义的改进，这些改进建立在Anthropic过去2年多的研究基础之上。

Claude 2有几个非常重要的更新值得关注。

编码能力提升很大：

Claude 2在Codex HumanEval（一项Python编码测试）上的得分从56.0%提高到71.2%。官方的演示视频中，你可以直接上传一个代码文件（js库），然后Claude就可以自动分析代码并给出这个库的使用方法。

最高支持10万tokens的输入和4000个tokens的输出：

尽管很早之前Anthropic就生成Claude最高支持10万tokens的输入，但是一直没有发布。今天的Claude2宣布正式支持10万tokens的输入，并且可以一次性输出4000个tokens，大约3000多个单词。

这应该是目前最高的上下文限制了（超过GPT-4的32K）。

更新的训练数据

这一点比ChatGPT好，尽管付费版本的GPT-4支持插件方式来访问最新的数据。但是插件尤其是网络插件很多时候会出问题。而Claude2则是已经使用了2023年初的新数据来训练模型了。所以，模型本身对2023年之前发生的重要事情与内容应该都是知道的。

尽管ClaudeAI不支持插件。但是官方说，它是支持与搜索工具连接的，包括网络和数据库等。同时，也可以直接将文档发给Claude来分析。

3D Gaussian Splatting for Real-Time Radiance Field Rendering

项目主页：https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/

ACM 计算机图形学领域最顶级的期刊

代码：https://github.com/graphdeco-inria/gaussian-splatting

辐射场方法最近彻底改变了用多张照片或视频捕获的场景的新颖视图合成。然而实现高视觉质量仍然需要训练和渲染成本高昂的神经网络，而最近更快的方法不可避免地会牺牲速度来换取质量。对于无界且完整的场景（而不是孤立的物体）和 1080p 分辨率渲染，当前任何方法都无法实现实时显示速率。我们引入了三个关键要素，使我们能够在保持竞争性训练的同时实现最先进的视觉质量，重要的是允许以 1080p 分辨率进行高质量实时 (≥30fps) 新颖视图合成。首先，从相机校准期间产生的稀疏点开始，我们用 3D 高斯表示场景，保留连续体积辐射场的所需属性以进行场景优化，同时避免在空白空间中进行不必要的计算；其次，我们对 3D 高斯进行交错优化/密度控制，特别是优化各向异性协方差以实现场景的准确表示；第三，我们开发了一种快速可见性感知渲染算法，该算法支持anisotropic（各向异性） splatting，既加速训练又允许实时渲染。我们在几个已建立的数据集上展示了最先进的视觉质量和实时渲染

我们方法的输入是一组静态场景的图像，以及由 SfM 校准的相应摄像机，这会产生稀疏点云作为side effect。从这些点出发，我们创建了一组 3D 高斯，由位置（均值）、协方差矩阵和不透明度定义，这允许非常灵活的优化机制。这会产生 3D 场景的相当紧凑的表示，部分原因是高度各向异性的体积片可用于紧凑地表示精细结构。辐射场的方向外观分量（颜色）通过球谐函数 (SH) 表示，遵循标准实践。我们的算法继续通过 3D 高斯参数的一系列优化步骤来创建辐射场表示，即位置、协方差和 SH 系数与高斯密度自适应控制的操作交织在一起。我们方法效率的关键是基于图块的光栅化器，它允许各向异性图块的混合，通过快速排序尊重可见性顺序。快速光栅化器还包括通过跟踪累积值的快速向后传递，而对可以接收梯度的高斯数量没有限制。我们的方法的概述如上图所示。

CVPR23 | 纯数学无限生成的3D世界，高质量的3D数据生成

谁说生成图像、视频一定要靠AI？ Github: https://github.com/princeton-vl/infinigen Infinigen: Infinite Photorealistic Worlds using Procedural Generation

普林斯顿大学新出的神器，可无限生成逼真3D世界，特别强调“No AI”。

不要以为生成的只是一段视频，其实背后是一套完整的3D资产，基于建模软件Blender打造。如此一来，我们就能用参数来控制细节，或者拿到相应的光流图、3D场景光流图、深度图、全景分割图等等，轻松hold住各种CV任务。再也不用担心我找不到高质量的3D数据投喂AI了。

100%基于随机数学的3D数据生成器:

尽管AI发展迅猛，但目前CV领域的许多任务仍然缺乏高质量的数据，3D尤甚。

一个解决办法是用合成数据。事实证明，在这类数据上训练的模型在零样本的真实图像上也可以表现得很好。

但问题是，现有的大多数免费3D合成数据工具基本局限于单一场景：要么是自动驾驶相关，要么就是那种位于室内环境中的人造物体。

因此，为了扩大覆盖范围，尤其是真实世界里的自然场景，作者基于Blender打造了这个基于随机数学规则无限生成各种场景的Infinigen。

Infinigen主要利用Blender的“基元”（或原语），设计了一个程序规则库，通过编码完成真实自然场景各个对象的生成。

论文主要介绍了Infinigen的程序体系，包括：

Node Transpiler（节点转换器），可以自动将Blender节点图转化为Python代码，方便非程序员用户使用Infinigen。

如下图所示，它生成的代码更通用，既允许我们随机化输入参数，也允许随机化图结构。

Generator Subsystems（生成器子系统），Infinigen的生成器是是一个个基于概率的程序，每个程序专门用于生成一个子对象（比如山脉或鱼类）。每个对象都有一组高级参数（比如山的总高度），用户可以使用Python API来调整这些参数，以实现对数据生成的细粒度控制。
Material Generators（材料生成器），一共有50个，每个都由一个能指定颜色和反射率的随机着色器和一个生成相应精细几何细节的局部几何生成器组成。

如下图由所示，它能保证非常真实的几何细节

Terrain Generators（地形生成器），如下图所示，该生成器可以通过反复挤压生成巨石，使用Blender的内置插件生成小石块。

并帮助Infinigen通过使用FLIP模拟动力学流体，使用Blender的粒子系统模拟天气。

Plants & Underwater Object Generators（植物和水下物体发生器），包括使用用随机游走等算法对树木生长进行建模，从而形成一个覆盖各种树木、灌木甚至仙人掌的3D世界。

又或者是使用差异化生长、拉普拉斯生长和反应扩散制造各种珊瑚、使用几何节点图生成树叶、花朵、海藻、海带、软体动物和水母。

还有各种子生成器（比如生物生成器）就不一一介绍了。

除了这些，Infinigen还包括一个图像渲染与Ground Truth提取程序，主要用于生成下图这些类型的图像。

其中对于前者，系统使用了Blender基于自然规律的路径跟踪渲染器Cycles来渲染图像。

作者介绍，虽然使用Blender开发了Infinigen的程序规则，不过程序生成的很大一部分是在Blender之外完成的。

另外，他们也表示，构建Infinigen是一项极大量的软件工程，光是它代码库的主分支就囊括了40485行代码。

最后，Infinigen在2个Intel Xeon Silver 4114 @ 2.20GHz CPU和1个NVidia GPU上进行了基准测试，生成一对1080p图像的时间（wall time）为3.5小时。

下表是它与现有合成数据集或生成器的比较。

作者表示，从中可以看出，Infinigen最大的优点就是不需要任何外部参考资源库就能程序化地生成无限的自然3D数据，别的都不行。论文地址：
https://arxiv.org/abs/2306.09310
项目主页：
https://infinigen.org/
GitHub地址：
https://github.com/princeton-vl/infinigen

Stable-diffusion

Stable Diffusion

Stable Diffusion was made possible thanks to a collaboration with Stability AI and Runway and builds upon our previous work:

High-Resolution Image Synthesis with Latent Diffusion Models
Robin Rombach*, Andreas Blattmann*, Dominik Lorenz, Patrick Esser, Björn Ommer
CVPR ’22 Oral | GitHub | arXiv | Project page

参考： https://zhuanlan.zhihu.com/p/573984443

参考： https://zhuanlan.zhihu.com/p/599160988

扩散模型汇总：https://github.com/heejkoo/Awesome-Diffusion-Models

DDPM 模型在生成图像质量上效果已经非常好，但它也有个缺点，那就是xt 的尺寸是和图片一致的，xt的元素和图片的像素是一一对应的，所以称 DDPM 是像素(pixel)空间的生成模型。我们知道一张图片的尺寸是 3×H×W ，如果想生成一张高尺寸的图像， Xt的张量大小是非常大的，这就需要极大的显卡（硬件）资源，包括计算资源和显存资源。同样的，它的训练成本也是高昂的。高昂的成本极大的限制了它在民用领用的发展。

1. 潜在扩散模型（Latent diffusion model,LDM）

2021年德国慕尼黑路德维希-马克西米利安大学计算机视觉和学习研究小组（原海德堡大学计算机视觉小组），简称 CompVis 小组，发布了论文 High-Resolution Image Synthesis with Latent Diffusion Models，针对这个问题做了一些改进，主要的改进点有：

引入一个自编码器，先对原始对象进行压缩编码，编码后的向量再应用到扩散模型。
通过在 UNET 中加入 Attention 机制，处理条件变量 y。

潜在空间

针对 DDPM 消耗资源的问题，解决方法也简单。引入一个自编码器，比如上一章介绍的变分编码器（VAE），先对原始图像进行压缩编码，得到图像的低维表示 z0 ，然后 x0 作为 DDPM 的输入，执行 DDPM 的算法过程，DDPM 生成的结果再经过解码器还原成图像。由于 z0 是压缩过的，其尺寸远远小于原始的图像，这样就能极大的减少 DDPM 资源的消耗。压缩后 z0 所在的数据空间称为潜在空间（latent space）, z0 可以称为潜在数据。

这个自编码器（VAE）可以是提前预训练好的模型，在训练扩散模型时，自编码器的参数是冻住的，如图 7.1.2 所示

通过使用预训练的编码器 E，我们可以将全尺寸图像编码为低维潜在空间数据（压缩数据）。
通过使用预训练的解码器 D，我们可以将潜在空间数据解码回图像。

这样在 DDPM 外层增加一个 VAE 后，DDPM 的扩散过程和降噪过程都是在潜空间（Latent Space）进行，潜空间的尺寸远远小于像素空间，极大了降低了硬件资源的需求，同时也能加速整个过程。

正向扩散过程→给潜在数据增加噪声，逆向扩散过程→从潜在数据中消除噪声。整个 DDPM 的过程都是在潜在空间执行的，所以这个算法被称为潜在扩散模型（Latent diffusion model,LDM）。增加一个自编码器并没有改变 DDPM 的算法过程，所以并不需要对 DDPM 算法代码做任何改动。

条件处理

在 DDPM 的过程中，可以增加额外的指导信息，使其生成我们的想要的图像，比如文本生成图像、图像生成图像等等。

关于注意力机制的实现细节，可以直接参考论文代码， LDM模型论文的代码和预训练的模型已经在 Github 开源，地址为： https://github.com/CompVis/latent-diffusion 。

训练过程

相比于 DDPM ，条件化的 LDM 目标函数稍微变化了一点，具体变化内容可以参考:

生成（采样）过程:

图 7.1.6 是 LDM 采样过程的图形化表示，过程并不复杂，经过 DDPM 采样生成的 Z0 需要用解码器 D 还原成图像。

2、稳定扩散模型（Stable diffusion,SD)

LDM 本身是由 CompVis 提出并联合 Runway ML进行开发实现，后来 Stability AI 也参与进来并提供了一些资源，联合搞了一个预训练的 LDM 模型，称为 Stable diffusion。所以，Stable diffusion 是 LDM 的一个开源预训练模型，由于它的开源迅速火爆起来。目前 Stable diffusion 已经占据了图像生成开源领域的主导地位。

由于 Stable diffusion 只是LDM的一个开源预训练模型，没有额外的复杂数学公式需要讨论，这里我们就直接上代码吧。我们不用 Stable diffusion 的官方代码库 stablediffusion ，而是 huggingface 开源库 diffusers 中的实现，它的易读性更好一些。

diffusers 把模型的核心逻辑都封装在各种 DiffusionPipeline 中， StableDiffusionPipeline 核心代码在 diffusers.StableDiffusionPipeline 先看初始化代码，可明显看到整个 StableDiffusionPipeline 包含几个关键组件：vae,text_encoder/tokenizer,unet,scheduler。这几个组件和 LDM 中是对应的。

vae: VAE 自编码器，负责前后的编解码（压缩、解压缩）工作。
text_encoder/tokenizer: 文本编码器，负责对文本Prompt进行编码处理。
unet: 噪声预测模型，也是DDPM的核心。
scheduler: 负责降噪过程（逆过程）的计算，也就是实现 xt−>xt−1 ，对应着 DDPM、DDIM、ODE等不同的降采样实现。
safety_checker: 做生成图像安全性检查的，可选，暂时可以不关注它。
feature_extractor: 如果输入条件中存在 img，也就是以图生图(img2img)，可以用它对条件图片进行特征抽取，也就是图像编码器（img encoder），可选。