InternVL家族：通过开源组件缩小与商业多模态模型的差距 —— GPT-4o的开源替代方案

InternVL家族：用开源组件缩小与商业多模态模型的差距——一个开创性的开源替代方案，旨在平替GPT-4o

我们的 InternVL2-Llama3-76B 在 OpenCompass 多模态排行榜上取得了比 GPT-4o 更高的分数。尽管这让我们感到兴奋，但我们必须指出，这个分数仅捕捉了模型性能的一部分，特别是在与视觉相关的任务方面。我们认识到，在指令跟随、用户体验、纯文本处理能力和整体理解能力等方面，我们的模型与 GPT-4 之间仍存在显著差距。我们致力于不断改进我们的模型，以更好地满足现实世界的应用需求。

书生·万象多模态大模型。万象，代表对多模态大模型的愿景，即理解真实世界一切事物和景象，实现全模态全任务的通用智能。它涵盖图像，视频，文字，语音、三维点云等5种模态，首创渐进式对齐训练，实现了首个与大语言模型对齐的视觉基础模型，通过模型”从小到大”、数据”从粗到精”的渐进式的训练策略，以1/5成本完成了大模型的训练。它在有限资源下展现出卓越的性能表现，横扫国内外开源大模型，媲美国际顶尖商业模型，同时也是国内首个在MMMU（多学科问答）上突破60的模型。它在数学、图表分析、OCR等任务中表现优异，具备处理复杂多模态任务、真实世界感知方面的强大能力，是当之无愧的最强多模态开源大模型。

书生万象具有千亿规模参数，支持图像，视频，文字，语音、三维点云等模态。为了使模型能够支持丰富的输出格式，书生万象首次使用了向量链接技术，链接各领域专用解码器，打通梯度传输链路，实现通专融合，支持检测、分割、图像生成、视觉问答等百种细分任务，性能媲美各领域的专家模型。为了训练书生万象模型，我们从各类来源构建了最大图文交错数据集OmniCorpus，包含约160亿图像，3万亿文本词元，相比现有开源图文数据集，图像数量扩大了三倍，文本数量扩大了十倍。

传统的预训练范式直接使用大模型+大数据进行一步到位训练，需要大量的算力资源。为了提高训练效率，研究团队首创了渐进式训练策略，先利用小模型在海量带噪数据上进行高效预训练，然后再使用大模型在较少高质量精选数据上进行高效对齐，模型”从小到大”，数据”从粗到精”，仅需20%的算力资源即可取得同等效果。采用这种训练策略，我们实现了首个与大模型对齐的视觉基础模型，同时，我们的多模态大模型，展现出卓越的性能，在MathVista（数学）、AI2D（科学图表）、MMBench（通用视觉问答）、MM-NIAH（多模态长文档）等评测上可比肩GPT-4o、Gemini 1.5 Pro等闭源商用大模型。

InternVL2系列基于以下设计构建：

1、渐进式与大型语言模型：我们引入了渐进式对齐训练策略，从而使第一个视觉基础模型与大型语言模型原生对齐。通过采用渐进式训练策略，即模型从小到大，而数据从粗到细，我们以相对较低的成本完成了大型模型的训练。这一方法在有限的资源下表现出了出色的性能。

2、多模式输入：通过一组参数，我们的模型支持多种输入模式，包括文本、图像、视频和医疗数据。

3、多任务输出：由我们最近的工作VisionLLMv 2提供支持，我们的模型支持各种输出格式，如图像，边界框和蒙版，展示了广泛的通用性。通过将MLLM与多个下游任务解码器连接，InternVL 2可以推广到数百个视觉语言任务，同时实现与专家模型相当的性能。

性能：

InternVL2在处理复杂的多模态数据方面表现出强大的能力，在数学、科学图表、通用图表、文档、信息图表和OCR等任务中表现出色。例如，在MathVista基准测试中，InternVL2的准确率达到66.3%，大大超过了其他闭源商业模型和开源模型。此外，InternVL2在广泛的基准测试中实现了最先进的性能，包括通用图表基准测试ChartQA，文档基准测试DocVQA，信息图表基准测试InfographicVQA和通用视觉问答基准测试MMBench。

name	MMMU (val)	MathVista (testmini)	AI2D (test)	ChartQA (test)	DocVQA (test)	InfoVQA (test)	OCRBench	MMB-EN (test)	MMB-CN (test)	OpenCompass (avg score)
GPT-4V* (20240409)	63.1 / 61.7	58.1	89.4	78.1	87.2	–	678	81.0	80.2	63.5
Gemini Pro 1.5*	58.5 / 60.6	57.7	80.3	81.3	86.5	72.7	754	73.9	73.8	64.4
Claude3.5-Sonnet*	68.3 / 65.9	67.7	94.7	90.8	95.2	–	788	79.7	80.7	67.9
GPT-4o* (20240513)	69.1 / 69.2	63.8	94.2	85.7	92.8	–	736	83.4	82.1	69.9
Cambrian-1	49.7 / 50.4	53.2	79.7	75.6	75.5	–	600	81.4	–	58.3
LLaVA-NeXT Qwen1.5	50.1	49.0	80.4	79.7	85.7	–	–	80.5	–	–
InternVL2-Pro	58.9 / 62.0	66.3	87.3 / 96.0	87.1	95.1	83.3	837	87.8	87.2	71.8

name	MMMU (val)	MathVista (testmini)	AI2D (test)	ChartQA (test)	DocVQA (test)	InfoVQA (test)	OCRBench	MMB-EN (test)	MMB-CN (test)	OpenCompass (avg score)
InternVL2-1B	35.4 / 36.7	37.7	64.1	72.9	81.7	50.9	754	65.4	60.7	48.3
InternVL2-2B	34.3 / 36.3	46.3	74.1	76.2	86.9	58.9	784	73.2	70.9	54.0
InternVL2-4B	47.0 / 48.3	58.6	78.9	81.5	89.2	67.0	788	78.6	73.9	60.6
InternVL2-8B	49.3 / 51.2	58.3	83.8	83.3	91.6	74.8	794	81.7	81.2	64.1
InternVL2-26B	48.3 / 50.7	59.4	84.5	84.9	92.9	75.9	825	83.4	82.0	66.4
InternVL2-40B	53.9 / 55.2	63.7	87.1	86.2	93.9	78.7	837	86.8	86.5	69.7
InternVL2-Llama3-76B	55.2 / 58.2	65.5	87.6	88.4	94.1	82.0	839	86.5	86.3	71.0
InternVL2-Pro	58.9 / 62.0	66.3	87.3 / 96.0	87.1	95.1	83.3	837	87.8	87.2	71.8

实例：

MoE-Mixtral 8x7B

论文地址：https://arxiv.org/pdf/2401.04088.pdf
项目地址：https://github.com/mistralai/mistral-src
论文主页：https://mistral.ai/news/mixtral-of-experts/

专家层的混合。每个输入向量由路由器分配给 8 个专家中的 2 个。该层的输出是两个所选专家输出的加权和。在 Mixtral 中，专家是标准前馈块，就像普通变压器架构中一样

Mixtral 8x7B由法国的Mistral AI发布，性能直逼Llama2-70B，超越了GPT-3.5。此前，由于 OpenAI 团队一直对 GPT-4 的参数量和训练细节守口如瓶。Mistral 8x7B 的放出，无疑给广大开发者提供了一种「非常接近 GPT-4」的开源选项。要知道，很早之前就有人爆料，OpenAI 也是采用了「混合专家模型」（Mixture of Experts，MoE）的构架来搭建 GPT-4。

Mixtral 8x7B 是一种具有开放权重的稀疏专家混合模型 (Sparse Mixture of Experts ： SMoE)，在大多数基准测试中都优于 Llama 2 70B 和 GPT-3.5。Mixtral 可以在小批量大小下实现更快的推理速度，并在大批量大小下实现更高的吞吐量。Mixtral （即 Mixtral 8x7B）与单个 Mistral 7B 架构相同。Mistral 7B 模型同样来自这家法国人工智能初创公司 Mistral AI ，这篇论文发表于去年 10 月，在每个基准测试中，Mistral 7B 都优于 Llama 2 13B，并且在代码、数学和推理方面也优于 LLaMA 1 34B。

与 Mistral 7B 不同的是，Mixtral 8x7B 是一种仅包含解码器的模型，每层由 8 个前馈块（即专家）组成。对于每个 token，在每一层，路由器网络都会选择两名专家来处理当前状态并组合他们的输出。尽管每个 token 只看到两个专家，但所选的专家在每个时间步上都可能不同。因此，每个 token 可以访问 47B 参数，但在推理过程中仅使用 13B 激活参数。
从这里我们也可以看出，Mixtral 8x7B 并不是大家认为的有 8 个 Mistral 7B 模型，名字中的 8 代表 8 个专家。

Mixtral 预训练上下文的大小为 32k，在多项基准测试中，它的性能达到或超过 Llama 2 70B 和 GPT-3.5。尤其是，Mixtral 在数学、代码生成和需要多语言理解的任务方面表现出了卓越的能力，并在这些领域显著优于 Llama 2 70B。实验表明，Mixtral 能够成功地从 32k token 的上下文窗口中检索信息，无论序列长度和信息在序列中的位置如何。
除了 Mixtral 8x7B，该研究还推出了 Mixtral 8x7B – Instruct 聊天模型，其性能在人类评估基准上明显超过了 GPT-3.5 Turbo、Claude-2.1、Gemini Pro 和 Llama 2 70B 聊天模型。在 BBQ 和 BOLD 等基准中，Mixtral – Instruct 也显示出更少的偏见。

不过，有研究者表示 Mixtral 中的专家似乎专注于语法而不是领域，特别是在初始层和最终层（参见路由分析部分）

Mixtral 8x7B 如此令人兴奋的原因在于它探索了一种新的架构范式，即「专家混合」的方法，与大多数 LLM 所遵循的方法形成鲜明的对比。MoE 结合了多个专家模型的优势来解决问题，在 MoE 中，仅使用一名或少数专家就能进行预测。这种方法有两个主要组成部分：

路由器：决定对于给定输入信任哪个专家以及如何权衡每个专家对于特定输入的结果。
专家：专门研究问题不同方面的个体模型。

在 Mixtral 的案例中，有八位专家，其中两位是被选中的。我们接下来看具体细节。

架构细节

Mixtral 基于 Transformer 架构，支持上下文长度达到 32k token，并且前馈块被 Mixture-of-Expert（MoE）层取代。

稀疏专家混合

对于给定的输入 x，MoE 模块的输出由专家网络输出的加权和决定，其中权重由门控网络的输出给出。即给定 n 个专家网络 {E_0, E_i， …， E_(n−1)}，则专家层的输出为：

这里，G (x)_i 表示第 i 个专家的门控网络的 n 维输出，E_i (x) 是第 i 个专家网络的输出。不过实现 G (x) 有多种替代方案，其中简单且高性能的方法是通过在线性层的 Top-K logits 上采用 softmax 来实现。即：

MoE 层可以在具有高性能专用内核的单个 GPU 上高效运行。例如，Megablocks 将 MoE 层的前馈网络（FFN）操作转换为大型稀疏矩阵乘法，显著提高了执行速度。此外，MoE 层可以通过标准模型并行技术以及一种称为专家并行 (EP) 的特殊分区策略分布到多个 GPU 上。
在 MoE 层执行期间，本应由特定专家处理的 token 将被路由到相应的 GPU 进行处理，并且专家的输出将返回到原始 token 位置。
在 Transformer 模型中，MoE 层独立的应用于每个 token，并取代 Transformer 块的前馈 (FFN) 子块。对于 Mixtral，该研究使用与专家函数 E_i (x) 相同的 SwiGLU 架构，并设置 K = 2。这意味着每个 token 都被路由到具有不同权重集的两个 SwiGLU 子块。将所有这些放在一起，输入 token x 的输出 y 计算如下：

实验及结果

研究者将 Mixtral 与 Llama 进行了比较，并使用自己的评估 pipeline 重新运行了所有基准，以进行公平比较。该研究对以下各种任务的性能进行了测量：常识推理、世界知识、阅读理解、数学、代码等。具体任务详情见原论文.

表 2 列出了 Mixtral、Mistral 7B 和 Llama 2 7B/13B/70B 以及 Llama 1 34B 的详细结果。

图 2 比较了 Mixtral 和 Llama 在不同类别任务中的性能。在大多数指标上，Mixtral 都超过了 Llama 2 70B。特别是在代码和数学基准测试中，Mixtral 的表现更胜一筹。

研究者将 Mixtral 与 Llama 2 系列进行了比较。如图 3 所示，作为一个稀疏专家混合模型，Mixtral 每个 token 仅使用 13B 个激活参数。尽管激活参数减少了 5 倍，Mixtral 在大多数类别中仍然能够胜过 70 亿参数的 Llama 2。

多语言基准测试
与 Mistral 7B 相比，研究者在预训练时大幅提高了多语言数据的采样比例。额外的容量使 Mixtral 在多语言基准测试中表现出色，同时保持了较高的英语准确率。如表 4 所示，Mixtral 在法语、德语、西班牙语和意大利语方面的表现明显优于 Llama 2 70B。

长距离性能
图 4（左）结果表明，无论上下文长度或 passkey 在序列中的位置如何，Mixtral 的检索准确率都达到了 100%。图 4（右）显示，随着上下文大小的增加，Mixtral 在 proof-pile 数据集的一个子集上的困惑度单调降低。

偏见基准测试
研究者使用他们自己的评估框架对 Llama 2 和 Mixtral 在 BBQ 和 BOLD 上进行基准测试，结果如表 5 所示。与 Llama 2 相比，Mixtral 在 BBQ 基准测试中展现出较少的偏见。在 BOLD 的中，更高的平均情感得分意味着更积极的情感，而更低的标准差表示该群组内的偏见较少。总体而言，Mixtral 比 Llama 2 显示出更积极的情感，并且各组内的差异类似。

路由分析
研究者对路由器选择专家的情况进行了少量分析，他们尤其想知道在训练过程中，一些专家是否专攻某些特定领域，如数学、生物学、哲学等。
为了研究这一点，研究者测量了在 The Pile 验证数据集的不同子集中所选专家的分布情况。图 7 展示了第 0 层、第 15 层和第 31 层的结果。

令人惊讶的是，研究者在根据主题分配专家时没有观察到明显的模式。例如，在所有层中，ArXiv 论文（用 Latex 编写）、生物学（PubMed Abstracts）和哲学（PhilPapers）文档的专家分配分布非常相似。只有在 DM 数学中，专家的分布略有不同。
这表明路由器表现出一些结构化的语法行为。
图 8 显示了不同领域（Python 代码、数学和英语）的文本示例，其中每个 token 都用与其所选专家相对应的背景色突出显示。从图 8 中可以看到，连续的 token 往往被分配给相同的专家。
每个 token 都用第一个专家选择着色。专家的选择似乎更符合语法而不是领域，特别是在初始层和最后层。

表 5 显示了每个领域和层中连续 token 获得相同专家分配的比例。对于较高的层，重复连续分配的比例明显高于随机分配。

多模态大模型VITA : GPT-4o的简易平替

Abs：https://arxiv.org/pdf/2408.05211
Demo：https://vita-home.github.io/
Code：https://github.com/VITA-MLLM/VITA

原文：https://zhuanlan.zhihu.com/p/714031459

总览

传统的音频交互需要预定义的唤醒词，例如每次提问时都需要说“Hi! Siri∼”，或者需要按下按钮来控制输入的音频问题（限制1）。此外，当模型生成输出时，不能支持新的查询，因为以前的系统只能依次响应输入的查询（限制2）。VITA克服了这两个limitations。

GPT-4o 的卓越多模态能力和用户交互体验在实际应用中非常重要，但没有开源模型在这两个领域同时表现出色。本文介绍了 VITA，这是首个能够同时处理和分析视频、图像、文本和音频模态的开源多模态大语言模型（MLLM），并且具备先进的多模态交互体验。我们在以下三个关键特性，与现有的开源 MLLM 有所区分：

全方位多模态理解能力：VITA 展示了强大的多语言、视觉和音频理解基础能力，并在多种单模态和多模态基准测试中表现优异。
非唤醒交互：VITA 可以在不需要唤醒词或按钮的情况下被激活，并对环境中的用户音频问题做出响应。
音频打断交互：VITA 能够实时跟踪和筛选外部查询，允许用户随时以新问题打断模型的生成，VITA 将根据新的查询做出相应的响应。

VITA 模型的详细介绍

VITA 的整体训练流程如上图所示，由三个阶段组成：LLM指令微调、多模态对齐和多模态指令微调。

LLM 指令微调

我们选择 Mixtral 8x7B 作为基础语言模型，它是具有稀疏专家混合（SMoE）架构的代表性 LLM，性能在开源 LLM 中名列前茅，是我们工作的理想起点。然而，我们观察到官方的 Mixtral 模型在理解中文方面表现有限。为此，我们扩展了基础模型的中文词汇量，将词汇量从 32,000 增加到 51,747。这一扩展不仅增强了双语（中英文）理解能力，还减少了相同文本下的词元数量，从而提高了推理效率。在扩展词汇后，我们使用 500 万条合成的双语语料库进行纯文本指令微调。

补充：Mixtral 8x7B 是一种具有开放权重的稀疏专家混合模型 (SMoE)，在大多数基准测试中都优于 Llama 2 70B 和 GPT-3.5。Mixtral 可以在小批量大小下实现更快的推理速度，并在大批量大小下实现更高的吞吐量。Mixtral 8x7B 是一种仅包含解码器的模型，每层由 8 个前馈块（即专家）组成。对于每个 token，在每一层，路由器网络都会选择两名专家来处理当前状态并组合他们的输出。尽管每个 token 只看到两个专家，但所选的专家在每个时间步上都可能不同。因此，每个 token 可以访问 47B 参数，但在推理过程中仅使用 13B 激活参数。Mixtral 8x7B 并不是大家认为的有 8 个 Mistral 7B 模型，名字中的 8 代表 8 个专家。

多模态对齐

在这一阶段，我们旨在弥合文本与其他模态之间的表示差距，为多模态理解奠定基础。

视觉模态

视觉编码器：我们使用 InternViT-300M-448px 作为视觉编码器，该编码器接收 448×448 的图像作为输入，通过一个简单的两层 MLP 视觉连接器生成 256 个词元。对于高分辨率图像输入，我们实现了动态补丁策略来捕捉局部细节。视频被视为图像的特殊情况进行处理。如果视频长度小于 4 秒，我们均匀采样 4 帧；如果视频长度在 4 到 16 秒之间，我们每秒采样一帧；对于超过 16 秒的视频，我们均匀采样 16 帧。为了防止引入过多的视觉词元，我们不对视频的单个帧执行动态补丁。

视觉对齐：在视觉对齐阶段，我们仅训练视觉连接器。表 1 总结了使用的训练数据（不包括纯文本SFT部分）。此外，在此阶段我们不使用音频问题。

对于一般图像描述任务，我们引入了来自 ShareGPT4V 的 GPT-4V 生成部分，以确保数据质量。我们还引入了 Allava-Caption 和 ShareGTP4o-Image，并补充了一些由现有 MLLM 生成的中文图像描述。
对于一般图像问答（QA）任务，我们初步收集了三个数据集：LLaVA-Mixture-sample、Lvis-Instruct 和 ScienceQA。我们使用现有的 MLLM 生成了额外的 21.8K 中文 QA 数据。此外，我们从 LLaVA-150K 数据集中移除了标题子集，并将其余部分翻译为中文。
对于 OCR 和图表任务，我们引入了 Anyword-3M、ICDAR2019-LSVT、ICDAR2017-RCTW、Open-Chart（包括 ChartQA、DVQA、InfoVQA、Pew 和 OpenCQA），以及一些由现有 MLLM 从其他开源数据中生成的合成数据。
对于一般视频描述任务，我们使用 ShareGemini 数据集。
对于一般视频 QA 任务，我们使用现有的 MLLM 重新标注了 Video-ChatGPT 和 VideoChat2 的开源数据。

不同的文本数据直接拼接到 6K 词元。图像首先被划分为局部补丁，然后将不同的图像-文本对进行拼接。视频数据则直接逐帧采样作为输入，无需进行拼接。通过这种方式，我们能够统一不同训练批次中的数据长度，从而提高训练效率。

数据拼接：对于纯文本数据和图像数据，我们的目标是将上下文长度拼接到 6K 词元，如上图所示。视频数据则不进行拼接。拼接不同的数据带来了两个好处：一是支持更长的上下文长度，使得从单一到多图像-问题交互成为可能，从而实现更灵活的输入形式和延长的上下文；二是提高了计算效率，因为视频帧通常包含大量视觉词元。通过拼接图像-问题对，我们在训练批次中保持了词元数量的平衡，从而提高了计算效率。此外，我们发现使用拼接数据训练的模型在性能上与未拼接数据的模型表现相当。

音频模态

音频编码器：输入音频首先通过 Mel 频率滤波器块处理，该块将音频信号分解为 Mel 频率尺度上的各个频带，模拟人类对声音的非线性感知。随后，我们使用 4 层 CNN 下采样层和 24 层的变换器，共计 341M 参数，处理输入特征。我们采用简单的两层 MLP 作为音频-文本模态连接器。最终，每 2 秒的音频输入被编码为 25 个词元。

音频对齐：在对齐任务中，我们选择了自动语音识别（ASR）。我们的数据集包括 Wenetspeech，该数据集涵盖了超过 10,000 小时的多领域语音识别数据，主要集中在中文任务上。同样，Gigaspeech 也包含 10,000 小时的高质量音频数据，大部分数据用于英语语音识别任务。另一个任务是音频字幕生成，依赖于 Wavcaps 的 AudioSet SL 子集，该数据集包含 400K 个音频片段及其对应的音频字幕。在对齐过程中，音频编码器和连接器都进行了训练。

多模态指令微调

在这一阶段，我们对模型进行指令微调，以增强其遵循指令的能力（文本 & 音频指令）。

训练数据

数据构建：指令微调阶段的数据来源与对齐阶段相同（见表1），并进行了如下改进：

音频问题替换：我们使用 TTS 技术（如 GPT-SoVITS6）将大约一半的问题随机替换为其音频版本，以提升模型对音频查询的理解能力和指令跟随能力。音频问题和文本问题的数量见表1。
系统提示设置：设置不同的系统提示，以避免不同类型数据之间的冲突（见下表）。例如，有些问题可以基于视觉信息或模型自身知识进行回答，这可能会导致冲突。此外，由于图像数据的补丁类似于视频数据的多个帧，可能会使模型感到困惑。系统提示明确区分不同的数据类型，使其更易于理解。

噪声音频构建：在人机交互过程中，并非所有的音频输入都需要响应，这些被称为噪声音频。一个具有良好交互能力的系统应能主动识别音频类型，并有选择性地执行后续输出。为此，我们需要构建各种噪声音频样本以供模型识别。具体而言，我们从现有的多模态和单模态 QA 数据中随机抽取 474K 个句子。这些负样本文本集中在不需要用户响应的非查询相关内容上，其长度分布与正向问题的长度分布一致。然后，我们使用 TTS 工具将这些句子转换为音频。噪声音频样本的构建使模型能够识别不需要响应的音频输入，这有助于实现非唤醒交互。具体的训练策略将在以下部分详细说明。

训练过程

根据上述构建的 QA 对，模型需要区分三种类型的查询：

查询音频：问题由音频发起。
噪声音频：输入为音频，但不包含问题。
查询文本：问题由文本发起。

基于这些查询类型，我们设计了三种状态标记 <1>、<2> 和 <3>。在训练阶段，我们在答案的开头插入对应的状态标记，使模型能够灵活处理不同的交互行为。具体如下：

状态标记 <1> 表示问题输入为查询音频。在这种情况下，模型的输出需要以文本或通过 TTS 工具转换的语音形式呈现给用户。
• 状态标记 <2> 表示问题输入为噪声音频。模型应输出 EOS 标记作为终止符。然而，我们发现训练过程中突然终止输出可能会显著降低性能。因此，我们将噪声音频对应的文本发送给 LLM，并使用其输出文本作为训练目标。在推理过程中，<2> 作为另一种特殊的 EOS 标记。
状态标记 <3> 表示问题为纯文本，用于区分训练集中的前两种查询。

在训练过程中，视觉和音频编码器保持冻结状态，而连接器与 Mixtral 8×7B 一起进行训练。

模型部署：双工策略

在这一部分，我们主要讨论如何实现两种交互功能：非唤醒交互和音频中断交互。

非唤醒交互

非唤醒交互意味着模型可以在不需要唤醒词或按钮的情况下被激活，并对环境中的用户音频问题做出回应。部署过程必须满足以下要求：

• 实时跟踪环境声音：这涉及确定音频内容是否属于人类语言。
• 过滤噪声音频：模型应仅对有效的用户查询音频作出响应。

对于第一个要求，现有的语音活动检测（VAD）可以提供帮助。VITA 使用 SileroVAD ，该系统经过大规模语料库训练，涵盖超过 6,000 种语言，并且能够在各种背景噪声下表现良好。对于第二个要求，我们利用第 3.3.2 节中描述的状态标记 <2>。这使模型能够自动区分输入音频是否为有效查询。如果输入为非查询类型，模型将直接终止推理，从而仅对查询类型的输入作出响应。

音频中断交互

音频中断交互允许用户随时用新问题打断模型的生成过程。为实现这一点，部署环境必须满足以下要求：

实时跟踪和过滤外部查询：在生成响应的同时，系统必须实时跟踪和过滤外部查询。
回答新问题：当出现新问题时，系统必须停止当前生成，整合历史上下文，并对当前查询作出回应。

为实现这一目标，我们提出了双工部署框架。如上图所示，两个 VITA 模型同时部署。在典型条件下，生成模型负责回答用户查询。同时，监控模型在生成过程中检测环境声音。它忽略非查询用户声音（即噪声音频），但在检测到查询音频时会停止生成模型的进度。监控模型随后整合历史上下文，并对最新的用户查询做出回应。这时，生成模型和监控模型的身份会发生转变。

评估

语言表现：

为了验证我们训练过程对语言模型的有效性，我们将训练后的模型“Mixtral 8x7B Ours”与官方版本“Mixtral 8x7B Instruct”进行对比，评估使用了四个数据集：C-EVAL、AGIEVAL、MMLU 和 GSM8K。这些数据集涵盖了包括普通多项选择题、多学科问答，以及数学和逻辑推理任务的各种场景，涉及中文和英文上下文。结果如上表所示，我们的训练显著提升了模型在中文评估集（C-EVAL 和 AGIEVAL）上的能力，同时保持了在英文相关基准（MMLU）上的原有性能，并在数学推理任务（GSM8K）中显示出显著的改进。

音频表现：

为了验证我们模型所学的语音表示的鲁棒性，我们在 Wenetspeech 和 Librispeech数据集上进行了测试。Wenetspeech 具有两个评估拆分：test_net 和 test_meeting。前者的数据源与训练数据更为接近，较容易；后者则具有更大的挑战性。作为我们模型的留出数据集，Librispeech 评估了模型在未见数据集上的泛化能力。它有四个评估拆分：“dev” 开头的是验证集，“test” 开头的是测试集。“Clean” 指较不具挑战性的集合，而 “other” 指较具挑战性的集合。我们可以看到，VITA 在 ASR 基准上取得了可观的结果。

多模态表现：

为了评估 VITA 的多模态能力，我们在四个代表性基准上进行评估，包括 MME 、OCRBench、HallusionBench 和 Video-MME 。如上图所示，在图像理解方面，VITA 超越了图像专用的开源模型 LLaVA-Next，接近于闭源模型 Gemini 1.5 Pro。在视频理解方面，VITA 超过了视频专用的开源模型 Video-CCAM。尽管 VITA 与视频专用的 LLaVA-Next-Video 之间存在差距，但鉴于 VITA 支持更广泛的模态并优先考虑交互，这种差距是可以接受的。然而，值得注意的是，当前开源模型与专有模型在视频理解能力方面仍存在较大差距。

结论与未来工作

在本文中，我们介绍了 VITA，一个强大的开源多模态大语言模型，它将视频、图像、文本和音频理解整合到一个统一的框架中，并提供了先进的交互体验。除了强大的多模态基础能力，VITA 还在开源社区中开创了新的多模态交互方式，包括非唤醒交互和音频中断交互。然而，当前版本仍面临以下限制：

基础能力的提升：虽然 VITA 在单模态和多模态任务中相较于领先的开源模型表现出色，但与专有模型相比仍存在显著差距。
噪声音频构建的优化：使用现有数据的非查询响应作为噪声音频样本是一种简单而有效的方法。然而，VITA 有时会将噪声音频误分类为查询音频，这突显了需要更细致的构建方法。
与 LLM 联合构建端到端 TTS：我们目前使用额外的 TTS 工具将 LLM 生成的文本转换为语音，这一过程比较耗时。如果能够将 TTS 与 LLM 结合，实现端到端的语音输出，可能会大大提升实时交互性能。

未来的工作将集中在解决这些限制，并探索以下方向：

提升多模态基础能力：引入更多数据并改进模型架构，以缩小与专有模型的性能差距。
优化噪声音频识别：开发更复杂的噪声音频识别算法，以提高模型过滤无关音频的能力。
实现端到端 TTS：研究如何将 TTS 功能直接集成到 LLM 中，以实现更高效的语音生成和实时交互。

我们期待在未来版本的 VITA 中克服这些挑战，并继续推动开源多模态模型的发展。

Seed-ASR基于大型语言模型（LLM）的语音识别模型

https://arxiv.org/abs/2407.04675

https://bytedancespeech.github.io/seedasr_tech_report/

字节推出Seed-ASR,支持复杂场景、语种、多方言超精准识别

Seed-ASR是一种基于大型语言模型（LLM）的语音识别模型。Seed-ASR是在音频条件大语言模型（AcLLM）框架上开发的，利用了大型语言模型的强大能力，将连续的语音表示和上下文信息输入到语言模型中。通过分阶段的大规模训练以及语言模型中上下文感知能力的引入，Seed-ASR 在综合评估集上（涵盖多个领域、口音/方言和语言）比传统的端到端模型有了显著提升。

摘要

ASR模型需要在各种应用场景中准确地转录给定特定上下文信息的各种语音信号（来自不同领域、语言、口音等）。融合了额外语言模型的经典端到端模型表现良好，但主要应用在数据匹配场景中，并且逐渐接近瓶颈。Seed-ASR基于大语言模型（LLM）的语音识别模型。Seed-ASR是基于audio conditioned LLM（AcLLM）的框架开发的，通过将连续语音表示与上下文信息一起输入到LLM中来利用LLMs的功能。通过阶段式大规模训练和LLM中的上下文感知能力的启发，Seed-ASR在综合评估集（包括多个域，口音/方言和语言）上展示了端到端模型的显着改进。此外，Seed-ASR可以进一步部署，以支持各种场景中的特定需求，而无需额外的语言模型。与最近发布的大型ASR模型相比，Seed-ASR在中文和英文公共测试集上的单词（对于中文字符）错误率降低了10%-40%，进一步证明了其强大的性能。

Introduction

Seed-ASR，一个基于LLM的大规模ASR模型。为了成为一个“更智能”的语音识别模型，通过将连续语音表示与指令和上下文信息一起输入到LLM中，利用LLMs的能力。Seed-ASR具有五大特点：

Seed-ASR 具有高识别率、大模型容量、多语言支持、上下文感知和分阶段训练五大特点。通过2000万小时语音和90万小时ASR数据训练，Seed-ASR（CN）和Seed-ASR（ML）在多个数据集上表现优异。其采用了包含20亿参数的音频编码器和数百亿参数的MoE大语言模型，支持普通话、13种方言以及多种语言，并计划扩展至40多种语言。通过整合包括历史对话、视频编辑历史和会议参与详细信息，来捕获与语音内容相关的重要指标。这种集成大大提高了各种场景中ASR评估集中的关键词召回率。【关键字召回率可以定义为 ASR 系统成功识别出的关键字的数量占所有实际出现的关键字数量的比例】，增强了多场景下的表现。Seed-ASR的开发经历了一个简单而有效的训练方案：音频编码器的自监督学习（SSL） → 监督微调（SFT） → 上下文SFT → 强化学习（RL）。每个阶段都有不同的作用，确保Seed-ASR的性能逐步提高。

数据集测评：

我们建立了一个高质量评估集的系列，包括广泛的语音输入，作为不同的主题，口音/方言，语言和语音持续时间。这些集合还包括一个ASR系统在不同应用场景下的定制能力评估（例如，对话场景下的关键词识别准确性和一致性）。在Seed-ASR设计中，我们选择了大规模训练的路径，利用了大模型容量和扩展训练数据以增强泛化性。我们考虑到提供给 AcLLM 框架的上下文，通过训练模型以来详细说明其定制化能力，从而形成一个适用于不同场景的统一且紧凑的模型结构。在我们的多维评估集上，与经典的端到端模型相比，Seed-ASR展示了更全面、更强大的模型能力。Seed-ASR的性能优势在公共测试集和我们的主观理解评估中得到了进一步证明。

Motivation

ASR模型的升级可以从LLM的技术进步中得到启发，主要可以归结为三个方面：

·统一模型框架。LLM采用基于下一个令牌预测的仅解码器框架。它对输入输出文本进行排序，依靠自注意机制建立序列中标记之间的依赖关系，从而统一文本理解和文本生成;

·缩放定律的力量。大规模模型参数为LLM提供了从不同数据源学习知识的关键能力。例如，从GPT-2 到GPT-3 ，参数数量从15亿增加到1750亿，使GPT-3表现出更好的泛化和涌现能力。

·全面的训练pipline，ChatGPT经历三个阶段：预训练，监督微调（SFT）和带有人类反馈的强化学习（RLHF）。在预训练阶段，LLM是在大量的文本数据上训练的，这使得它存储了大量的知识。在SFT阶段，LLM进一步针对更高质量的面向任务的数据进行微调，增强其根据上下文进行推理和理解任务指令的能力。最后，在RLHF阶段，训练目标转变为在强化学习的帮助下使LLM的行为与人类偏好保持一致;

由于ASR的任务是将语音转换为文本，因此其文本生成过程与LLMs一致。存储在LLMs中的广泛的文本知识和上下文推理能力使它们成为向ASR提供语义指导的潜在成分。剩下的核心挑战是如何使LLMs更好地“理解”语音，这是一种不同于文本的模态。

方法

Framework and Training Recipe

基于上述动机，我们提出了Seed-ASR，一个大规模的语音识别模型建立在音频条件LLM（AcLLM）的框架。通过将编码的连续语音表示与任务指令和相关上下文一起输入到预先训练的LLM中，Seed-ASR可以利用LLM的丰富文本知识和推理能力来生成语音的相应文本转录。总体框架如图2所示。

音频是与文本不同的模态。为了使LLMs更好地理解不同的语音输入，我们在LLMs中采用了大规模预训练的概念。具体来说，我们构建了一个具有近20亿个参数的音频编码器，并对数千万小时的数据进行了自监督学习（SSL）。预训练的音频编码器获得了强大的语音表示能力，这有助于在监督微调（SFT）期间快速收敛。在大规模SSL阶段之后，我们在AcLLM框架内实现了一个简单有效的阶段式训练方法（如图3所示）。在SFT阶段，我们通过对大量的语音-文本对进行训练，建立语音和文本之间的映射关系。在上下文SFT阶段，我们使用相对少量的上下文-语音-文本三元组来引出LLM从上下文中捕获语音相关线索的能力。这些三重数据可以根据具体场景进行定制。在强化学习阶段，我们应用MWER的训练标准_{[传统Attention-based Sequence-to-Sequence model使用cross-entropy作为损失函数，不是直接对WER指标进行优化，而真正的目标是直接或间接地最小化WER => MWER Training]}和一些改进来进一步加强我们模型的能力。在下面的小节中，我们将更详细地介绍这些方法。

语音编码器的自监督预训练

大规模SSL使音频编码器能够从语音中捕获丰富的信息。受基于BERT的语音SSL框架的启发，我们开发了我们的音频编码器，这是一种conformer-based的模型[_{Conformer 是 Google 在 2020 年提出的语音识别模型，主要结合了 CNN 和 Transformer 的优点，其中 CNN 能高效获取局部特征，而 Transformer 在提取长序列依赖的时候更有效。 Conformer 则是将卷积应用于 Transformer 的 Encoder 层，用卷积加强Transformer 在 ASR 领域的效果。}]，可以捕获存储在音频信号中的全局和局部结构。在这项工作中，我们主要关注语音信号。由于它是在大规模无监督数据上训练的，因此我们将训练后的音频编码器称为LUISE，它代表L大规模无监督迭代SpeechEncoder。

LUISE秉承BERT的概念，采用掩蔽语言预测的学习范式。训练过程如图4所示。具体地，首先将从波形提取的梅尔滤波器组特征的序列输入到 tokenizer模块以获得每个帧的离散标签。然后，使用交叉熵准则进行LUISE的训练，仅针对被掩蔽的帧计算损失函数。训练后，softmax层被移除，LUISE的编码器部分用于后续的监督微调。

我们利用一个迭代的固定 tokenizer的方法来获得相应的离散标签的每一帧。在第一次迭代中，我们应用随机projection层将语音特征投影到随机初始化的码本中，并通过找到码本中最近的向量将它们映射到离散标签。在第二次迭代中，我们对先前训练的编码器的中间层的表示执行K均值聚类以获得新的码本。然后通过在新码本中找到与来自相同中间层的表示最接近的向量来获得离散标签。在中间层的选择过程中，我们冻结了第一次迭代中训练的编码器参数，并为每个中间层添加了映射层和连接主义时间分类（CTC）损失，以进行监督微调。图5显示了通过对每个中间层的表示进行监督微调获得的字错误率（WER）。对于具有20亿个参数的LUISE，第25层（32层中）的输出展示了最佳的语义表示，并用于在后续迭代中生成离散标签。

有监督微调SFT

经过对大规模纯语音数据的训练，LUISE已经开发出强大的语音表示能力。它以40ms/帧速率输出包含丰富语音和语义信息的连续表示。为了使AcLLM更好地理解语音中相应的文本内容，我们需要将编码表示的语义信息映射到LLM的语义空间中。LLM为了实现这一点，我们使用以下两种方法：

在模型结构中，我们引入了一个转换器模块来连接我们的音频编码器（LUISE）和LLM（如图2所示）。转换器包括下采样模块和线性投影层。我们发现不同的下采样方法同样有效，因此我们使用最简洁的方法：帧拼接。具体来说，我们在特征维度上拼接4个连续的语音表示帧，然后输入到线性层中。因此，输入到LLM中的语音表示帧率为160毫秒；
在训练方法上，我们采用“可学习音频编码器+可学习转换器+固定LLM“的策略，在保持LLM参数不变的情况下，最大限度地保留了LLM丰富的语义知识和推理能力。可学习的音频编码器和转换器参数确保语音表示中包含的语义信息与LLM的语义空间对齐。LLM在训练过程中，使用交叉熵损失函数，只有生成转录文本的标记位置参与交叉熵计算;

上下文SFT

在大规模语音-文本对数据上进行训练后，我们的SFT模型在覆盖多个领域的测试集上表现出色。然而，SFT模型的训练方式决定了它缺乏在给定上下文信息（上下文）的情况下识别模糊语音内容的能力。这些问题在涉及口音（语音歧义）和同音异义词或稀有词（语义歧义）的情况下更加明显。因此，我们引入了上下文感知训练和联合波束搜索的方法，以增强模型有效利用上下文的能力（图6中给出了一个示例）。

上下文感知训练：首先，我们使用我们的内部大型语言模型来生成与语音转录相关的上下文。在我们的实验中，它比使用长段语音中的开头和结尾的转录文本作为上下文表现得更好。使用生成的自然语言上下文还可以提供更完整的语义，从而除了从上下文复制相关转录内容之外还能够学习推理。然后，我们构建了一个<context，speech，text>三元组的数据集，并将其与一定比例的一般ASR数据（语音-文本对数据）混合用于上下文感知训练。如图2所示，在上下文感知训练期间，我们将上下文和语音表示输入到LLM中。LLM这种训练的目标是增强模型从上下文中捕获语音内容相关线索的能力。

联合波束搜索：我们发现，直接使用本地波束搜索存在严重的幻觉问题。为了解决这个问题，我们提出了一种联合波束搜索的解码策略来缓解这个问题。具体地，我们使用联合波束搜索来找到最佳得分 Pjoint⁢(𝒚|𝒙,𝒄) ，其中 𝒚 表示预测的假设， 𝒙 是语音信息，并且 𝒄 是给定的上下文信息。超参数 α 用于在解码期间平衡语音信息和上下文信息的重要性：

同时，我们引入了一种修剪策略，首先使用上下文无关的得分 P⁢(𝒚|𝒙) 过滤出声学上不可信的候选令牌，然后对剩余的候选令牌应用联合波束搜索。修剪策略在缓解幻觉中起着重要作用。

强化学习

由于SFT和上下文SFT阶段中的训练基于交叉熵目标函数，因此与推断期间使用的评估度量（例如WER）不匹配。随着强化学习（RL）的发展，它可以在序列建模任务中学习相对最优的决策策略。因此，我们通过构建基于ASR度量的奖励函数来引入RL阶段。

单词错误率（WER）通常被认为是评估ASR模型性能的核心指标，但句子中的某些内容（例如关键字）在理解整个句子中起着更关键的作用。因此，我们还引入加权WER（WWER）作为额外的奖励函数，强调关键字错误的重要性。具体来说，我们应用最小字错误率（MWER）作为另一个训练目标，在我们的RL阶段中使用交叉熵目标 ℒCE 进行插值：

    在传统的 MLE 训练中，损失函数通常是基于每个时间步的交叉熵损失。这意味着模型优化的目标是每个时间步的预测概率分布，这可能导致最终的序列输出与实际参考输出在词级别上不匹配。MWER 训练则直接优化序列的 WER，这是更接近于最终应用的评价标准，尤其是在语音识别和自然语言处理任务中。

MWER 训练的实现方法:
候选序列生成：在 MWER 训练过程中，模型会先使用其当前参数生成多个候选的输出序列（通常使用采样或束搜索策略）。这些候选序列代表了模型对给定输入的不同潜在输出。

损失计算：计算每个候选序列的词错误率（WER），然后通过比较这些候选序列与参考序列之间的WER来评估损失。具体来说，损失函数会惩罚那些与参考序列WER较高的候选序列，同时奖励那些WER较低的候选序列。

最小化损失：使用反向传播算法更新模型参数，以最小化平均 WER 损失。由于损失函数直接反映了序列级别的错误率，这种方法能够更有效地训练模型来生成更准确的输出。

为了提高强化学习的训练效率，我们部署了一个远程服务来生成假设，并在更新当前服务器上的模型参数的同时计算MWER损失。在强化学习训练过程中：1）我们使用前一阶段训练的上下文SFT模型初始化模型参数; 2）我们利用高质量的数据进行强化学习训练，数据规模为数千小时。3)为了保持初始化模型的上下文感知能力，我们的训练数据还包括一定比例的上下文、语音、文本三元组。在完成RL训练之后，我们获得了我们的Seed-ASR模型。

表1：RL阶段的消融研究。作为奖励函数的加权WER在所有三个评估集上显示出比WER更好的性能（这些集的详细信息在第4.1节中介绍）。在强化学习阶段使用的上下文、语音、文本三元组的训练数据保证了上下文感知能力的不下降。Seed-ASR使用最后一行中的策略。WER或加权WER的度量计算中文、日文和韩文的字符错误，以及英文和其他语言的单词错误。

Observations

在改进Seed-ASR性能的过程中，我们也得到了一些观察：

Scaling Law

在LLM领域，可以观察到，较大的模型可以通过在更多数据上进行训练来不断降低损失值。据我们所知，在基于LLM的框架下，没有关于音频编码器的缩放律的相关研究。在SSL阶段，我们进行实验，以探讨不同的模型大小的LUISE的性能。具体来说，我们选择了五组型号尺寸：75 M、0.2B、0.6B、2B和5B。训练数据包括770万小时的无监督语音数据，覆盖多个领域，确保模型容量的充分利用。不同大小的模型在大多数训练配置中保持一致性，只是随着模型大小的增加，我们会按比例扩大模型的宽度和深度，适当增加批量大小和权重衰减，并降低学习率。

图7：（a）描绘了我们的音频编码器（LUISE）的预训练损失与模型参数大小的以2为底的对数之间的相关性。(b)描述了SFT之后的贪婪WER与模型参数大小的以2为底的对数之间的相关性。(c)描述了SFT之后的贪婪WER与LUISE的预训练损失之间的相关性。

我们首先关注验证集上的交叉熵预训练损失值与模型大小之间的相关性。如图7所示，我们观察到两者之间几乎呈线性相关。此外，我们比较了基于训练的LUISE的小规模SFT数据训练后的性能。使用贪婪搜索进行推理。如图7所示，多域评估集上的WER度量也与LUISE的模型大小呈现出近乎线性的相关性。此外，这揭示了SFT之后测试集上的WER度量与图7中SSL阶段中的损失函数值之间的正相关性。这些关于缩放律的发现为我们的编码器选择（考虑性能和效率的平衡）和后续优化提供了指导。

Long-form Ability

我们的Seed-ASR是在AcLLM的框架下建模的，它自然地利用LLM的语义知识和长上下文建模能力。因此，我们还探索了直接将整个长格式语音输入LLM进行识别的选项。该方法有效地避免了与对多个独立推断的长形式语音进行分割相关联的两个问题：1）分割过程可能导致边界处的信息丢失，从而降低识别准确性; 2）分割过程破坏了长形式语音中的强全局上下文信息，从而影响识别的准确性和一致性。

具体来说，我们构建了一系列长格式视频测试集，包括来自不同来源的5个数据集。在训练过程中，整个长格式数据被输入到模型中，而没有任何分割处理。测试集的持续时间分布与训练集的持续时间分布相当。如表2所示，使用长形式数据进行训练和测试，与短形式训练相比，相对WER降低了近8.8%，短形式训练采用域自适应VAD将长形式语音分割成几个部分进行训练和测试。长格式视频测试集的最大持续时间为5分钟，并具有显著长度延长的调度器。

模型与评价

目前，我们专注于在多样化场景下全面提升中文和多语种（不含中文）语音识别性能。因此，我们提出了两个具有相同模型结构和训练配方的Seed-ASR模型：汉语多方言模型，称为Seed-ASR（CN），和多语言模型，称为Seed-ASR（ML）。虽然我们也有同时支持中文和多语言的模型，但本报告将特别详细介绍两种分别专注于中文和多语言（不包括中文）的Seed-ASR模型。

Seed-ASR（CN）不仅可以用单个模型对普通话和13种汉语方言进行转录，而且在多领域、多方言、多口音和公共集等多维评估集上，与其他已发布的大型模型相比，性能有了显著的提高。此外，在上下文SFT阶段的训练赋予种子ASR（CN）有效的上下文感知能力，如在对话上下文评估集上所示。同样，Seed-ASR（ML）在8种多语言公共集（包括英语）和多领域评估集上取得了与其他已发布模型相比具有竞争力的结果，并且正在扩展到40多种语言。在下面的部分中，字错误率（WER）的度量被用作主要的客观度量。除非另有说明，否则WER的度量计算中文、日语、韩语的字符错误，并计算英语和其他语言的单词错误。

Seed-ASR (CN)

Seed-ASR（CN）遵循图3所示的完整训练管道。在SSL阶段，我们使用了具有近2B参数的LUISE编码器，并对来自各个领域的近800万小时的普通话和汉语方言语音数据进行了训练。在SFT阶段，我们使用经过训练的LUISE和具有超过百亿个参数的LLM进行模型初始化。训练数据包括包含多个域的普通话数据和方言数据的混合。SSL和SFT阶段的详细数据分布见附录A.3。在上下文SFT阶段，我们使用一定比例的SFT阶段数据与一些上下文、语音、文本三元数据混合进行训练。在RL阶段，我们使用训练好的上下文SFT模型进行初始化，并构建高质量的训练数据进行训练。在这个全面的训练过程之后，我们获得了Seed-ASR（CN）

为了全面评估Seed-ASR（CN）模型的ASR能力，我们在公开数据集上将其与其他已发布的模型进行了比较，并构建了一系列评估集，包括多领域集、多源视频集、硬案例集、多方言集、多口音集、上下文感知集和主观可懂度评估。

最后的结果是上述6个测试集的WER（中文字符）的平均值。我们用于比较的基线包括Paraformer-Large、Qwen-Audio和最近发布的基于LLM的ASR模型，其结构为Hubert+ Baichuan 2。他们的研究结果来自他们各自的论文。如表3所示。Seed-ASR（CN）表现出比其他模型更显著的性能优势，在这些公共数据集上获得了最先进的结果。对于6套的平均WER，Seed-ASR（CN）比其他已发布模型实现了超过24%-40%的WER降低。

对多域多源视频集的评估:

我们还对多领域评估集进行了全面的性能比较，该评估集包含来自视频，直播，语音搜索，会议，智能助手等各种场景的高质量评估数据，并将多领域集合中总共7个集合的加权平均WER作为最终指标。我们选择基于传感器的端到端模型[20]，其具有MoE编码器和超过300 M的参数作为基线之一。此外，我们还在多域评估集上运行Paraformer-large（离线解码）的结果作为另一个基线。从表4中的结果来看，Seed-ASR（CN）显示出显著的性能优势，与我们强大的端到端模型相比，WER指标相对降低了47%以上。在覆盖7个不同子集的视频评估集上，Seed-ASR（CN）也获得了相当大的性能改善。这些结果证明了Seed-ASR（CN）强大的基础能力。

此外，我们通过引入10个硬案例测试集来评估高级ASR能力，这些测试集覆盖了包括书名、汽车名称、成语、药品名称、电影名称、古诗、产品名称、音乐名称等在内的话语。这些测试集旨在评估模型识别包含专有名词的语音内容的能力，这些专有名词具有很强的专业性和领域特异性，反映了ASR模型的知识储备和识别准确率。硬案例集的评估指标是每个句子中给定关键字的F1分数。如表4所示，与端到端模型基线相比，Seed-ASR（CN）模型实现了F1值3. 3%的绝对增长，证明了AcLLM模型框架在利用LLM常识知识和语义推理能力方面的有效性。

多方言集和多口音集的评估:

由于我们的Seed-ASR（CN）模型支持普通话和13种汉语方言的识别，我们还引入了方言评估集。这套共包括13种方言（广东话、西南话、吴语、吉鲁话、中原话、闽语等）。并使用汉字的相同或相似发音对文本进行人工标注。我们的方言评估集的具体演示可在我们的网站²上获得。我们使用WER作为这个方言评估集的客观度量。

我们使用微调的Whisper Medium-v2，769 M参数作为我们的基线。为了进行公平的比较，我们使用相同的方言训练集训练Whisper Medium-v2和Seed-ASR（CN）。Seed-ASR（CN）需要在保持普通话综合能力的同时提高方言上的ASR性能，因此它使用来自多个领域的更大比例的普通话数据进行训练。相比之下，Whisper Medium-v2在多域集等综合评估集上显示出较差的结果。尽管如此，具有更大建模能力的Seed-ASR（CN）模型在13种方言集上仍然显示出优于基线的性能优势，13种方言的平均WER从21.68下降到19.2（相对WER降低11.4%），并且在单个方言测试集上相对WER降低超过21%。

为了进一步验证Seed-ASR（CN）对不同语音的识别性能，我们引入了一系列口音评估集，包括来自安徽、福建、甘肃、广东、贵州、湖南、江西、辽宁、陕西、山西和云南的11个中国口音。具体的口音语音样本也可在我们的网站².如表6所示，与从头开始训练的强E2 E模型相比，Seed-ASR（CN）在口音测试集上表现出显着的改进。我们还通过在训练过程中移除重音SFT数据来进行消融研究，但Seed-ASR（CN）仍然在重音集上实现了强大的性能。在多方言、多口音评价集上的实验结果表明，该算法对不同地区的汉语语音识别具有较强的鲁棒性。

对对话上下文集的评估:

在语境感知的评估中，我们构建了一个高质量的对话语境集，其中对话历史被用作语境信息。如图8所示，我们提供了两个对话示例。每个测试用例包括对应的对话历史文本和当前识别的语音内容。我们将对话语境评估分为严格和宽松两个子集。严格子集包含对历史对话有很强依赖性的样本，以准确识别语音内容，例如人名。松散子集的历史对话和演讲内容之间的依赖性较弱，如专有名词。我们使用关键字召回作为评估指标。

总结:

在包括SFT → context SFT → RL的逐步训练配方之后，我们的Seed-ASR（CN）模型产生了。在上述综合评估集上，我们观察到我们的Seed-ASR（CN）模型的某些能力在不同的训练阶段得到了增强。在这里，我们对每个阶段的效果进行了详细的消融研究，结果如表9所示。首先，RL阶段的引入带来了对大多数评估集的改进，例如多域，多源视频，多方言，硬案例和代码切换。重音测试集中的轻微降级可能是由于训练数据比率。此外，上下文SFT阶段的训练对大多数测试集产生了积极的影响，特别是在上下文严格测试集上的召回度量方面带来了显着的改善。这进一步证明了我们的上下文感知训练和解码策略在上下文SFT阶段的有效性。

Seed-ASR (ML)

如上所述，Seed-ASR（CN）在识别普通话和汉语方言方面表现出很强的性能。为了将这些优势扩展到其他国家用户使用的语言，我们还将Seed-ASR方法应用于多语言场景，从而形成了我们的多语言模型：Seed-ASR（ML）。Seed-ASR（ML）的训练与Seed-ASR（CN）的主要区别在于训练数据。Seed-ASR（CN）专注于普通话和中国方言，而Seed-ASR（ML）则是在各种多语言数据集上进行训练的。在SSL阶段，Seed-ASR（ML）的音频编码器也使用了具有2B参数的LUISE，并使用来自多域源的数千万小时无监督多语言数据进行训练。在随后的阶段中，我们从我们的多语言ASR训练集中选择训练数据，这些训练数据总计数十万小时，涵盖9种语言：英语，中文，阿拉伯语，西班牙语，法语，印度尼西亚语，日语，韩语和葡萄牙语。 SSL和SFT阶段的详细数据分布见附录A.3。我们对多个评估集和公共数据集进行性能比较。

Evaluation on Multi-domain and Multi-accent Sets:

在多域评估集上，覆盖的域与第4.1.2节中介绍的种子ASR（CN）上的多域评估集相同。硬盒测试集涵盖了医疗健康、食品和饮料、体育、技术、服装、游戏、娱乐和美容等领域。我们还建立了对不同口音的英语的评估，包括来自英国，美国，澳大利亚，加拿大，中国，印度，新加坡，新西兰和南非的发言者。对于多语言评估，我们报告了7种非英语语言的平均WER性能：阿拉伯语（AR），西班牙语（ES），法语（FR），印度尼西亚语（ID），日语（JA），韩语（KO）和葡萄牙语（PT）。如表10所示，用于比较的基线包括Google USM [50]（API call ³）、Whisper Large v3 [39]（离线解码）和Universal-1 [41]（API调用⁴）。由于Universal-1在我们的多语言多域评估集中仅支持3种语言，因此其相应结果未包含在此处。我们将这些模型在多语言多域评估集上的语言性能比较附在附录A.1中。从表10中的结果来看，与最强的基线相比，Seed-ASR（ML）在英语和多语言多领域评估集上分别表现出相对超过42%和40%。在英语多重音和硬格评估集上也观察到类似的显着改进。

除了内部多域评估集之外，我们还将Seed-ASR（ML）与英语和其他语言的公共测试集上的其他模型进行了比较，包括Librispeech[36] test clean/other，MLS[38]，Tedo 3[24]，Callhome，Switchboard[19]，AMI[30]和Fleurs[13]。测试集的详细信息见附录A.2。结果如表11所示。请注意，基线模型的所有结果都是由基线模型的相应论文或技术报告的WER（Whisper Large-v3结果来自Universal-1的技术报告[41]）。如表11所示，Seed-ASR（ML）在不同语言的大多数测试集上都实现了最佳性能，提高了10%到40%，这表明Seed-ASR（ML）对训练期间看不到的领域具有泛化能力。

与Seed-ASR（CN）类似，Seed-ASR（ML）在广泛的评估集上表现出与多个强基线相比的卓越性能。该模型在识别具有不同声学环境、语义上下文和多种语言口音的语音方面表现出色，强调了该模型的泛化能力及其在训练过程中处理来自各种看不见的领域的语音的有效性。总体而言，上述中文和多语言环境下的评估集的结果证明了Seed-ASR在涵盖多语言，多方言，多口音，多领域和多定制需求的多种应用场景中的泛化能力和强大的基础能力。

总结

通过包括SFT、上下文SFT和RL在内的逐阶段训练的Seed-ASR模型，与最近发布的强大端到端模型相比，在不同声学和语义领域、口音/方言/语言和长距离语音持续时间的各种评估集上展示了上级能力。大规模的LUISE预训练和连接LUISE和LLMSFT赋予Seed-ASR理解不同语音内容的能力。上下文SFT阶段的引入显著提高了模型对相关上下文的关键词的召回率，展示了模型在利用LLMs的上下文感知能力方面的强大定制能力。RL阶段进一步巩固了Seed-ASR的文本生成行为与准确转录的要求之间的一致性，特别是语义重要部分的转录。总体而言，结果肯定了Seed-ASR作为涉及多种语言，方言，口音，域和定制需求的各种应用程序的最佳ASR模型的地位。未来，我们将专注于扩展Seed-ASR在单个模型中处理多个任务的能力，进一步增强长格式能力并增加支持的语言数量。

关于数据集：

paraformer-工业级非自回归端到端语音识别模型

论文地址：https://arxiv.org/abs/2206.08317

代码：https://github.com/modelscope/FunASR/

摘要：

Transformers在 ASR 领域占据主导地位。虽然能够产生良好的性能，但它们使用自回归（AR）解码器来逐一生成令牌，这在计算效率上是低效的。为了加快推理速度，可以使用非自回归 (NAR) 方法，例如单步 NAR 的设计是为了实现并行生成。然而，由于输出标签之间的独立性假设，单步 NAR 的性能不如 AR 模型，尤其是在大规模语料库的情况下。改进single-step NAR 面临两个挑战：首先是准确预测输出 token 的数量并提取隐藏变量；其次，增强输出标签之间相互依赖性的建模。为了应对这两个挑战，我们提出了一种快速且准确的并行Transformer，称为 Paraformer。该模型属于单步非自回归模型。这利用基于连续积分和激发的预测器来预测令牌的数量并生成隐藏变量。然后，扫视语言模型（GLM）采样器生成语义嵌入，以增强 NAR 解码器对上下文相互依赖进行建模的能力。最后，我们设计了一种策略来生成负样本以进行最小错误率训练，以进一步提高性能。使用公共 AISHELL-1、AISHELL-2 基准和工业级 20,000 小时任务的实验表明，所提出的 Paraformer 可以达到与最先进的 AR Transformer相当的性能，并且加速超过 10 倍。

1. Paraformer使用基于CIF的predictor预测输出标签的个数并产生隐变量；【文献18】

2. GLM sampler用于产生语义向量增强非自回归模型对上下文的建模能力；【文献19】

3. 最后作者设计了一个策略产生负例，并用MWER损失训练使模型的识别能力进一步提升。【文献20】

介绍：

过去几年，端到端（E2E）模型在自动语音识别（ASR）任务上的性能已经超越了传统层级系统。存在三种流行的 E2E 方法：连接主义时间分类 (CTC)、循环神经网络转换器 (RNN-T) 和基于注意力的编码器-解码器 (AED) 。其中，AED 模型由于其卓越的识别精度而在 ASR 的 seq2seq 建模中占据主导地位。例如 Transformer 和 Conformer。虽然性能良好，但此类 AED 模型内的自回归 (AR) 解码器需要一一生成令牌，因为每个令牌都以所有先前的令牌为条件。因此，解码器的计算效率低下，并且解码时间随着输出序列长度线性增加。为了提高效率并加速推理，有人提出使用非自回归（NAR）模型并行生成输出序列。

基于推理时需要的迭代次数，NAR 模型可以分为迭代模型或单步模型。在前者中，A-FMLM 是单步自回归模型的最早尝试，旨在通过不断迭代来预测以未屏蔽标记为条件的屏蔽标记。由于需要预先定义目标令牌长度，性能受到影响。为了解决这个问题，Mask-CTC 和变体提出通过 CTC 解码来增强解码器输入。即便如此，这些迭代 NAR 模型需要多次迭代才能获得有竞争力的结果，限制了实践中的推理速度。最近，提出了几种单步 NAR 模型来克服这一限制。它们通过消除时间依赖性同时生成输出序列。虽然单步 NAR 模型可以显着提高推理速度，但其识别精度明显不如 AR 模型，尤其是在大规模语料库上评估时。

前面提到的单步非自回归模型主要关注如何预测输出标签的个数和准确提取隐变量。和机器翻译通过predictor预测输出标签个数相比，ASR预测输出标签个数确实比较难，因为有很多的潜在影响因素，比如说话人的语速、静音、噪音。另一方面，经过作者的观察和分析，单步非自回归模型相比自回归模型具有更多的替换错误，如下图1。作者认为缺少上下文依赖信息导致预测标签个数准确率差不多，但替换错误上升明显(AR和vanilla NAR比较)，尤其是单步自回归模型的条件独立假设。另外，所有的非自回归模型都是在学术基准阅读音频上实验的，并没有验证这些模型在工业基准数据上的效果。这篇论文的目标是提升单步非自回归模型的识别效果，使其达到和自回归模型相同的水准，并在大规模工业级数据上验证。

文章提出了一个又快又准的并行transformer模型，可以克服上面提到的两个挑战。首先，不像前面的基于CTC的工作，作者提出了使用基于CIF【continuous integrate-and-fire】的predictor网络评估目标长度并产生隐变量。对于第二个挑战，作者设计了基于GLM【glancing language mode】的sampler模块增强非自回归解码器对输出上下文的建模能力。这个工作受到了机器翻译工作的启发。作者另外设计了一个包含负例的策略，利用MWER损失指导模型学习提升模型性能。

Paraformer是第一个在性能上可以和自回归模型媲美，并且在大规模数据集上相比自回归模型有10倍+的推理速度提升。

方法

整体框架

如上图所示，整个框架包含五个模块：encoder、 predictor、sampler、decoder、loss function。其中Encoder和自回归模型的Encoder一样，本文使用SAN-M【multihead-attention的部分换成了san-M】和FFN，也可以使用conformer等结构。Predictor用于生成声学特征指导解码。Sampler模块使用声学特征和标签特征生成语义特征【用于学习输入的上下文内容语义信息，增强非自回归解码器对输出上下文的建模能力】。Decoder和自回归解码器相同，只不过这里是双向解码器[类似bert]。解码器包含多个SAN-M、FNN和cross MHA模块。除了CE loss，还会使用MAE loss训练predictor，MWER损失也一起参与模型训练。

整个流程阐述：
输入音频为X，长度为T；音频对应的文本标签为Y，长度为N。Encoder的输入为X，输出为H。Predictor的输入为H，输出为预测的输出标签长度N’并生成声学向量E_a。第一轮解码Decoder的输入为H和E_a，输出为Y’。图中红色虚线Pass1标记部分表示输入E_a，但是并不对这个输入进行反向传播学习。第二轮解码前会首先经过Sampler模块。Sampler模块在声学向量E_a和输出标签向量E_c之间进行采样得到语义向量E_s。其中Char指的是标签Y。采样过程依赖Y和Y’之间的距离。第二轮解码Decoder的输入为H和E_s，输出为Y’‘，这次进行反向传播学习。此次反向传播学习指导decoder学习上下文语音信息，同时也会指导predictor和encoder的学习。Sampler使用Y’进行距离计算不会进行反向传播学习。最后输出的Y’’会被采样为MWER训练生成负例候选。使用N和N’计算MAE。MWER、MAE和CE loss一起作为loss进行训练。
推理时，sampler模块是不激活的，并且双向并行解码器只使用声学向量E_a和隐向量H通过一轮输出最终的预测结果。尽管decoder在每次训练时会前向推理两次，但是因为在推理时只进行了一次所以并不会使计算复杂度变大。

Encoder：

SAN‑M（Memory Equipped Self‑Attention）是一种将自注意力（Self-Attention）与 DFSMN 记忆模块融合的结构，最初用于 增强 Transformer 的上下文捕捉能力，尤其在 ASR 任务中表现出色。它通过在每个 Transformer 注意力块中嵌入 FSMN 类型的 记忆增强路径，来充分结合 Transformer 的远程依赖和 FSMN 的局部惯性记忆优势。

DFSMN 通过引入跳跃连接和记忆步长改进了 FSMN 架构。它由三部分组成：一个线性投影、一个记忆单元以及一个从记忆单元到下一个隐藏子层的权重连接。DFSMN 的关键元素是可学习的类 FIR 记忆块，它们用于将长上下文信息编码为固定大小的表示。因此，DFSMN 能够在不使用循环反馈的情况下对序列数据中的长期依赖关系进行建模。第l-th 记忆块中的操作采用以下形式：

这里， 𝐌^ℓ 是记忆块。 𝐡t^ℓ 和 𝐩t^ℓ分别表示 ReLU 层和线性投影层的输出。 𝐦t^ℓ 表示第 ℓ 个记忆块的输出。 N1^ℓ 和 N2^ℓ分别表示第 ℓ 个记忆块的回顾和前瞻顺序，而 s1 和 s2 是它们各自的步幅因子。

其中 𝐘 表示 SAN-M 的输出。单向 SAN-M 意味着自注意力和 DFSMN 记忆块本身都是单向的。

DFSMN 记忆块和自注意力的输出都是通过对特征向量加权然后求和来计算的。重要的区别在于如何得出权重。对于 DFSMN 记忆模块而言，权重是上下文无关（CI）系数，我们可以将其视为学习整个数据集的统计平均分布。虽然单层的感受野较小，但仍然可以通过堆叠多层来建模长距离依赖关系。

(a) 自注意力机制能够学习全序列内的长程依赖关系，但学习到的特征并不一定总是长期依赖的，尤其是在编码器中。(b) DFSMN 记忆模块倾向于学习局部依赖关系。同时，它们的计算效率更高，也比自注意力机制更灵活。(c) 自注意力机制学习的是专注于单个特征的长期上下文依赖关系，而 DFSMN 记忆模块则从整个数据集的统计平均分布中学习局部项依赖关系，这意味着它们在实践中可能更具鲁棒性。

Predictor

Predictor由两个卷积层组成，输出的float weight α 在0～1之间。作者通过累计此权重预测输出标签的长度。MAEloss定义为：

其实就是将所有α 进行了累加，加起来的长度就是预测的长度。LOSS就是真实长度和预测长度差的绝对值。作者引入了CIF机制产生声学向量。CIF是一个软的(非0/1，可以是小数)和单一对齐的，在AED模型中作为流式解决方案的实现。声学向量的生成时，CIF对权重α 进行累计，如果超过了设定的阈值β ，说明某一个声学向量的边界确定了。对边界之内的向量H根据权重α 进行缩放累计即可得到某一个声学向量。此过程重复直到结尾，可得到所有的声学向量。如下图所示：

在训练时权重α会根据N进行缩放(比如累计的α为N’，使用N/N’对所有的α 进行缩放，使用缩放后的α计算声学向量E_a。缩放是为了让的E_a维度和E_c的维度保持一致)，但是在推理时无法进行缩放，导致训练和推理之间存在不一致。为了弥补这个不一致，作者提出了使用动态阈值β而不是固定阈值。计算公式如下：

下面是一个向上取整，所以分子小于等于分母，阈值β < = 1 。

Sampler 【参考字节Glancing Transformer】

非自回归模型的另一个核心问题是如何增强模型对上下文建模能力，现有的通用的单轮自回归模型 (vanilla-NAR) 为了高效计算效率，模型中 decoder 去除了显式的 Dependency 建模，从而在处理同音替换错误的能力会弱很多。GLM目的就是更好的学习输出序列的上下文语义关系，利用上下文进行当前的文本预测， 学习输出标签之间的依赖关系。

在普通的单步非自回归模型中，优化的目标为：

然而，正如上面所说的，单步非自回归模型中的输出标签独立性假设导致模型识别效果不如自回归模型。GLM模块的loss定义如下：

其中GLM(Y,Y′)表示Sampler模块在Ea和Ec中选中Ec替换Ea对应的Y′′中token的集合；GLMˉ(Y,Y′)表示Sampler模块在Ea和Ec中未选中Ec替换Ea对应的Y′′的token的集合；GLM(Y,Y′)的定义如下：

上面公式的含义是从Ec中采样⌈αd(Y,Y′)⌉个向量替换对应位置的Ea，生成新的向量为Es。其中α是控制采样率的采样因子，越大表示使用Ec替换Ea的概率越大。该采样概率应该在最初模型效果不好时设置的稍微大一些，然后随着整个的训练过程的进行逐渐减小。为了达到这个目的，作者简单实用汉明距离，其定义为：

也就是，最开始的时候模型学习不好，d会比较大，当模型学习越来越好时，d也逐渐减小。表示最开始训练时，使用较多的Ec替换Ea，也就是上下文信息更多和准确，减小模型的学习难度；当模型学习的越来越好时，使用较少的标签信息迫使模型进一步学习。

总结，sampler模块结合了标注标签向量Ec，实现方法是随机替换Ea中⌈αd(Y,Y′)⌉个向量生成新的含有语义的向量Es。训练并行decoder使用语义上下文GLM(Y,Y′)预测目标标签GLMˉ(Y,Y′)，使模型学习输出标签之间的依赖关系。

补充Glancing Transformer 原理：

自回归模型中最为常用的训练方式是最大似然估计（MLE），不少非自回归模型也直接使用 MLE 进行训练。但是非自回归模型的输出方式是并行的，输出语句中的任何部分在输出之前都无法获得输出语句中其余词的确切值。所以直接使用 MLE 训练并行输出的非自回归模型无法有效地建模输出语句中词之间的依赖关系。值得注意的是，词之间依赖关系的建模对输出通顺的语句至关重要，拥有良好生成质量的自回归模型和多轮迭代解码的模型均对这种依赖关系进行了有效的建模。

直接训练完全并行生成来学习目标语句中词之间的依赖关系对模型并不友好。一种更为简单有效的依赖关系学习方式是根据部分输入词预测其余目标词。但是这种学习方式需要部分目标词作为输入，不符合非自回归模型并行生成的要求。作者观察到随着模型自身更好地学习到词之间的依赖关系，模型对于依赖关系的学习可以逐渐摆脱使用目标语句部分词作为输入的需求。基于以上观察，Glancing Transformer（GLAT）利用了一种 glancing language model 的方法，通过渐进学习的方式进行词之间依赖关系的建模。在渐进学习的过程中，模型会先学习并行输出一些较为简单的语句片段，然后逐渐学习整句话的单步并行生成。

具体地，在第一次解码的时候，和常规的非自回归模型一样，模型使用完全并行解码的方式输出语句。然后将第一次解码得到的输出和训练数据中的目标语句进行对比。如果输出和目标语句差距较大，说明模型在训练中难以拟合该训练样本，因此这时 GLAT 会选择提供更多目标词作为输入来帮助学习词之间依赖关系。反之，如果输出和目标语句比较接近，则模型自身已经较好地学习了如何并行生成该目标语句，所需要的目标词数量也相应减少。

在第二步解码之前，模型的解码器可以得到部分目标词作为输入，这些词的数量由第一步的解码结果所决定。这时，模型在并行输出之前可以获得部分目标词的确切值，所以在学习输出剩余目标词的过程中就可以对目标语句中词之间的依赖关系进行建模。

随着训练的进行，模型对数据拟合程度更高，因此能够更准确地生成目标语句。与此同时，需要作为解码器输入的目标语句中的词的数量会越来越少，在训练后期逐渐接近学习完全并行生成的训练场景（例如上图右边的例子）。具体的方法细节和实现方式可以参考论文。

Loss Function：

一共定义了三个loss：CE、MAE、MWER。训练时进行联合训练：

对于MWER，具体的计算公式如下：

非自回归模型使用贪婪搜索，所以只有一个输出路径。正如前面提到的，在使用MWER训练时作者使用负例采样策略通过随机遮蔽top1分值标签产生多个候选路径。

MWER代码实现：https://gist.github.com/TeaPoly/234429e6c2d74d10fcb4987bc541d528

在训练阶段，为克服贪婪推理带来的路径多样性不足，Paraformer 采用 Minimum Word Error Rate（MWER）训练，其中：

MWER 损失目标是最小化期望词错误率，需要多条候选路径参与比较；
但 NAR 模型贪婪解码只产生单条路径，这时就需要人为生成多条候选路径。

于是引入 “负例采样策略”（Negative Sampling）：

给定模型输出的 logit 序列，先得到首候选分布；
然后随机遮蔽（mask）每个位置上概率最高的 token（top1）；
遮蔽后重新预测该位置（随机或第二选 token），这样对每个采样得到一条新的路径；
重复 N 次，便可以生成多条“看似真实但含小变动”的候选路径。

实验

实验设置

在AISHELL-1、AISHELL-2以及工业级2wh数据集上验证上述方法的效果。其中工业级的测试集有两个：普通30h、远场15h。具体的工业级语料介绍可以参考文献21和28。RTF的测试在NVIDIA tesla V100上完成。

结果如上表格。在上述两个测试集上的测试都是在ESPNET框架上实现的，不包含LM和预训练模型。
AISHELL-1 的AR baseline参考文献15，效果在所有AR模型中是最好的（排除使用更多数据知识的模型）。因为作者当前的目标是通过模型结构提升模型效果而不是通过数据。普通的NAR和Paraformer的结构相同，但是没有Sampler。

结论：
1. 普通NAR的表现超过了其它的NAR工作，比如文献15和文献12
2. 普通NAR模型的表现比AR模型稍微差一些，因为缺乏了输出标签之间的上下文信息。
3. Paraformer通过使用基于GLM的Sampler模块对普通NAR模型增强，得到了和AR模型相近的识别表现。
4. Paraformer模型在dev和test测试上的CER分别为：4.6%和5.2%，推理速度比AR基线模型快12倍

工业级2wh数据集

结果如上表格所示，进行了多个扩展实验。动态β表示2.2节中的动态阈值，CTC表示带有LM的DFSMN-CTC-sMBR系统，参考文献32。RTF在OpenNMT上进行评估。
实验有两个模型，一个41M的一个63M的。AR基线模型中attention的维度为256，和文献21一致。这里的结论和前面有所不同。

结论

可以看到在大型数据集上，普通NAR模型和AR模型的识别效果差距很大(AISHELL上差别较小)。
普通NAR模型虽然和CTC都有输出标签独立假设限制，但是普通NAR模型效果优于CTC效果。
普通NAR模型结合GLM时，效果提升。
当进一步结合MWER训练方法时，效果进一步提升。
Paraformer模型效果和AR模型效果很接近，差别在相对2%以内，但是推理速度提升10倍+。
Paraformer结合动态β \betaβ，效果进一步提升。因为相比固定阈值，动态阈值减少了推理和训练的不一致，更准确地提取了声学向量信息。
将模型变大时，得到了和前面相似的结论。Paraformer相比普通NAR模型效果提升；和AR模型效果相当，但是推理速度提升10倍+。
Paraformer-63M和AR transformer-41M模型相比较，尽管Paraformer模型较大，但是Paraformer推理速度更快。也就是说，在远场测试集上Paraformer-63M模型相比AR transformer-41M模型，识别效果相对提升6.0%，并且推理速度提升7.4倍。 也就是，在实际生产中，可以通过使用较大的Paraformer模型达到比AR模型更好的识别效果以及更快的推理速度。

对采样因子α的超参数测试结果参见上表格。和预期相同α变大时，模型效果变好，因为在训练时提供了更多的上下文信息；然而如果该参数太大会导致训练和测试不一致。基本上，α 在0.5～1.0之间的表现比较稳定。

在小型训练集上普通NAR和AR模型的识别性能差别不大，但是在工业级大数据集上差距明显。这是第一个在大规模工业级数据上验证NAR模型效果的研究。
Paraformer相比普通NAR模型识别效果相对提升11%，和精细训练的AR模型效果相当。

分析：见文章第一张图。普通NAR模型相比AR模型，插入错误多一点，但是删除错误少一点。说明普通NAR模型的predictor预测输出的标签个数较准确。然而替换错误比较多，侧面反应两者性能差距很大。作者认为这是由普通NAR模型的条件独立假设造成的。Paraformer模型相比普通NAR模型替换错误下降很多，也暗示了识别效果提升很多。作者认为这是由于GLM模块使NAR模型学习到了标签之间的依赖关系。Paraformer模型相比AR模型替换错误稍微多一些，也暗示着识别准确率稍微差一些。作者认为AR模型中基于LM的beam search解码扮演了很重要的角色，相比GLM效果更好。为了减少这个性能差距，作者将在未来工作中在Paraformer模型上结合外部语言模型。

个人思考/疑问

MWER loss没看懂，需要看文献20.
Char 的 Embedding使用的torch.nn.Embedding，直接学习嘛？还是预设值好的。
端到端语音识别中的Embedding，例如wenet框架的token 的 Embedding能不能使用NLP领域用文字训练得到的Embedding，如果能的话为啥主流的不是这种的，这个Embedding不比直接学习更好嘛？
wenet的重打分架构，decoder能不能直接根据CTC N-best结果得到矫正的识别结果，相当于做矫正/纠错？
Paraformer能不能直接结合在当前的wenet框架中，使用conformer那套encoder，而不是SAN-M。从文章结论看，可以使用更大的模型训练Paraformer，效果比之前的模型效果好，且推理速度快，是一个可以实践的方向。
Paraformer结构能不能和wenet重打分那套结合？Pafaformer的输出替代CTC的那一支，然后再加上decoder部分的重打分。这样相当于有了两个decoder。按道理就是训练会慢，但是推理应该还好吧？可能可行。——》Paraformer输出只有一个结果，重打分啥啊。。这个做不了。但是decoder可以作为纠错模型对结果进行纠错。
作者提出的在外面再结合一个语言模型应该是可行的。

[18] L. Dong and B. Xu, “CIF: Continuous integrate-and-fire for end-to-end speech recognition,” in ICASSP 2020-2020 IEEE Interna-tional Conference on Acoustics, Speech and Signal Processing(ICASSP). IEEE, 2020, pp. 6079–6083.
[19] L. Qian, H. Zhou, Y. Bao, M. Wang, L. Qiu, W. Zhang, Y. Yu,and L. Li, “Glancing transformer for non-autoregressive neural machine translation,” arXiv preprint arXiv:2008.07905, 2020.
[20] R. Prabhavalkar, T. N. Sainath, Y. Wu, P. Nguyen, Z. Chen, C.-C. Chiu, and A. Kannan, “Minimum word error rate training for attention-based sequence-to-sequence models,” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 4839–4843

GPT-4o背后的语音技术

5月14日凌晨，OpenAI推出了最新的生成模型GPT-4o，带来了一系列震撼的功能，用技术彻底颠覆了产品形态。产品最大的亮点在于：以近乎完美的交互方式，为每位用户带来GPT-4级别的智能体验。在语音方面，GPT-4o做到了实时低延迟，平均响应时间与人类反应速度相当，输出的语音能够理解极度贴合对话上下文，能够理解人类的情感情绪，听觉质量上佳，与真人无异。

OpenAI的博客：https://openai.com/index/hello-gpt-4o/

GPT-4o是一个any2any的多模态模型，能够接受文本、音频、图像、视频等多模态输入，也能够生成包含文本、语音、图像和视频等混合内容的多模态输出。限于篇幅，本文主要谈谈语音多模态的实现，并分享一些对于语音研究未来发展的看法。

当我们主要关注文本和语音模态时，GPT-4o其实就是一个语音语言模型(speech language model, SLM)。该SLM同时具备语音理解能力和语音合成能力，输入端和输出端均支持文本和语音的混合多模态。那么，这一SLM应该如何实现呢？在大语言模型(large language model, LLM)滥觞的今日，不难想到这样一种方法：将连续的语音数据离散化成如同单词(或者称token，词元)一样的表示，并入到LLM的词表中，再走一遍训练LLM的老路。

基于上述思想来构建SLM，需要解决以下几个问题：

语音如何离散化？
如何让LLM理解语音的token？加入语音token之后，LLM在语音数据的理解上是否具有涌现性？
LLM如何合成/解码语音？

接下来，我们按图索骥，分别看看上述三个问题应该如何解决。看完现有的方案之后，也会谈谈一些关于工程实现的思考以及新兴语音技术对于游戏业务的影响。最后，我会给出一个完整的roadmap来收束全文。

语音的离散化：向LLM看齐！

在谈及语音离散化之前，我们先来看看语音和文本作为两种不同的模态，有什么区别，有什么联系。这直接关系到后文建模方法的选择以及离散化特征的关注点。

语音和文本的差别主要体现在：文本离散、序列短、信息密度高(几乎每个词都包含语义)；语音则连续、序列长、信息密度低。语音序列长、信息密度低的特点，意味着语音数据有很大的压缩空间，这一点和图像非常类似。因此，一些用于图像的离散化压缩方法也可以用在语音上。

除了差异，语音和文本也有一定的联系：语音是文本的超集，既包含文本内容(说话人说了什么，也就是语义信息)，也包含语音特有的音色、韵律、语速等声学信息(也叫做副语言)。既然语音包含文本，那么在NLP中预训练语言模型也可以用来建模语音中的上下文依赖关系，从而得到语音的离散化token。基于这些方法得到的token主要包含语音的语义信息。

花开两朵，各表一枝。我们先来看看语音的语义token如何获取。

语义token: 用MLM建模语音的上下文依赖

语音的语义建模方法，最常用到的就是BERT的MLM方法，比较经典的工作有三个：wav2vec 2.0[1]、HuBERT[2]和w2v-BERT[3]。

类似于BERT，wav2vec 2.0[1]在隐空间(latent space)随机mask了一定比例的语音输入，然后用基于对比学习的训练目标学习帧的表征。值得注意的一点是，对比学习中目标帧的离散化处理是一个非常巧妙的操作，它将无限的连续特征空间坍缩为有限的离散空间，让帧特征的鲁棒性更强了。这在语音领域上非常有用的trick，允许模型接受带有噪声的语音作为输入。

图1：wav2vec 2.0的模型架构

wav2vec 2.0只是借用了BERT中mask的操作，训练目标大体上是基于对比学习的范式。那么，能直接用BERT的MLM建模目标来得到高质量的语音表征吗？其后的HuBERT[2]做的就是这个事情。HuBERT[2]的核心点在于使用简单的KMeans聚类方法为语音数据抽取离散化的分类标签，也就是文中所说的hidden unit/acoustic unit。有了分类标签，然后就是用BERT的MLM loss来学习语音数据中内在的上下文依赖关系。对于KMeans聚类对初始值和K值高灵敏的特点，作者设计了ensemble和iterative refinement方法予以解决。前者就是多个聚类模型ensemble，后者就是先在基于MFCC的聚类标签上进行学习，学习到一定程度时，在模型学习到的表征重新聚类，再做一次BERT的学习。

图2：HuBERT的模型架构

既然对比学习可以学习语音的语义表征，BERT的MLM也可以，那将二者结合起来，会不会有互补的效果呢？w2v-BERT[3]做的就是这个事情。注意到：HuBERT中语音的离散token不是端到端获得的，需要用KMeans算法对特征进行离线聚类，而wav2vec 2.0又正好提供了音频帧的量化离散表征，HuBERT和wav2vec 2.0很容易就能缝合在一起。缝合的方法也是显然的：前面若干层做类似wav2vec 2.0的对比学习，学习出HuBERT要用的离散表征，然后在后面若干层做类似HuBERT的MLM训练。

图3：w2v-BERT的模型架构

声学token：压缩+离散

上一部分介绍的预训练模型做的是上下文关系的预训练，学习到的表征主要包含与上下文相关的语义信息。要想将语音的token还原成为真正具有真人表现力的信号，还需要有包含音色、韵律、语速等副语言信息的声学特征。声学特征的学习在很大程度上参考了图像领域的工作，用到的主要是类似于VQVAE[4]、VQGAN等的离散化压缩方法，并针对语音数据的特性做了优化。这一部分比较经典的工作就是SoundStream[5]和Encodec[6]，二者的工作高度类似，我们放在一起来看。

说到压缩，最先想到的模型当然就是AutoEncoder(自编码器)。为提升压缩效率，有利于数字传输和存储，以及离散化建模的要求，压缩模型中还需要包含量化(quantization)，将连续的音频信号转换为离散的数值。基于上述考虑，模型大体上应该是VQVAE[4]的结构。为了平衡VQ(Vector Quantization，向量量化)与音频实时高保真传输的矛盾，通常采用多个残差连接的codebook来进行量化，这个就是所谓的RVQ(具体分析过程可以参见知乎文章)。采用RVQ的好处主要有两个：其一，区分不同quantization block的分工，第一个block包含最重要的语义信息，后续的block包含还原语音的副语言信息；第二，模型训练时可随机采样前面若干个block来训练，保持一定精度，实现对比特率的动态适应。

总而言之，SoundStream[5]/Encodec[6]其实就是一个RVQ-VAE，它们所建模的语音离散化token包含了层次化的语义信息和声学信息。

图4：Encodec的模型架构

语音的统一表征？

不难发现，虽然说SoundStream[5]和Encodec[6]这样的基于RVQ-VAE的压缩建模方法包含了语音的声学特征，但其中也不可避免地带入了语义特征。二者提取的实际上更像是一种语义特征和声学特征的混合体。基于此，SpeechTokenizer[7]在二者的基础上，引入了语义引导信息来解耦语义特征和声学特征。语义特征和声学特征的解耦对于最终的语音合成有着相当的重要性。SpeechTokenizer的具体做法是：使用HuBERT[2]的特征对RVQ1的特征做语义蒸馏，其余部分保留声学信息。

图5：SpeechTokenizer的模型架构

语音的其他表征：MEL依旧有用！

上述的语音离散表征，不管是基于HuBERT[2]的语义token，还是基于Encodec[6]的声学token，它们都是直接基于原始的音频波形抽取的。除此之外，也可以基于语音的中间表征来抽取。最典型的语音中间表征就是梅尔谱(MEL spectrogram，下文简称MEL)。梅尔谱本身就对语音进行了压缩，将梅尔谱类比于图像，使用单码本的VQ也可以达到与SoundStream和Encodec那样类似的压缩程度。这种MEL+VQ的做法在各种语音合成模型中也相当常见。我们在语音合成部分会详细介绍。

让LLM理解语音token！

有了上面所说的语义token和声学token之后，其实就可以利用它们来构建语音层面的语言模型了。比较经典的工作有：谷歌的AudioLM[8]和AudioPaLM[9]、字节的SALMONN[10]、复旦的SpeechGPT[11]/SpeechGPT-Gen[12]/SpeechAlign[13]、阿里的LauraGPT[14]和新加坡国立大学的NextGPT[15]。它们的做法其实都大差不差，我们看几个就知道是怎么回事了。

AudioLM：最初的SLM

见名知义，AudioLM[8]构建的是语音层面的语言模型——给定一段语音，模型预测后续的语音。输入侧和输出侧都只有语音模态。这个任务形式和GPT-4o非常类似，不会经历ASR->LM->TTS的过程，而是直接从语音上下文中推理语义信息，再结合声学信息合成贴合上下文的高表现力语音。而上文所述的语义token和声学token正好就能满足这个任务的要求。

AudioLM的具体做法是：用SoundStream[5]提取声学token，用w2v-BERT[3]提取语义token，模型主体就是一个常规的GPT，词表包含所有的声学token和语义token。它的建模过程也相当有意思，有很大的参考意义：先做最重要的语义建模，然后先预测SoundStream的前若干层特征，建模粗糙的声学特征，在预测SoundStream的剩余层特征，建模声音的细节信息，最后基于所有的声学token还原为语音。这种层次化的建模在诸如VALL-E[16]这样的语音合成模型中也非常常见。

图6：AudioLM的tokenizer

图7：AudioLM的建模流程

当然，AudioLM[8]仅仅关注语音模态，LM也很常规，不具备如同GPT-4o一样强悍的指令遵循能力和对话能力，语音对话的连贯性和表现力都相当弱。但这一工作仍然具有相当的启发性和开拓性，证明了：即使是常规的LM，照样也能理解语音token。

AudioPaLM[9]：整合LLM

这个就是AudioLM的后续了，谷歌将常规的LM替换成已经训练好的、具有强大文本理解能力和生成能力的大语言模型——PaLM-2[17]，既继承了AudioLM保留副语言的能力，又融合了PaLM-2强大的语义理解能力和推理能力。而且，该模型的词表同时包含大语言模型的token和语音token，可以同时做语音理解任务和合成生成任务，第一将这些任务整合在一个模型中进行解决。

不过，需要指出地是，文中的语音token embedding是直接输入到Transformer中的，并没有使用音频编码器做一次转换。而且，AudioPaLM的训练更加接近文本多任务的T5，并未用到复杂的、丰富多样的指令来表达任务的意图，还不能算是真正严格的instruction fine-tuning。

图8：AudioPaLM的模型架构

SALMONN[10]：让LLM理解语音

这是字节跳动和清华大学电子系(也是我们实验室)的合作成果。虽然这个工作的目的是让LLM能够理解语音，还不能生成语音，但它的训练方法和LLM比较接近，而且在诸多语音相关的任务上都显示出了涌现性，可以用作universal的特征提取器，这对于构建高质量的、包含语音-文本多模态的指令微调数据集具有相当大的意义。

图9：SALMONN的模型架构

SpeechGPT/SpeechGPT-Gen/SpeechAlign：向LLM的训练方法看齐

这算是复旦大学邱锡鹏组在这个领域一个成系列的工作，我们一个一个来看。

SpeechGPT[11]做的也是兼具语音理解能力和语音生成能力的多模态模型。在模型的训练上，SpeechGPT大幅度向LLM看齐，使用了三段式的训练方法：第一阶段先做模态适应的预训练，其实就是拿ASR的语音数据来做预训练；第二阶段和第三阶段都是指令微调，不过根据指令模态的不同，细分为了跨模态的指令微调和模态链指令微调。指令微调的数据集都是来自ASR数据集。描述任务需求的指令由GPT-4生成。

在我看来，这个工作还是相当偏学术化的作品，文中有不少点都有值得商榷的地方：第一，语音的离散化仅仅用了HuBERT[2]，模型只能看到语音的语义特征，这对模型合成语音的音质和表现力有非常大的影响，demo的语音也验证了我的判断；第二，指令微调数据集的构造上有问题。他们用的是ASR数据集，其实更好的选择应该是TTS数据集，可惜高质量的TTS数据集实在是太少了。ASR数据集中的文本和语音可能并不是严格对齐的，GPT-4产生的meta-prompt和语音本身的特征也有可能是对不上的，比如prompt要求大声朗读，但语音本身可能是特定低沉的。meta-prompt本身就无法做到足够复杂丰富，不能描述到语音的一些细粒度信息。

这一部分，最好要有像诸如SALMONN[10]这样的多模态语音理解模型的介入，像DALLE3一样丰富指令的多样性。至于语音方面，可以考虑引入zero-shot的语音合成模型或者变声模型来做合成数据。第三，文中的训练方法也没有与人类偏好做对齐。

图10：SpeechGPT的模型架构

对于上面的第一个问题，作者在其后的SpeechGPT-Gen[12]中做了解决。解决思路的核心点就是：让模型不仅看到语音的语义token，也要看到语音的声学token。具体做法是：SpeechGPT的HuBERT特征替换成了SpeechTokenizer[7]中的语义特征，用SpeechGPT这一LLM来自回归地建模语义特征，有了语义特征之后，再使用Flow-Matching这样的扩散模型来建模声学特征。这里选用Flow-Matching扩散模型，可能是受了SD3和Voicebox/Audiobox的影响。为了增强两阶段建模的依赖关系，作者将语义特征的先验信息注入到第二阶段扩散模型的先验分布中。可以看到，这里语音的解码其实也是一种层次化渐进式解码。

图11：SpeechGPT-Gen的模型架构

SpeechAlign[13]做的则是SLM与人类偏好的对齐，彻底地向LLM的训练方法看齐。该工作构建了对比gold token和合成token的encodec数据集，然后进行偏好优化来进行改进。使用的偏好优化方法包括RLHF和Chain of Hindsight。

图12：SpeechAlign的流程图

简单总结一下上面这些工作中值得关注的点：

要想让LLM输出上下文连贯的高表现力语音，必须要让LLM看到语义token和声学token，只有语义token，那语音就会显得呆板机械，只有声学token，那语音就不知所云；
LLM的指令微调同样可以迁移到语音-文本多模态领域中，LLM的指令微调同样可以带来如同NLP一样的涌现性；
高质量指令微调数据集的构建应该是最大的瓶颈！一下子让LLM同时做语音理解和语音生成，难度非常大。不如分步进行。
如果要分步进行的话，要先实现一个类似于SALMONN[10]那样的多模态理解模型和一个强大的Zero-shot TTS模型。前者用于给语音数据打上丰富的标签，可以是情感情绪、韵律、音高、语速，也可以是口音、意图和说话环境；后者则用于生成高质量的语音数据。毕竟，高质量的、文本和语音严格对齐的TTS数据实在是太少了，尤其是中文领域。有了这两个模型的加持，我们其实就能够构造出高质量的指令微调数据集。我不知道OpenAI是否有SALMONN这样的模型，但OpenAI的OpenVoice模型应该足够为其提供高质量的语音数据了。

既然我们在上面的篇幅中论述了语音理解多模态模型的构建，那我们在下一部分就重点关注zero-shot TTS模型，它对高质量指令微调数据集的构建同样至关重要。同时，LLM解码语音的方法也能从zero-shot TTS方案中得到不少的启发。

LLM如何合成语音：Zero-shot TTS

前面说到，SLM词表中包含了语音的语义token和声学token。语义token保证生成语音与对话上下文的连贯性，声学token保证了合成语音的质量和表现力。要想做到合成上下文连贯的高自然度语音，有两个问题必须要解决：

语音既有语义token，又有声学token，应该要如何解码成语音？
SLM在合成语音的过程中是否能够遵循多轮对话中的文本指令和语音指令？这个很重要！这允许模型根据用户的即时要求来生成语音回复。比如说，OpenAI演示视频中出现的：“将语速提高两倍”、“采用更加机械化的语气”这样的要求。

对于第一个问题，以VALL-E[16]为代表的诸多zero-shot TTS模型给出了不同的解决方案，这些方案虽有不同，但也有不可忽视的共同点；对于第二个问题，以VoiceLDM[18]和ParlerTTS[19]为代表的text/prompt-guided zero-shot TTS工作给出了肯定的答案。简单解释一下text/prompt-guided zero-shot TTS是怎么回事，通常的语音合成就是将文本(transcription)转换成声音，该任务在transcription之外，又增加了description的输入，来描述合成语音的情感情绪、口音、语气、语速、音高、说话环境、氛围等等信息。我们逐个来看这些工作。

Zero-shot TTS

2023年以来，学术界和工业界出了不少具备in-context learning(zero-shot/few-shot)能力的TTS模型。这些TTS模型通常会将低信息密度、长序列的连续语音数据压缩为高信息密度的tokens或者latents(其实就是码本中具体的token embedding)。这些模型本质上做的事情就是：如何高效实现语音tokens/latents到音频波形的映射。

这些模型给出的解决方案基本上都遵循一个准则：语义token和声学token层次化解码，先语义后声学，或者先解码成MEL再后接声码器，并且非必要不做自回归(毕竟自回归上线虽高，但太吃数据了)！我们一个个来看。

基于声学token或语义token的工作

先是微软的VALL-E[16]。这是zero-shot TTS的开山之作，首次在TTS任务上采用了上万小时的数据。它采用Encodec将语音转换为离散的token，然后用GPT在token上做语言模型的任务。但是，语音毕竟不是文本，如果直接在语音的所有特征上都做自回归的话，那训练的成本会相当高。考虑到Encodec RVQ特征的层次性，低层特征表示语义内容这样的重要特征，高层特征则表征声学细节。前者具有比较强的上下文依赖关系，适合用自回归来建模，后者诸如音色这样的特征，具有全局性，用非自回归特征也可以搞定，所以就有了VALLE中自回归+非自回归的层次建模方式。

图13：VALL-E的模型架构

尽管VALL-E[16]在用GPT建模token的上下文关系的时候，基于token的层次化特性做了分治处理，可能是限于当前语音数据集的规模(几万小时可能不够)，这种GPT自回归的难度还是相当大的，解码过程存在常见的错误传播现象，鲁棒性非常差，极其不稳定。根据Ilya Sutskever此前对于自回归的论述，GPT自回归相比于BERT这种双向结构是非常data-hungry的，万小时的数据可能不够。根据本人以及一些同行的经验，VALL-E模型这一类的自回归模型，也包括tortoise-tts[20]和xtts v2，要想显出威力，至少要有十几万小时的数据才行。

既然GPT自回归的难度这么大，就有不少人想方设法地来降低GPT学习的难度了。他们的解决方案也非常类似：给GPT提供额外的条件信息不就行了。比较典型的工作就是微软的RALL-E[21]和吉利的HAM-TTS[22]。RALL-E先生成了时长信息和音高信息，作为GPT自回归的先验，之所以会补充时长和音高，这大概是受到FastSpeech2[23]这样的非自回归模型的启发，这两个指标的引入，有助于提升合成的鲁棒性；HAM-TTS则是补充了基于HuBERT的语义信息。值得注意地是，HAM-TTS将模型的训练数据扩充到了65万小时，其中有50万小时的数据是合成数据。合成数据也能大幅度提升合成语音的音质。

图14：RALL-E的模型架构，框出来的就是辅助信息

图15：HAM-TTS的模型架构

说到VALL-E的后续改进，VoiceCraft不得不提。我愿意称之为“优雅的VALL-E”。它的优雅主要体现在两个方面：casual masking和delayed stacking。所谓的causal masking，是为了用自回归GPT架构来做语音编辑任务，就是把被mask的部分移动到序列末尾去预测，一套架构同时做合成和编辑任务；所谓的delay stacking，是为了适配自回归和RVQ，通过delay错位让当前码本的token预测正好可以利用前面那些token的预测结果，比起VALL-E那样自回归和非自回归缝合在一起的结构要优雅不少。

图16：VoiceCraft的建模流程

基于声学/语义latents的工作

我们通常所说的语音token是离散的。如果使用对应码本中的embedding来表示语音的话，它也可以是连续的低维度的latent变量。既然是低维度的连续latent变量，那图像合成领域中大火的LDM(latent diffusion model，其实就是stable diffsion 1&2采用的模型)模型[]自然也可以用到语音的合成上。这方面的经典工作有很多，比如说：NaturalSpeech 2&3[25, 26]、AudioLDM 2[27]、VoiceLDM[18]。但这里面只有NaturalSpeech2用到了语音离散化部分提及的声学/语义token，NaturalSpeech3的属性分解形式的VQ更像是另一种形式的RVQ。我们先来看NaturalSpeech 2&3，其他的工作后面再来看。

首先是NaturalSpeech 2[26]，它基本上就是VALL-E的连续版本。它用的latent也是来自Encodec，对其中不同层次的latent做了求和，然后将其作为扩散模型的训练目标。值得注意地是，扩散模型和FastSpeech2一样也用了时长和音高作为合成的先验条件。这一点也被后来的RALL-E采用。该工作中的扩散模型采用WaveNet实现，同时预测不加噪的latent和后验均值，和图像合成领域的扩散模型在实现方式上还是有所不同的。

图17：NaturalSpeech2的模型架构

然后是NaturalSpeech 3[26]，还是非自回归的，而且非自回归的正统性味道更加浓厚，借用了不少FastSpeech2和megatts1&2(后面会讲)[27, 28]的设计思想。像megatts 1&2一样，同样采用(自)监督信号对语音token编码的内容做了限制，而不再像是VALL-E/NaturalSpeech2那样一把抓。相应地，语音token化的方法也用VQ就行。具体而言，文章将语音信号分解为时长、内容、韵律和细节四个部分，然后每个部分用离散化的扩散模型来建模。不过，原文使用GRL来促进语音属性的分解，这一点的靠谱程度存疑。我也尝试过文章的FACodec，但效果很差。三级扩散模型级联的结构，预测起来似乎也非常麻烦。

图18：NaturalSpeech3的模型架构

基于MEL谱+VQ的TOKEN的工作

当然，也有不少工作用了MEL谱作为中间特征，然后在梅尔谱的基础上，或是用VQ提供离散token，或是用CNN来提取连续latent。对于MEL+VQ的工作，有tortoise-tts[20]、xtts 1&2、megatts1&2[28, 29]、base TTS[30]。对于MEL+latents的工作，有：AudioLDM 1&2[27]、StyleTTS 1&2[31, 32]。我们来简单看看是它们是怎么做的。

Tortoise-tts[20]。该工作是著名的开源英文TTS模型。其作者目前在OpenAI就职，同时也是GPT-4o的重要Contributor(他自个儿在博客中说的)。Tortoise-tts使用MEL+VQVAE的方法得到语音的MEL token，然后对MEL token以及text token做GPT自回归建模。对于语音的解码，自然也是分为两步：先是用扩散模型将MEL token转换为MEL谱，这一步和文生图很像，用扩散模型是很自然的选择；然后用声码器将MEL谱转换为音频波形。tortoise-tts和VALL-E的主体都是自回归建模，二者的不同主要在于token的不同。

图19：tortoise-tts的模型架构

MegaTTS 1&2[28, 29]。字节跳动的MegaTTS系列对语音token编码信息做了显式的信息压缩处理，让语音token仅编码上下文依赖强的韵律信息，然后用GPT自回归来建模语音的韵律。对于其他方面的信息，模型的处理显得较为常规：音色一般具有全局性，使用单一的音色编码器从参考音频中提取就性；对于文本语义内容的处理，模型在很大程度上参考了非自回归的FastSpeech 2。

对于语音的解码，也是分为两步：先通过MEL decoder还原为MEL谱，然后通过声码器解码为音频波形。MegaTTS 2和1总体上类似，在音色编码(音素级编码、多条参考音频)、语音提示长度(扩展同speaker语音上下文长度硬train，音频prompt长度更长)和时长建模(也用GPT自回归)上做了改进，同时堆了更大规模的数据。剪映的后端TTS模型用的就是megatts2。该工作在各论文的评测中表现也都不错。

图20：megatts1的模型架构

基于MEL谱+VAE的latents的工作

AudioLDM 1&2[27]。AudioLDM 1&2使用的语音latents是一致的，均通过MEL+VAE获得。既然是连续的latents，使用扩散模型来建模也合情合理。解码过程也相当简单：VAE decoder获得梅尔谱，然后用声码器转换为音频波形。该系列工作的核心创新点是利用多模态模型统一了扩散模型条件输入侧的信息：AudioLDM 1用CLAP统一了文本模态和音频模态，用单模态的音频数据就能完成模型的训练；AudioLDM 2则包含了图像、文本、转录文本等更多模态，模型泛用性也更强，既能做语音合成，也能做音乐生成、音频事件生成。

图21：AudioLDM 1的模型架构

图22：AudioLDM2的模型架构

StyleTTS 1&2[31, 32]。StyleTTS系列的模型一众zero-shot TTS模型显得比较老派，整体结构基本上沿袭了非自回归的FastSpeech 2，不同之处在于增加了基于参考音频抽取的风格信息。说是风格，其实跟megatts的音色很像。StyleTTS 2的工作则将风格进一步拆分成声学风格和韵律风格。训练时的风格信息由音频提供，推断时的风格信息则由扩散模型提供。StyleTTS 2通过一个扩散模型桥接了文本韵律和语音风格之间的联系，摆脱推断时对参考音频的依赖。不用参考音频其实对产品的意义还挺大的，要都用现实世界中真人尤其是名人的声音作为参考音频，那这势必会引起版权纠纷。这种纠纷在国内国外都有相关的事件。最近寡姐投诉OpenAI的事件就是一例。

图23：StyleTTS 1的模型架构

图24：StyleTTS 2的模型架构

TTS对指令的遵循

SLM不仅要合成合乎上下文语义的高表现力语音，合成的语音还要符合用户的即时要求。一些text-guided zero-shot TTS的工作值得参考。这些工作一般都是在已有的zero-shot TTS模型或者text-to-audio模型上改造而来，同时吸收transcription和description两路条件。其中的重点还是在于数据集的构建。这方面的工作有：PromptTTS[33]、InstructTTS[34]、ParlerTTS[19]、VoiceLDM[18]和Audiobox[35]。我们主要谈谈ParlerTTS和VoiceLDM。

ParlerTTS[19]。VALL-E/VoiceCraft的增强版，通过T5编码器和cross-attention旁路引入了描述性文本的信息。该工作的目的是想使用自然语言prompt来指定说话风格和环境信息，摆脱对参考音频的依赖。描述性标签文本的收集过程也显得相当朴素：通过定制化的监督式模型获取语音数据的口音特征、录音质量特征、音高语速特征。然后用LLM将这些特征转换为自然语言的描述。在我看来，这个工作有这么几点局限性吧：其一，缺乏情绪标签；其二，语音描述性标签的收集并不具备通用性，较为繁琐，远不如一个强大的多模态语音理解模型来得实在。文章demo虽然达到了预期的效果，但场景似乎局限在朗读的情景中。

图25：ParlerTTS的模型架构

VoiceLDM[18]。在VoiceLDM1的基础上增加了转录文本的输入。这个工作和AudioLDM 1很像，同样使用CLAP注入语音的描述性信息。不同地是，为了做TTS任务，该工作通过cross-attention旁路增加了transcription的信息。

图26：VoiceLDM的模型架构

TTS总结

林林总总说了这么多zero-shot的TTS方法，我想说明的结论有这么几点：

在LLM大行其道、scaling law大显神威的时代，TTS模型的训练数据规模已经突破了万小时，甚至达到了数十万小时的级别。在大数据的加持下，TTS任务上也涌现出了in-context learning能力。
语音信息的解码通常都要层次化或者多步进行，不能一步到位。自回归、扩散模型和流匹配都能在TTS中发挥作用；
借鉴NLP instruction fine-tuning和文生图的经验，TTS模型同样可以遵循文本指令或者语音指令，合成符合用户即时要求的语音，摆脱对参考音频的依赖，这或许也能规避一些知识产权的困扰(比如最近有名的寡姐投诉OpenAI事件)。同时，用户也能在对话过程中随时切换语音回复的风格，这一点在OpenAI的demo中有很明确的体现。另外，不知道大家有没有注意，GPT-4o合成的语音是可以是放映所处的声学环境的：有一段语音背后似乎是有钢琴声的。
text-guided zero-shot TTS在模型架构上和zero-shot TTS有非常大的相似性。但训练数据可能较为缺乏。先开发zero-shot TTS，再用类似SALMONN那样的多模态理解模型来打标签(类似DALLE3的做法)，这样数据集构造方式，可能会是更好的选择。

另外，对于语音的解码方案，我倾向于是这样的：

如果要做流式推理，外接类似HIFIGAN这样的声码器的方式可能不是好的选择。HIFIGAN并不天然支持流式解码。相反地，诸如SoundStream和Encodec这样的方法，同时有流式变体和非流式变体；
先做语义token的解码，这个解码大概率是自回归解码。语义token毕竟是建模上下文依赖关系，自回归方法已经在NLP上证明了这一点；
然后做声学token的解码，扩散或者flow-matching可能是更好的选择。扩散模型或者流匹配可以很好地修补语音的细节；

当然，除了上面讲到的，zero-shot TTS还有很多值得研究的方法。限于篇幅，仅列举于此，不再详述：HierSpeech++[36]、base TTS[30]、Voicebox/Audiobox[35]、UniAudio[37]、Make-a-Voice[38]等等。

其他问题

对于GPT-4o模型，如果仅仅聚焦于语音多模态，还有下面的问题值得关注：

语音交互如何做到低延迟？大概率要求流式切片处理，主要工作在于工程优化，用C++重写算子。推理框架的话，用tensorrt、mnn这些都行。上下文所述的音频离散化方法，诸如SoundStream和Encodec，其实也支持流式处理。
语音对话中的打断如何实现？个人认为有两种可能的方案：turn-based和流式处理。所谓的turn-based方案，是比较工程化的，简答概括一下就是：检测是否有停顿，如果一段时间内没有声音，模型就开始返回语音回复。另一种流式方案，则是：模型一直在接受用户的流式语音输入，判断是否应该输出语音回复，一个充分训练的模型应该是能够准确预测出语音词表中的[START]和[END]的。

对游戏配音业务的思考

text/prompt-guided zero-shot TTS方法对游戏的AI配音意义重大。主要体现在：

用自然语言提示去合成音色稳定的语音，摆脱对参考音频的依赖，在业务中能够更加灵活，至少比克隆已有人物/角色的语音的方式更加方便，更不容易出戏。举个例子，在开放世界剧情类游戏的研发阶段，我们会设定一些profile赋予NPC，让玩家跟NPC聊天。我们曾经用克隆《原神》、《崩坏：星穹铁道》已有角色的方式赋予这些NPC角色语音，但放在那些欧美背景的NPC中，就是很有违和感，没有现实世界中的accent，不够decent。
剧情任务中的配音会更加真人化、更有沉浸感。过年期间过《崩坏：星穹铁道》花火和黑天鹅的同行任务的时候，部分NPC角色会有六公主的翻译腔，这是花火行于欢愉命途的恶趣味，空气中顿时充满了快活的味道。如果走bv2、gsv的语音克隆方案，应该是很难有这种效果的。而且，玩家在剧情任务中势必会经过不同的地势地貌，至少室内、室外的声音听起来是有不同的。室内的声音至少会有回响、混响的吧。这种感觉语音克隆方案也是无法做到的。

全文总结

总结一下本文说谈的内容，我认为GPT-4o语音多模态的实现可能是走了以下的技术路线：

audio & text tokenizer的实现应该是语音离散化部分所用的技术，例如SoundStream、Encodec、SpeechTokenizer，或者是MEL+VQ最后配合声码器来解码；参考zero-shot TTS、AudioLM/AudioPaLM、SpeechGPT-Gen等工作的结果，LLM中语音token的解码应该是要走层次化或者多步的方法，先解码语义特征，再解码声学特征，或者是先解码MEL，再加一个HIFIGAN这样的声码器。另外，如果做audio/speech/music这样的通用声合成的话，可能也能通过prompt来控制。AudioLDM2虽然做了这方面的工作，但audio/music和speech的参数其实是不一样的，说到底还不是同一个模型。
对于指令微调，数据集的构造非常重要，大概率要用到合成数据。其一，网络上高质量语音数据的量级远远不及文本，直接拿ASR数据来做肯定会影响模型合成语音的音质；其二，大语言模型合成的instruction往往触及不到语音的细粒度特征，这样的instruction其实无法准确详尽地描述text和speech之间的关系。因而，需要引入强大的zero-shot TTS模型合成高质量语音，然后用多模态语音理解模型来为合成语音打标签，当然也可以评分做筛选什么的。
最后是要让大模型的输出对齐人类的偏好。这方面的方法有很多，有DPO、PPO什么的，都可以用。

图27：全文总结，可能的roadmap

参考文献

[1] Baevski A, Zhou Y, Mohamed A, et al. wav2vec 2.0: A framework for self-supervised learning of speech representations[J]. Advances in neural information processing systems, 2020, 33: 12449-12460.

[2] Hsu W N, Bolte B, Tsai Y H H, et al. Hubert: Self-supervised speech representation learning by masked prediction of hidden units[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 3451-3460.

[3] Chung Y A, Zhang Y, Han W, et al. W2v-bert: Combining contrastive learning and masked language modeling for self-supervised speech pre-training[C]//2021 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2021: 244-250.

[4] Van Den Oord A, Vinyals O. Neural discrete representation learning[J]. Advances in neural information processing systems, 2017, 30.

[5] Zeghidour N, Luebs A, Omran A, et al. Soundstream: An end-to-end neural audio codec[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 30: 495-507.

[6] Défossez A, Copet J, Synnaeve G, et al. High fidelity neural audio compression[J]. arXiv preprint arXiv:2210.13438, 2022.

[7] Zhang X, Zhang D, Li S, et al. Speechtokenizer: Unified speech tokenizer for speech large language models[J]. arXiv preprint arXiv:2308.16692, 2023.

[8] Borsos Z, Marinier R, Vincent D, et al. Audiolm: a language modeling approach to audio generation[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2023.

[9] Rubenstein P K, Asawaroengchai C, Nguyen D D, et al. Audiopalm: A large language model that can speak and listen[J]. arXiv preprint arXiv:2306.12925, 2023.

[10] Changli Tang, Wenyi Yu, Guangzhi Sun, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Chao Zhang. SALMONN: Towards Generic Hearing Abilities for Large Language Models

[11] Zhang D, Li S, Zhang X, et al. Speechgpt: Empowering large language models with intrinsic cross-modal conversational abilities[J]. arXiv preprint arXiv:2305.11000, 2023.

[12] Zhang D, Zhang X, Zhan J, et al. SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation[J]. arXiv preprint arXiv:2401.13527, 2024.

[13] Zhang D, Li Z, Li S, et al. SpeechAlign: Aligning Speech Generation to Human Preferences[J]. arXiv preprint arXiv:2404.05600, 2024.

[14] Chen Q, Chu Y, Gao Z, et al. Lauragpt: Listen, attend, understand, and regenerate audio with gpt[J]. arXiv preprint arXiv:2310.04673, 2023.

[15] Wu S, Fei H, Qu L, et al. Next-gpt: Any-to-any multimodal llm[J]. arXiv preprint arXiv:2309.05519, 2023.

[16] Wang C, Chen S, Wu Y, et al. Neural codec language models are zero-shot text to speech synthesizers[J]. arXiv preprint arXiv:2301.02111, 2023.

[17] Anil R, Dai A M, Firat O, et al. Palm 2 technical report[J]. arXiv preprint arXiv:2305.10403, 2023.

[18] Lee Y, Yeon I, Nam J, et al. VoiceLDM: Text-to-Speech with Environmental Context[C]//ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2024: 12566-12571.

[19] Lyth D, King S. Natural language guidance of high-fidelity text-to-speech with synthetic annotations[J]. arXiv preprint arXiv:2402.01912, 2024.

[20] Betker J. Better speech synthesis through scaling[J]. arXiv preprint arXiv:2305.07243, 2023.

[21] Xin D, Tan X, Shen K, et al. RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis[J]. arXiv preprint arXiv:2404.03204, 2024.

[22] Wang C, Zeng C, Zhang B, et al. HAM-TTS: Hierarchical Acoustic Modeling for Token-Based Zero-Shot Text-to-Speech with Model and Data Scaling[J]. arXiv preprint arXiv:2403.05989, 2024.

[23] Ren Y, Hu C, Tan X, et al. Fastspeech 2: Fast and high-quality end-to-end text to speech[J]. arXiv preprint arXiv:2006.04558, 2020.

[24] Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 10684-10695.

[25] Shen K, Ju Z, Tan X, et al. Naturalspeech 2: Latent diffusion models are natural and zero-shot speech and singing synthesizers[J]. arXiv preprint arXiv:2304.09116, 2023.

[26] Ju Z, Wang Y, Shen K, et al. NaturalSpeech 3: Zero-shot speech synthesis with factorized codec and diffusion models[J]. arXiv preprint arXiv:2403.03100, 2024.

[27] Liu H, Tian Q, Yuan Y, et al. AudioLDM 2: Learning holistic audio generation with self-supervised pretraining[J]. arXiv preprint arXiv:2308.05734, 2023.

[28] Jiang Z, Ren Y, Ye Z, et al. Mega-tts: Zero-shot text-to-speech at scale with intrinsic inductive bias[J]. arXiv preprint arXiv:2306.03509, 2023.

[29] Jiang Z, Liu J, Ren Y, et al. Mega-tts 2: Zero-shot text-to-speech with arbitrary length speech prompts[J]. arXiv preprint arXiv:2307.07218, 2023.

[30] Łajszczak M, Cámbara G, Li Y, et al. BASE TTS: Lessons from building a billion-parameter text-to-speech model on 100K hours of data[J]. arXiv preprint arXiv:2402.08093, 2024.

[31] Li Y A, Han C, Mesgarani N. Styletts: A style-based generative model for natural and diverse text-to-speech synthesis[J]. arXiv preprint arXiv:2205.15439, 2022.

[32] Li Y A, Han C, Raghavan V, et al. Styletts 2: Towards human-level text-to-speech through style diffusion and adversarial training with large speech language models[J]. Advances in Neural Information Processing Systems, 2024, 36.

[33] Guo Z, Leng Y, Wu Y, et al. Prompttts: Controllable text-to-speech with text descriptions[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023: 1-5.

[34] Yang D, Liu S, Huang R, et al. Instructtts: Modelling expressive TTS in discrete latent space with natural language style prompt[J]. arXiv preprint arXiv:2301.13662, 2023.

[35] Vyas A, Shi B, Le M, et al. Audiobox: Unified audio generation with natural language prompts[J]. arXiv preprint arXiv:2312.15821, 2023.

[36] Lee S H, Choi H Y, Kim S B, et al. HierSpeech++: Bridging the Gap between Semantic and Acoustic Representation of Speech by Hierarchical Variational Inference for Zero-shot Speech Synthesis[J]. arXiv preprint arXiv:2311.12454, 2023.

[37] Yang D, Tian J, Tan X, et al. Uniaudio: An audio foundation model toward universal audio generation[J]. arXiv preprint arXiv:2310.00704, 2023.

[38] Huang R, Zhang C, Wang Y, et al. Make-a-voice: Unified voice synthesis with discrete representation[J]. arXiv preprint arXiv:2305.19269, 2023.

条件控制扩散模型

参考：https://www.zhangzhenhu.com/aigc/Guidance.html

无论是 DDPM 还是 DDIM，这些扩散模型在生成图片时，都是输入一个随机高斯噪声数据，然后逐步的产出一张有意的真实图片。这个过程中每一步都是一个随机过程，所以每次执行产出的图片都不一样，生成的图像多样性非常好。但这也是一个缺点：生成的图像不可控，无法控制这个生成过程并令其生成我们想要的图像内容。

鉴于此，很多研究中在如何控制图像生成过程方面提出了很多有效的方案。直觉的讲，我们可以在扩散过程中引入额外的信息来指导或者说控制整个扩散模型，假设这个额外的信息为 y，它可以是一段文本、一张图片或者图像的类别标签。引入 y 之后的模型就变成了一个以 y 为条件的条件概率分布。

自然而然地，接下来就需要探讨，引入y 之后对前向扩散过程和逆向采用过程分别有什么影响，需要做出什么调整。首先看下对前向扩散过程的影响，先说结论：引入 y 之后，对前向扩散过程没有任何影响。其实，从直觉上讲，前向扩散过程是对原始图片加噪声，直至变成纯噪声，这个过程显然与 y没有任何关系。但做研究要严谨，还是需要给出数学证明的。证明过程在论文 1 中已经给出。

条件扩散模型的前向过程与非条件扩散模型的前向过程完全一样。

1、classifier guidance

OpenAI 的团队在 2021 年发表一篇论文 1 : A. Diffusion models beat gans on image synthesis ，在这篇论文中，提出一种利用图片类别标签指导图像生成的方案，称为 classifier guidance，通过这种改进使扩散模型生成图像的质量大幅提升，并在 IS 和 FID 评分上超过了 GAN 模型，所以你看论文的名字，简单直接。

论文的源码在： https://github.com/openai/guided-diffusion 。

实际上这篇论文做了很多改进，比如对UNET也做了改进。但这里我们只关注 guidance 部分。原论文的推导过程比较繁杂，这里我们采用另一篇文章 2 的推导方案，直接从 score function 的角度去理解。

虽然引入 classifier guidance 效果很明显，但缺点也很明显：

需要额外一个分类器模型，极大增加了成本，包括训练成本和采样成本。
分类器的类别毕竟是有限集，不能涵盖全部情况，对于没有覆盖的标签类别会很不友好

后来《More Control for Free! Image Synthesis with Semantic Diffusion Guidance》推广了“Classifier”的概念，使得它也可以按图、按文来生成。Classifier-Guidance方案的训练成本比较低（熟悉NLP的读者可能还会想起与之很相似的PPLM模型），但是推断成本会高些，而且控制细节上通常没那么到位。

2、Classifier-free guidance

引导函数的方法存在一些问题：1）额外的计算量比较多；2）引导函数和扩散模型分别进行训练，不利于进一步扩增模型规模，不能够通过联合训练获得更好的效果。

提出了一个等价的结构替换了外部的classifier，从而可以直接使用一个扩散模型来做条件生成任务。

实际做法只是改变了模型输入的内容，有conditional(随机高斯噪声+引导信息的embedding)和unconditional两种采样输入。两种输入都会被送到同一个diffusion model，从而让其能够具有无条件和有条件生成的能力。

3、CLIP Guidance

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., and Sutskever, I. Learning transferable visual models from natural language supervision. arXiv:2103.00020, 2021

Prafulla Dhariwal and Alex Nichol. Diffusion models beat gans on image synthesis. 2021. arXiv:2105.05233.[2](1,2)

Calvin Luo. Understanding diffusion models: a unified perspective. 2022. arXiv:2208.11970.[3]

Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. 2022. arXiv:2207.12598.[4]

Alex Nichol, Prafulla Dhariwal, Aditya Ramesh, Pranav Shyam, Pamela Mishkin, Bob McGrew, Ilya Sutskever, and Mark Chen. Glide: towards photorealistic image generation and editing with text-guided diffusion models. 2022. arXiv:2112.10741.[5]

Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with clip latents. 2022. arXiv:2204.06125.[6]

Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S. Sara Mahdavi, Rapha Gontijo Lopes, Tim Salimans, Jonathan Ho, David J Fleet, and Mohammad Norouzi. Photorealistic text-to-image diffusion models with deep language understanding. 2022. arXiv:2205.11487.

去噪扩散隐式模型（Denoising Diffusion Implicit Models,DDIM）

Paper: https://arxiv.org/abs/2010.02502

Code: https://github.com/ermongroup/ddim

摘自：扩散模型之DDIM

在 DDPM 中，生成过程被定义为马尔可夫扩散过程的反向过程，在逆向采样过程的每一步，模型预测噪声

DDIM 的作者发现，扩散过程并不是必须遵循马尔科夫链，在之后的基于分数的扩散模型以及基于随机微分等式的理论都有相同的结论。基于此，DDIM 的作者重新定义了扩散过程和逆过程，并提出了一种新的采样技巧，可以大幅减少采样的步骤，极大的提高了图像生成的效率，代价是牺牲了一定的多样性，图像质量略微下降，但在可接受的范围内。

对于扩散模型来说，一个最大的缺点是需要设置较长的扩散步数才能得到好的效果，这导致了生成样本的速度较慢，比如扩散步数为1000的话，那么生成一个样本就要模型推理1000次。这篇文章我们将介绍另外一种扩散模型DDIM（Denoising Diffusion Implicit Models），DDIM和DDPM有相同的训练目标，但是它不再限制扩散过程必须是一个马尔卡夫链，这使得DDIM可以采用更小的采样步数来加速生成过程，DDIM的另外是一个特点是从一个随机噪音生成样本的过程是一个确定的过程（中间没有加入随机噪音）。

前提条件：1.马尔可夫过程。2.微小噪声变化。

步骤一：在DDPM中我们基于初始图像状态以及最终高斯噪声状态，通过贝叶斯公式以及多元高斯分布的散度公式，可以计算出每一步骤的逆向分布。之后继续重复上述对逆向分布的求解步骤，最终实现从纯高斯噪声，恢复到原始图片的步骤。

步骤二：模型优化部分通过最小化分布的交叉熵，预测出模型逆向分布的均值和方差，将其带入步骤一中的推理过程即可。

文章中存在的一个核心问题是：由于1.每个步骤都是马尔可夫链。2.每次加特征的均值和方差都需要控制在很小的范围下。因此我们不得不每一步都进行逆向的推理和运算，导致模型整体耗时很长。本文核心针对耗时问题进行优化，一句话总结：在满足DDPM中逆向推理的条件下，找到一种用 xt 和 x0 表达 xt−1 且能能大幅减少计算量的推理方式。

代码实现：

DDIM和DDPM的训练过程一样，所以可以直接在DDPM的基础上加一个新的生成方法（这里主要参考了DDIM官方代码以及diffusers库），具体代码如下所示：

class GaussianDiffusion:
    def __init__(self, timesteps=1000, beta_schedule='linear'):
     pass

    # ...
        
 # use ddim to sample
    @torch.no_grad()
    def ddim_sample(
        self,
        model,
        image_size,
        batch_size=8,
        channels=3,
        ddim_timesteps=50,
        ddim_discr_method="uniform",
        ddim_eta=0.0,
        clip_denoised=True):
        # make ddim timestep sequence
        if ddim_discr_method == 'uniform':
            c = self.timesteps // ddim_timesteps
            ddim_timestep_seq = np.asarray(list(range(0, self.timesteps, c)))
        elif ddim_discr_method == 'quad':
            ddim_timestep_seq = (
                (np.linspace(0, np.sqrt(self.timesteps * .8), ddim_timesteps)) ** 2
            ).astype(int)
        else:
            raise NotImplementedError(f'There is no ddim discretization method called "{ddim_discr_method}"')
        # add one to get the final alpha values right (the ones from first scale to data during sampling)
        ddim_timestep_seq = ddim_timestep_seq + 1
        # previous sequence
        ddim_timestep_prev_seq = np.append(np.array([0]), ddim_timestep_seq[:-1])
        
        device = next(model.parameters()).device
        # start from pure noise (for each example in the batch)
        sample_img = torch.randn((batch_size, channels, image_size, image_size), device=device)
        for i in tqdm(reversed(range(0, ddim_timesteps)), desc='sampling loop time step', total=ddim_timesteps):
            t = torch.full((batch_size,), ddim_timestep_seq[i], device=device, dtype=torch.long)
            prev_t = torch.full((batch_size,), ddim_timestep_prev_seq[i], device=device, dtype=torch.long)
            
            # 1. get current and previous alpha_cumprod
            alpha_cumprod_t = self._extract(self.alphas_cumprod, t, sample_img.shape)
            alpha_cumprod_t_prev = self._extract(self.alphas_cumprod, prev_t, sample_img.shape)
    
            # 2. predict noise using model
            pred_noise = model(sample_img, t)
            
            # 3. get the predicted x_0
            pred_x0 = (sample_img - torch.sqrt((1. - alpha_cumprod_t)) * pred_noise) / torch.sqrt(alpha_cumprod_t)
            if clip_denoised:
                pred_x0 = torch.clamp(pred_x0, min=-1., max=1.)
            
            # 4. compute variance: "sigma_t(η)" -> see formula (16)
            # σ_t = sqrt((1 − α_t−1)/(1 − α_t)) * sqrt(1 − α_t/α_t−1)
            sigmas_t = ddim_eta * torch.sqrt(
                (1 - alpha_cumprod_t_prev) / (1 - alpha_cumprod_t) * (1 - alpha_cumprod_t / alpha_cumprod_t_prev))
            
            # 5. compute "direction pointing to x_t" of formula (12)
            pred_dir_xt = torch.sqrt(1 - alpha_cumprod_t_prev - sigmas_t**2) * pred_noise
            
            # 6. compute x_{t-1} of formula (12)
            x_prev = torch.sqrt(alpha_cumprod_t_prev) * pred_x0 + pred_dir_xt + sigmas_t * torch.randn_like(sample_img)

            sample_img = x_prev
            
        return sample_img.cpu().numpy()

这里以MNIST数据集为例，训练的扩散步数为500，直接采用DDPM（即推理500次）生成的样本如下所示：

同样的模型，我们采用DDIM来加速生成过程，这里DDIM的采样步数为50，其生成的样本质量和500步的DDPM相当：

完整的代码示例见https://github.com/xiaohu2015/nngen。

其它：重建和插值

如果从直观上看，DDIM的加速方式非常简单，直接采样一个子序列，其实论文DDPM+也采用了类似的方式来加速。另外DDIM和其它扩散模型的一个较大的区别是其生成过程是确定性的。

Stable-diffusion

Stable Diffusion

Stable Diffusion was made possible thanks to a collaboration with Stability AI and Runway and builds upon our previous work:

High-Resolution Image Synthesis with Latent Diffusion Models
Robin Rombach*, Andreas Blattmann*, Dominik Lorenz, Patrick Esser, Björn Ommer
CVPR ’22 Oral | GitHub | arXiv | Project page

参考： https://zhuanlan.zhihu.com/p/573984443

参考： https://zhuanlan.zhihu.com/p/599160988

扩散模型汇总：https://github.com/heejkoo/Awesome-Diffusion-Models

DDPM 模型在生成图像质量上效果已经非常好，但它也有个缺点，那就是xt 的尺寸是和图片一致的，xt的元素和图片的像素是一一对应的，所以称 DDPM 是像素(pixel)空间的生成模型。我们知道一张图片的尺寸是 3×H×W ，如果想生成一张高尺寸的图像， Xt的张量大小是非常大的，这就需要极大的显卡（硬件）资源，包括计算资源和显存资源。同样的，它的训练成本也是高昂的。高昂的成本极大的限制了它在民用领用的发展。

1. 潜在扩散模型（Latent diffusion model,LDM）

2021年德国慕尼黑路德维希-马克西米利安大学计算机视觉和学习研究小组（原海德堡大学计算机视觉小组），简称 CompVis 小组，发布了论文 High-Resolution Image Synthesis with Latent Diffusion Models，针对这个问题做了一些改进，主要的改进点有：

引入一个自编码器，先对原始对象进行压缩编码，编码后的向量再应用到扩散模型。
通过在 UNET 中加入 Attention 机制，处理条件变量 y。

潜在空间

针对 DDPM 消耗资源的问题，解决方法也简单。引入一个自编码器，比如上一章介绍的变分编码器（VAE），先对原始图像进行压缩编码，得到图像的低维表示 z0 ，然后 x0 作为 DDPM 的输入，执行 DDPM 的算法过程，DDPM 生成的结果再经过解码器还原成图像。由于 z0 是压缩过的，其尺寸远远小于原始的图像，这样就能极大的减少 DDPM 资源的消耗。压缩后 z0 所在的数据空间称为潜在空间（latent space）, z0 可以称为潜在数据。

这个自编码器（VAE）可以是提前预训练好的模型，在训练扩散模型时，自编码器的参数是冻住的，如图 7.1.2 所示

通过使用预训练的编码器 E，我们可以将全尺寸图像编码为低维潜在空间数据（压缩数据）。
通过使用预训练的解码器 D，我们可以将潜在空间数据解码回图像。

这样在 DDPM 外层增加一个 VAE 后，DDPM 的扩散过程和降噪过程都是在潜空间（Latent Space）进行，潜空间的尺寸远远小于像素空间，极大了降低了硬件资源的需求，同时也能加速整个过程。

正向扩散过程→给潜在数据增加噪声，逆向扩散过程→从潜在数据中消除噪声。整个 DDPM 的过程都是在潜在空间执行的，所以这个算法被称为潜在扩散模型（Latent diffusion model,LDM）。增加一个自编码器并没有改变 DDPM 的算法过程，所以并不需要对 DDPM 算法代码做任何改动。

条件处理

在 DDPM 的过程中，可以增加额外的指导信息，使其生成我们的想要的图像，比如文本生成图像、图像生成图像等等。

关于注意力机制的实现细节，可以直接参考论文代码， LDM模型论文的代码和预训练的模型已经在 Github 开源，地址为： https://github.com/CompVis/latent-diffusion 。

训练过程

相比于 DDPM ，条件化的 LDM 目标函数稍微变化了一点，具体变化内容可以参考:

生成（采样）过程:

图 7.1.6 是 LDM 采样过程的图形化表示，过程并不复杂，经过 DDPM 采样生成的 Z0 需要用解码器 D 还原成图像。

2、稳定扩散模型（Stable diffusion,SD)

LDM 本身是由 CompVis 提出并联合 Runway ML进行开发实现，后来 Stability AI 也参与进来并提供了一些资源，联合搞了一个预训练的 LDM 模型，称为 Stable diffusion。所以，Stable diffusion 是 LDM 的一个开源预训练模型，由于它的开源迅速火爆起来。目前 Stable diffusion 已经占据了图像生成开源领域的主导地位。

由于 Stable diffusion 只是LDM的一个开源预训练模型，没有额外的复杂数学公式需要讨论，这里我们就直接上代码吧。我们不用 Stable diffusion 的官方代码库 stablediffusion ，而是 huggingface 开源库 diffusers 中的实现，它的易读性更好一些。

diffusers 把模型的核心逻辑都封装在各种 DiffusionPipeline 中， StableDiffusionPipeline 核心代码在 diffusers.StableDiffusionPipeline 先看初始化代码，可明显看到整个 StableDiffusionPipeline 包含几个关键组件：vae,text_encoder/tokenizer,unet,scheduler。这几个组件和 LDM 中是对应的。

vae: VAE 自编码器，负责前后的编解码（压缩、解压缩）工作。
text_encoder/tokenizer: 文本编码器，负责对文本Prompt进行编码处理。
unet: 噪声预测模型，也是DDPM的核心。
scheduler: 负责降噪过程（逆过程）的计算，也就是实现 xt−>xt−1 ，对应着 DDPM、DDIM、ODE等不同的降采样实现。
safety_checker: 做生成图像安全性检查的，可选，暂时可以不关注它。
feature_extractor: 如果输入条件中存在 img，也就是以图生图(img2img)，可以用它对条件图片进行特征抽取，也就是图像编码器（img encoder），可选。

【深度估计 Transformer】Vision Transformers for Dense Prediction

作者单位：Intel Labs
https://arxiv.org/abs/2103.13413
https://github.com/isl-org/DPT

Hugging Face

密集预测视觉Transformer(DPT)，其在单目深度估计、语义分割等任务上表现SOTA！

我们介绍了密集视觉Transformer，该架构利用视觉Transformer代替卷积网络作为密集预测任务的骨干。我们将视觉Transformer各个阶段的token组装成各种分辨率的图像表示形式，并使用卷积解码器将它们逐步组合为全分辨率预测。

Transformer主干以恒定且相对较高的分辨率处理表示，并且在每个阶段都具有全局感受野。与全卷积网络相比，这些特性使密集视觉Transformer可以提供更细粒度和更全局一致的预测。

实验表明，这种架构在密集的预测任务上产生了实质性的改进，特别是当有大量的训练数据可用时。对于单眼深度估计，与最先进的完全卷积网络（FCN，fully-convolutional networks.）相比，其相对性能提高了高达28%。应用于语义分割时，Dense vision transformer在ADE20K上是49.02%的mIoU。同时进一步表明，当处于新技术设置，该架构可以在较小的数据集上进行微调，如NYUv2、KITTI和Pascal Context。

Introduction

密集预测架构主要基于卷积网络，其设计通常遵循一种从逻辑上将网络分为编码器和解码器的模式。编码器通常基于一个图像分类网络（主干），在像ImageNet这样的大型语料库上进行预训练。解码器聚合来自编码器的特征，并将其转换为最终的密集预测。密集预测的体系结构研究往往集中在解码器及其聚合策略上。主干架构对整个模型有很大的影响，因为编码器中丢失的任何信息都不可能在解码器中恢复。

卷积主干逐步对输入图像进行向下采样，以提取多个尺度上的特征。下采样使接受域的逐渐增加，将低级特征分组为抽象的高级特征，同时确保网络的内存和计算需求保持易于处理。然而，下采样有明显的缺点，这在密集的预测任务中特别突出：特征分辨率和粒度在模型的更深层次的阶段丢失，因此很难在解码器中恢复。虽然特征分辨率和粒度可能对某些任务并不重要，如图像分类，但它们对于密集预测至关重要，在理想情况下，体系结构应该能够在或接近输入图像的分辨率时分辨特征。

现提出的减轻特征粒度损失的各种技术。这些包括训练在更高的输入分辨率（如果计算预算允许），扩大卷积，迅速增加接受域没有下采样，适当放置从编码器的多个阶段跳过连接到解码器，或者最近的通过在整个网络并行连接多分辨率表示。虽然这些技术可以显着提高预测质量，但网络仍然受到其基本构建块—卷积的瓶颈。卷积和非线性一起构成了图像分析网络的基本计算单元。根据定义，卷积是具有有限接受域的线性算子。有限的接受域和单个卷积的有限表达性需要顺序堆叠成非常深的结构，以获得非常广泛的背景和足够高的表征能力。 然而，这需要产生许多需要大量的间接表示。降采样中间表示是必要的，以保持内存消耗在现有计算机架构中可行的水平。

在本工作中，介绍了密集的预测变压器(DPT)。DPT是一种密集的预测体系结构，它基于编码器-解码器的设计，利用transformer作为编码器的基本计算构建块。具体来说，使用最近提出的Vision Transformer(ViT)作为主干架构，将ViT提供的bag-of-words表示重新组装为不同分辨率的类图像特征表示，并使用卷积解码器逐步将特征表示组合到最终的密集预测中。与完全卷积网络不同，ViT主干在计算初始图像嵌入后放弃显式下采样操作，并在所有处理阶段保持恒定维度的表示。此外，在每个阶段都有一个全局性的接受域，实验表明，这些特性对于密集的预测任务特别有利，因为它们会导致细粒度和全局相一致的预测。

单眼深度估计和语义分割的实验。对于通用单眼深度估计的任务，其中有大规模的训练数据可用，与该任务中性能最好的全卷积网络相比，DPT提供的性能提高了超过28%。该架构还可以微调到小的单眼深度预测数据集，如NYUv2和KITTI，当它也设置了新的技术状态。实验利用语义分割实验进一步提供了DPT的强性能的证据。对于这个任务，DPT在具有挑战性的ADE20K和Pascal Context数据集上设置了一个新的最新技术状态。定性结果表明，与卷积网络相比，这些改进可以归因于更细粒度和更全局一致的预测。

Transformer encoder

在一个高水平上，Vision Transformer在图像的bag-of-words表示上进行操作。单独嵌入到特征空间中的图像补丁，或者从图像中提取的深度特征，扮演“words”的角色。在本工作的其余部分中，将嵌入的“word”称为tokens 。Transformer使用multi-headed self-attention(MHSA)的顺序块对tokens进行转换，该块将tokens相互联系起来来转换表示。

image–extracted–image patch–word–token（变化）：特征空间中的图像patch

image patch：图像补丁是较大形式的像素容器例如，假设有一张 100 像素 x 100 像素的图像。如果您将这些图像划分为 10×10 块，那么将拥有一个包含 100 个块的图像（即每个块为 100 像素）。如果开发了一种算法，可以在 10px x 10px 上运行，那么 10px x 10px 就是补丁大小。例如，CNN 的池化层采用更大的块并将它们变成一个像素，可以将其视为信号处理中的窗口。在图像处理补丁和窗口大多数情况下是可以互换的，但是当您的算法主要关注一堆像素共享相似属性的事实时，通常会在上下文中使用补丁。例如，补丁用于稀疏表示或图像压缩的上下文，而窗口用于边缘检测或图像增强。

Multi-headed self-attention(MHSA) Net：一种新的人物再识别模型，称为多头自我注意网络(MHSA-Net)，用于从人物图像中剔除不重要的信息并捕捉关键的局部信息。MHSA-Net包含两个主要的新颖组件：多头自我注意分支(MHSAB)和注意力竞争机制(ACM)。MHSAM自适应地捕获关键的局域人信息，然后产生有效的图像多样性嵌入，用于人的匹配。ACM进一步帮助过滤剔除注意力、噪音和非关键信息。通过广泛的消融研究，验证了结构化的自我注意分支和注意竞争机制都有助于MHSA-Net的性能提高。MHSA-Net在有遮挡的图像上作用深远。

对于应用程序来说，重要的是，transformer在所有计算过程中保持token数量。由于token与image patches有一对一的对应关系，这意味着ViT编码器在所有transformer阶段保持初始嵌入的空间分辨率。此外，MHSA是一个全局操作，因为每个token都可以关注并影响其他token。因此，transformer在初始嵌入后的每个阶段都有一个全局的接受域。这与卷积网络形成了鲜明的对比，卷积网络随着特征通过连续的卷积和下采样层时，逐渐增加了它们的接受域。

具体而言，ViT通过处理所有不重叠的正方形斑块从图像中提取嵌入的补丁从图像中获得 $p^{2}$ 像素的大小。这些补丁被扁平(flattened into)到向量中，并使用线性投影单独嵌入。另一种，更具样本效率的ViT变体通过对图像应用ResNet50来提取嵌入，并使用生成的特征映射的像素特征作为标记。由于transformer是set-to-set functions，因此它们本质上并不保留单个token的空间位置信息。因此，图像嵌入与可学习的位置嵌入连接，以将这些信息添加到表示中。在NLP中的工作之后，ViT还添加了一个与输入图像不相关的special token（readout token），并作为最终用于分类的全局图像表示。在此将这个特殊的标记称为读出标记。

Convolutional decoder

解码器将tokens组合成不同分辨率的类图像特征表示。特征表示逐渐融合到最终的密集预测中。文章提出了一个简单的三阶段重组操作，以从transformer encoder任意层输出的token中恢复类图像的表示形式

不管具体的transformer主干如何，都在四个不同的阶段和四个不同的分辨率上重新组装特征。以更低分辨率组装transformer深层的特征，而早期层的特征以更高分辨率组装。当使用ViT-Large时，从 l ={5，12，18，24}层重新组装tokens，而使用ViT-Base，使用 l ={3，6，9，12}层。当使用ViT-Hybrid时，使用了来自嵌入网络的第一和第二个ResNet块和阶段 l ={9,12}的特性。默认体系结构使用投影作为读出操作，并使用 $\hat{D}$ =256维度生成特性映射，将这些架构分别称为DPT-Base、DPT-Large和DPTHybrid。

最后，使用基于RefineNet的特征融合块结合从连续阶段提取的特征图，并在每个融合阶段对表示向上采样两次。最终的表示大小的分辨率是输入图像的一半，在此，附加一个特定于任务的输出头来产生最终的预测。完整架构的示意图概述如上图所示。