论文 – 第 8 页

Seed-Music: 字节高质量音乐生成模型

字节音乐大模型Seed-Music发布，支持一键生成高质量歌曲、片段编辑等

论文：《Seed-Music: Generating High-Quality Music in a Controlled Way》
技术报告地址：https://arxiv.org/pdf/2409.09214
Seed-Music 官网：https://team.doubao.com/seed-music

关键内容

关键技术贡献如下：

提出了一种基于新型 token 和语言模型（LM）的方法，并引入了一种能够根据不同类型用户输入生成专业生成内容（PGC）质量音乐的训练方法。
提出了一种全新的基于扩散模型的方法，特别适合音乐编辑。
引入了一种在歌唱声音背景下的零样本声音转换的新颖方法。系统可以根据用户短至 10 秒的参考歌唱或甚至普通语音的音色生成完整的声乐混音。

据豆包大模型团队官网介绍，Seed-Music 是一个具有灵活控制能力的音乐生成系统，包含 Lyrics2Song（歌词转歌曲）、Lyrics2Leadsheet2Song（歌词转简谱再转歌曲）、Music Editing（音乐编辑）、Singing Voice Conversion （歌声转换）四大核心功能，具体涵盖十种创作任务。

目前，业界在 AI 音乐领域的研究主要集中在以下几个核心问题：

音乐信号的复杂性：音乐信号包含多个重叠音轨、丰富的音调和音色以及广泛的频率带宽，不仅要保持短期旋律的连贯性，还要在长期结构上展现出一致性。
评估标准的缺乏：音乐作为一种开放、主观的艺术形式，缺乏一套通用的问题表述和用于比较的黄金指标，评估局限性大。
用户需求的多样性：不同的用户群体，如音乐小白、音乐初学者、资深音乐人等，对音乐创作的需求差异很大。

无论是传统的音乐辅助创作工具，还是当下热门的 AI 音乐生成的研究和产品，面向上述问题，均还处于摸索阶段。
比如针对音乐信号复杂性，Google、Meta、Stability AI 等各家在音频、演奏、曲谱层面上做了建模尝试，效果各有优缺，而且各家的评估方法均有局限，人工评测仍必不可少。
面对这些挑战，字节 Seed-Music 采用了创新的统一框架，将语言模型和扩散模型的优势相结合，并融入符号音乐的处理。

如上图所示，从高层次来看 Seed-Music 有着统一的音乐生成框架，主要包含以下三个核心组件：一个表征模型，用于将原始音频波形压缩成某种压缩表征形式；一个生成器，经过训练可以接受各种用户控制输入，并相应地生成中间表征；一个渲染器，能够从生成器输出的中间表征中，合成高质量的音频波形。
基于统一框架，Seed-Music 建立了三种适用于不同场景的中间表征：音频 token、符号音乐 token 和声码器 latent。

音频 token：通常以低于音频采样率的标记率学习，旨在有效编码语义和声学信息，能轻松桥接不同模态，但不同音乐信息高度纠缠，给生成器带来挑战。对应图二Audio Tokenizer的输出。
符号音乐 token：如 MIDI、ABC 记号或钢琴卷帘记号等，本质上离散，可被大型语言模型操作，具有可解释性，便于用户在辅助音乐创作中交互，但缺乏声学信息，依赖渲染器生成声学细节。对应图二的MIDI编码器输出。
声码器 latent：在探索基于扩散模型的音乐音频生成中，可作为中间表征，与量化音频标记相比，信息损失少、渲染器权重更轻，但生成器输出不可解释，且由于仅用波形重建目标训练，可能不够有效作为训练生成器的预测目标。对应图二扩散模型的输出部分。

满足多元需求专门提供高灵活编辑：

Seed-Music 创新点之一，在于能通过 lead sheet（领谱）来编辑音乐，这增加了音乐创作可解释性。
在官方视频的 Lead2Song 部分，可以看到同一版歌词，通过领谱增减音轨、改变输入风格后，就能得到不同结果的歌曲，显著提高模型的实用性。
除领谱外，Seed-Music 也能直接调整歌词或旋律。比如，“情人节的玫瑰花，你送给了谁 / 你送给别人”，歌词修改前后，旋律保持不变，音乐的连贯性得以保持，过渡效果非常平滑。

输入内容除了文本，也可以是音频，它能基于原曲输出续作或仿作。下面这首英文歌曲“摇身一变”，仿写成了中文古风歌。

哪怕输入临时录制的 10 秒人声， Seed-Music 的零样本音频转换技术都能够将其转化为流畅的声乐。惊喜的是，Seed-Music 能将中文人声输入转换为英文声乐输出，实现了跨语种人声克隆，扩大了音乐小白们的创作空间。

如图所示，中间表征对整个系统来说很重要，每种表征都有其特点和适用场景，具体选择取决于用户的音乐创作任务。

基于音频 token 的链路：包括 tokenizer、自回归语言模型、token 扩散模型和声码器，音频 token 有效地存储了原始信号的显著音乐信息，语言模型根据用户控制输入生成音频 token，token 扩散模型处理音频 token 以生成具有增强声学细节的音频波形。
基于符号音乐 token 的链路：采用符号音乐 token 作为中间表征，与音频 token 基于的管道类似，但有一些区别，如 lead sheet tokenizer 将信息编码为 token，语言模型学习预测 lead sheet token 序列，lead sheet token 是可解释的，并且允许在训练和推理中注入人类知识，但扩散模型从 lead sheet token 预测声码器 latent 更具挑战性，需要更大的模型规模。
基于声码器 latent 的链路：遵循通过 latent 扩散建模从文本直接生成音乐到声学声码器 latent 表征的工作，通过变分自编码器和扩散模型将条件信号映射到归一化和连续的声码器 latent 空间。

在上述链路中，Seed-Music 经历三个训练阶段：预训练、微调和后训练。预训练旨在为音乐音频建模建立强大的基础模型；微调包括基于高质量音乐数据集的数据微调，以增强音乐性，或者针对特定创作任务提高可控性、可解释性和交互性的指令微调；后训练是通过强化学习进行的，从整体上提高了模型的稳定性。
此外，在推理时，样本解码方案对于从训练模型中诱导出最佳结果至关重要。研究者们同时会应用模型蒸馏和流式解码方案来提高系统的延迟。

论文：《Seed-Music: Generating High-Quality Music in a Controlled Way》

摘要：

我们推出 Seed-Music，这是一套音乐生成和编辑系统，旨在通过细粒度的风格控制来制作高质量的音乐。我们的统一框架利用自回归语言建模和扩散方法来支持两个关键的音乐创作工作流程：受控音乐生成和后期制作编辑。为了控制音乐生成，我们的系统可以通过多模式输入的性能控制来生成声乐，包括歌词、风格描述、音频参考、乐谱和语音提示。对于后期制作编辑，它提供了交互式工具，可直接在现有音乐音轨中编辑歌词、旋律和音色。我们鼓励读者探索 https://team.doubao.com/seed-music 上的演示音频示例。

贡献。鉴于这些挑战，我们强调Seed-Music的多功能性。它支持声乐和器乐音乐生成、歌唱声合成、歌唱声转换、音乐编辑等。我们的方法、实验和解决方案旨在满足多样化的使用案例。我们提出一个统一框架，适应音乐家的不断发展工作流程，而不是依赖于单一的建模方法，如自回归（AR）或扩散。我们的关键贡献包括：

我们介绍了一个统一框架，该框架结合了自回归语言建模和扩散方法，以实现基于多种多模态输入的高质量声乐生成。
我们提出了一种基于扩散的方法，能够对音乐音频进行细粒度编辑。
我们提出了一种新颖的零样本歌唱声转换方法，仅需用户提供10秒的歌唱或语音录音。

第三部分介绍框架，该框架建立在三种基本表示上：音频标记、符号标记和声码器潜变量。将详细说明相应的流程和设计选择。在第四部分，我们深入探讨了我们的统一框架如何配置和训练以支持各种音乐生成和编辑任务。在第五部分和第六部分，我们讨论了Seed-Music的潜在应用和局限性，包括构建安全和道德生成AI系统的相关问题。

Method

我们的音乐生成系统由三个核心组件组成，如 Figure 1 所示：一个 表示学习模块，它将原始音频波形压缩为中间表示，作为训练后续组件的基础；一个 生成器，它处理各种用户控制输入并生成相应的中间表示；以及一个 渲染器，它根据生成器中的中间表示合成高质量的音频波形。

主要设计选择是中间表示。如第2节所述，我们确定了三种实用的选项：音频标记、符号音乐标记和声码器潜变量。每种选项的优缺点总结在表1中。

音频token旨在以远低于音频采样率的速率高效编码语义和声学信息。当与基于自回归语言模型的生成器一起使用时，音频标记可以有效连接不同的模态。然而，它们的主要限制在于缺乏可解释性，诸如声乐发音、音色和音高等音乐属性以高度纠缠的格式嵌入。先前的研究探讨了某些音频标记与语义特征的对应关系，而其他标记则捕捉声学方面。这种纠缠使生成器在生成音频标记时难以控制音乐的特定元素，如旋律和音色。

符号token（如MIDI、ABC符号和MusicXML）是离散的，可以轻松地被标记化为与语言模型兼容的格式。与音频标记不同，符号表示是可解释的，允许创作者直接读取和修改。然而，它们缺乏声学细节，这意味着系统必须高度依赖渲染器生成音乐表演的细腻声学特征。训练这样的渲染器需要大量的配对音频和符号转录数据集，而这种数据集在声乐音乐中尤其稀缺。

来自变分自编码器的声码器潜变量作为连续的中间表示，尤其是在与扩散模型结合使用时。这些潜变量捕获比量化音频标记更细致的信息，使得在此流程中渲染器可以更轻量化。然而，与音频标记类似，声码器潜变量也是不可解释的。此外，由于声码器潜变量是为了音频重构而优化的，它们可能编码过多的声学细节，这对生成器的预测任务帮助不大。

选择中间表示取决于具体的下游音乐生成和编辑任务。在本节的其余部分，我们将介绍系统设计的技术细节，以及这三种中间表示的应用案例，详见第4节。

Audio Token-based Pipeline

基于音频令牌的管道，如图2所示，包含四个构建块：(1) 音频令牌化器，将原始音乐波形转换为低速率离散令牌；(2) 自回归语言模型（即生成器），接收用户控制输入，将其转换为前缀令牌，并预测目标音频令牌序列；(3) 令牌扩散模型，根据音频令牌预测声码器潜变量；(4) 声学声码器，渲染最终的44.1kHz立体声音频波形。目标音频令牌到潜变量扩散模块和潜变量到波形声码器模块共同形成令牌到波形的过程，称为渲染器。

图2. Seed-Music管道概述，使用音频令牌作为中间表示。(1) 输入嵌入器将多模态控制输入（如音乐风格描述、歌词、参考音频或乐谱）转换为前缀嵌入序列。(2) 自回归语言模型生成一系列音频令牌。(3) 扩散变换模型生成连续声码器潜变量。(4) 声学声码器生成高质量的44.1kHz立体声音频。

音频tokenizer。音频tokenizer的有效性对该管道的成功至关重要。音频令牌嵌入了原始信号中的关键信息，如旋律、节奏、和声、音素和乐器音色。我们的实现受到Betker [2023]、Wang等 [2023b] 和Łajszczak等 [2024]的启发，并在架构和训练上进行了进一步优化，以实现以下目标：
• 在低压缩率下高保留关键信息，提高自回归语言模型的训练效率。
• 在语义和声学特征之间保持平衡，确保有足够的语义细节来优化生成器的训练，同时保持足够的声学细节以便渲染器准确重建波形。这个令牌生成与信号重建之间的权衡 [Blau和Michaeli，2019] 被仔细管理。

生成器。自回归语言模型通过对控制信号进行条件处理生成音频令牌，这些控制信号引导生成期望的音频输出。每个训练示例由配对的注释和音频组成，注释被转换为一系列嵌入，作为语言模型的前缀。不同控制信号模态的处理总结如下：

• 分类信号：闭合词汇标签（如音乐风格）通过查找表转换为分类嵌入，而自由形式的文本描述则使用MuLan [Huang et al., 2022]的通用文本编码器进行处理。
• 浮点信号：旋律音符持续时间或歌曲长度等变量使用xVal编码 [Golkar et al., 2023] 嵌入，以表示连续数值输入。
• 歌词信号：歌词被转换为音素序列，以捕捉发音，改善模型对未见单词的泛化能力。
• 参考音频信号：tokenizer从参考音频中提取离散令牌序列，然后将其映射到与tokenizer的码本大小相同的连续嵌入查找表中，或者进一步聚合为轨道级嵌入。
在训练过程中，模型通过使用教师强制在下一个令牌预测任务上最小化交叉熵损失。在推理阶段，用户输入根据指定模态转换为前缀嵌入，然后自回归地生成音频令牌。

渲染器。一旦自回归语言模型生成音频令牌，这些令牌就由渲染器处理，以生成丰富的高质量音频波形。渲染器是一个级联系统，由两个组件组成：扩散变换器（DiT）和声学声码器，两者均独立训练。DiT采用标准架构，具有堆叠的注意力层和多层感知机（MLP）。其目标是逆转扩散过程，从噪声中预测干净的声码器潜变量，通过在每一步估计噪声水平。声学声码器是低帧速率变分自编码器声码器的解码器，设计类似于[Kumar et al., 2024, Lee et al., 2022, Cong et al., 2021, Liu and Qian, 2021]。我们发现，将声码器潜变量结构化为级联系统中的信息瓶颈，并结合可控的模型大小和训练时间进行优化，能够产生优于直接将音频令牌转换为波形的单一模型的音频质量和更丰富的声学细节。

Symbolic Token-based Pipeline

与音频令牌基础管道不同，符号令牌生成器（如图3所示）旨在预测符号令牌，以提高可解释性，这对解决Seed-Music中音乐家的工作流程至关重要。

图3. 使用符号令牌作为中间表示的管道概述。(1) 自回归语言模型根据用户提示生成对应于乐谱的符号令牌。(2) 扩散变换模型根据符号令牌生成连续声码器潜变量。(3) 然后，声码器生成高质量的44.1kHz立体声音频波形。

先前的研究提出了旋律生成算法 [Ju et al., 2021; Zhang et al., 2022]。然而，它们缺乏对声乐音乐生成至关重要的明确音素和音符对齐信息。此外，它们仍然仅限于符号音乐生成，无法进行音频渲染。在另一条研究线上，有一些特定任务的先前工作研究了通过和声 [Copet et al., 2024]、力度和节奏 [Wu et al., 2023] 等音乐可解释条件来引导音乐音频生成的方法。受到爵士音乐家如何使用乐谱来勾勒作品旋律、和声和结构的启发，我们引入了“乐谱令牌”作为符号音乐表示。我们强调乐谱令牌与音频令牌相比的关键组成部分、优点和局限性如下。

• 为了从音频中提取符号特征以训练上述系统，我们利用内部开发的音乐信息检索（MIR）模型，包括节拍跟踪 [Hung et al., 2022]、调性和和弦检测 [Lu et al., 2021]、结构部分分段 [Wang et al., 2022]、五种乐器的MIDI转录（即人声、钢琴、吉他、贝斯和鼓） [Lu et al., 2023; Wang et al., 2024a]，以及歌词转录。乐谱令牌表示音符级细节，如音高、持续时间、在小节中的位置、与音符对齐的声乐音素，以及轨道级属性，如段落、乐器和节奏。

• 乐谱令牌与可读乐谱之间的一对一映射使创作者能够直接理解、编辑和与乐谱互动。我们尝试了不同的方法来生成乐谱令牌序列：REMI风格 [Huang和Yang, 2020] 和 xVal [Golkar et al., 2023]。REMI风格的方法将乐器轨道交错到量化的基于节拍的格式中，而xVal将起始和持续时间编码为连续值。虽然xVal风格编码在更贴合我们生成模型的最终产品——音乐表现，但我们发现REMI风格更适合与音乐家的用户互动。

• 乐谱令牌允许在训练和推理过程中融入人类知识。例如，可以在预测序列中下一个令牌时应用音乐理论规则作为约束，以提高预测准确性。

• 由于乐谱令牌缺乏声学特征表征，我们需要在级联渲染器中扩大令牌到潜变量的扩散模型，以实现与音频令牌基础系统相同的端到端性能。

Vocoder Latent-based Pipeline

先前的研究 [Evans et al., 2024c,d; Levy et al., 2023; Rombach et al., 2022] 表明，“文本到音乐”的任务可以通过直接预测声码器潜变量来实现高效的方法。类似地，我们训练了一个在低潜变量帧率下运行的变分自编码器（VAE），并配合一个扩散变换器（DiT），将条件输入映射到标准化的连续声码器潜变量，如图4所示。

图4. Seed-Music管道，使用声码器潜变量作为中间表示。(1) 通过交叉注意、前缀或时间条件将各种输入类型输入到扩散变换器（DiT）。(2) 扩散变换模型预测连续声码器潜变量。(3) 然后，声学声码器生成高质量的44.1kHz立体声音频

与基于音频令牌的管道相比（见第3.1节），自回归变换器模块被省略，尽管DiT和声码器的架构仍然大体相似。为了实现可比的性能，其他剩余模块的模型大小被扩大。在自回归方法中，所有条件输入被编码为前缀序列中的令牌，这可能导致过长的前缀，从而在处理更大和更复杂的输入时性能下降。相反，基于声码器潜在设计提供了更大的灵活性，能够更好地融入更广泛的条件信号，并支持多通道输入和输出。我们总结了不同类型提示的使用方式如下：

声码器潜在空间中的上下文条件：这使得音频修补场景成为可能，例如音频延续和编辑。
输入噪声空间中的上下文条件：对于歌词和风格描述等可变长度输入，交叉注意层在每个变换器块中应用，以融入这些输入。
跨多个轨道的时间输入：时间变化信号（如旋律轮廓、强度曲线和时间对齐的乐器音轨）可以在去噪过程中每一步添加作为条件输入。
多通道输出：在训练期间提供多通道输出示例时得到支持。例如，模型可以生成多个音乐上不同的音轨（如人声、贝斯、鼓和吉他），从而实现混音和重混等下游制作场景。这些音轨级别的训练示例可以通过音乐源分离（MSS）获得。

Model Training and Inference

对于上述所有管道，Seed-Music经历三个训练阶段：预训练、微调和后训练，类似于Seed-TTS和其他基于文本的语言模型。预训练阶段旨在为通用音乐音频建模奠定更好的基础。微调阶段包括数据微调以增强音乐性，或指令微调以提高特定创作工作流程的可控性、可解释性和互动性。

Seed-Music的后训练通过强化学习（RL）进行，这已被证明在文本和图像处理方面是一种有效的学习范式。近期研究表明，近端偏好优化（PPO）可以扩展到音乐和语音生成。受这些发现的启发，我们探索了RL方法，以改善生成输出与各种输入控制信号的对齐，并增强音乐性。我们考虑的奖励模型包括：原歌词提示与从生成音频提取的歌词转录之间的编辑距离，输入流派与音频输出检测流派的比较精度，以及歌曲结构提示与生成音频检测结构之间的匹配。此外，基于节奏、乐器、音频参考和用户语音提示的额外奖励模型可以用于指示生成输出中强调哪些音乐属性。此外，结合人类反馈可以产生捕捉用户细微偏好的奖励模型。我们将对RL的深入研究留待未来工作。

在推理过程中，样本解码方案的选择对自回归和扩散模型的输出质量和稳定性至关重要。我们观察到，仔细调整无分类器引导至关重要，以确保音乐性和对提示的遵循。为了减少延迟，我们应用模型蒸馏以最小化DiT模型所需的迭代步骤。此外，我们开发了一种流式解码方案，允许在自回归模型继续生成令牌序列的同时进行音频流生成。

Experiments

在本节中，我们展示了四个基于模型能力的应用：Lyrics2Song（第4.1节）、Lyrics2Leadsheet2Song（第4.2节）、MusicEDiT（第4.3节）和zero-shot唱歌声音转换（第4.4节）。

在Lyrics2Song中，我们介绍了一个基于用户提供的歌词和音乐风格输入生成高质量人声音乐的系统。Lyrics2Leadsheet2Song在Lyrics2Song的基础上，结合了符号音乐表示，以增强可解释性，并生成乐谱，用户可以访问并调整旋律和节奏，从而更精细地控制最终音频输出。MusicEDiT探索了一种基于扩散的修补系统，使用户能够编辑现有音乐音频的歌词和旋律，作为后期制作工具来修改歌曲的人声。在zero-shot唱歌声音转换中，我们提供了一种解决方案，允许用户基于自己的声音在现有音频中修改人声音色，且仅需最少的参考数据。这一应用以低准备成本促进了人声个性化。对于上述每个应用，我们讨论了与中间表示、模型架构和其他配置相关的设计选择，以优化系统以适应各自的用例。

Lyrics2Song

Lyrics2Song生成基于用户提供的音乐风格描述和带有章节标签（如“段落”、“副歌”和“桥段”）的歌词的声乐音乐表演。这项任务利用音频基于令牌的管道，借助令牌化和自回归技术对多模态数据（即歌词、风格、标签和音频）进行对齐，并支持流式解码以实现快速、响应式的交互。

该系统支持短音频片段的生成和完整曲目的制作。生成的音频展示了富有表现力和动态的人声表演，旋律动人，并且乐器种类繁多，涵盖多种风格，展现出成熟的音乐性。

带音频参考的人声音乐生成

除了风格描述外，我们的系统还支持音频输入作为提示来指导音乐生成。通过收听示例，可以看到输出是如何参考音频提示的音乐风格生成的。由于用文本或标签描述所需音乐对新手用户来说可能不够直观，因此音频提示提供了一种更有效的交流音乐意图的方式。

我们的系统支持两种音频提示模式：继续模式和混音模式。在继续模式中，从音频参考提取的音频令牌被连接到前缀中，以继续自回归生成，从而确保与参考音频在结构、旋律和声响上的高度相似。在混音模式中，音频参考被转换为预训练的联合文本-音频嵌入空间中的嵌入向量。这一嵌入总结了音频参考的全局特征，然后被纳入前缀中以指导生成，使生成的音频能够采纳不同的风格。

在这两种模式下，我们的模型展示了强大的能力，能够保持输入歌词与音频参考中固有歌词之间的连贯性，即使在没有自动歌词转录的帮助下。当输入歌词在结构和语义上与音频参考中的歌词相似时，模型倾向于模仿参考的旋律和结构。然而，当输入歌词在风格上显著不同（例如语言、结构、押韵）时，连贯性会减弱。尽管如此，模型仍能有效保持自然的节奏模式、乐器、声乐质量和整体音乐主题。

器乐音乐生成

虽然音频基于令牌的管道主要设计用于声乐音乐生成，但如果歌词输入仅包含章节标签而没有文本，它也支持器乐音乐生成。我们提供了多种风格的器乐生成示例，每个部分按指定时间展开，并展示了部分之间清晰的结构转换（例如，从段落到副歌）。

评估指标

我们使用以下定量指标在开发过程中评估生成质量。这些指标也被重新用于自回归语言模型的强化学习过程中的奖励模型。

词错误率（WER）：我们使用内部开发的唱歌歌词转录模型，该模型支持英语和中文，以转录生成的音频并计算与歌词提示的词（或拼音）错误率。虽然有用，但由于延长元音、辅音、音高变化和类似非语言节奏等因素，WER并不是评估音乐声乐质量的完美指标。这些特征可能会引入噪声。
音乐标签性能：为了评估生成音频与输入风格描述之间的对齐，我们使用内部开发的音乐标签和结构分段模型，从生成的音频中预测高层次的音乐属性，包括流派、情绪、声乐音色、声乐性别和结构部分。这些预测属性与输入的风格描述和章节标签进行比较，以平均精确度分数作为相关性的定量指标。

对于定性评估，我们使用比较平均意见得分（CMOS），基于一组音乐训练评审员的反馈。我们定义了以下三个评估维度：

音乐性：评估音乐属性，包括声乐旋律的新颖性、和声的适当使用、惯用音乐形式（例如主题、变奏）、连贯结构、合适的和弦进行、特征节奏模式和完善的乐器配器。
音频质量：评估声学特性，如声乐清晰度、乐器真实感、频谱细节以及鼓的瞬态和起音的清晰度。评审员还考虑任何不希望的音频伪影，如失真、闷音或某些频段能量缺失。
提示遵循：衡量生成音频与输入歌词和风格提示的吻合程度。

在语音领域，基准数据集已建立用于评估TTS系统，采用WER和自动说话人验证（ASV）等指标。然而，目前没有相应的音乐生成基准提供定量评分。此外，音乐性—评估音乐生成质量的关键因素—具有高度的主观性，并且难以用客观指标量化。我们鼓励读者收听提供的音频示例，以更好地评估我们系统的质量。

音频令牌与声码器潜在

我们还使用声码器潜在基础管道进行Lyrics2Song实验，取得了与音频令牌基础管道相当的性能。然而，我们发现自回归语言模型在交互应用中固有地更适合于扩散模型。其因果架构使流式解决方案能够提供近乎实时的体验，同时还允许与多模态模型的未来集成。

Lyrics2Leadsheet2Song

Lyrics2Leadsheet2Song管道是一个两步过程，用于实现Lyrics2Song任务：Lyrics2Leadsheet和Leadsheet2Song。在第一步中，从输入的歌词和风格描述生成乐谱令牌。在第二步中，从乐谱令牌生成音乐音频。整体管道如第3.2节所示。乐谱令牌使用户能够参与生成过程，在最终渲染之前编辑旋律、和弦、乐器和节奏。

Lyrics2Leadsheet

我们基于[Chen et al., 2024c]开发了一种基于规则的符号音乐编码方案，以将音乐音频片段的符号特征编码为乐谱令牌序列。如图5所示，该方案编码了歌词和各种音乐事件。它识别八种事件类型：歌词音素、小节、和弦、声乐音符、低音音符、钢琴音符、吉他音符和鼓音符。除“小节”外，每种事件类型在乐谱令牌中都表示为一个独特的“轨道”。小节事件定义了基本的时间结构，各轨道按小节交错排列。

对于轨道内的每个事件（例如，音素、音符、和弦），我们在适用时编码开始时间、持续时间和音高值。

如第3.2节所述，生成器使用我们内部的MIR模型提取的乐谱令牌进行训练。以下是一些示例，展示了自回归语言模型如何根据输入的歌词和风格提示预测与音素对齐的音符，以及适合流派的旋律和节奏。

Leadsheet2Song

Leadsheet2Song管道涉及从一系列乐谱令牌渲染完整的音频混音。在演示示例中，我们展示了生成的声乐音乐如何遵循给定乐谱令牌中的声乐旋律、音素、节奏、和弦进行和乐器音符。渲染器有效地生成自然且富有表现力的多乐器音乐表演的细微差别，为专业人士提供了一种强大的工具，以快速回顾音频结果，而无需在合成器中进行细致的参数调整。

Leadsheet2Vocals

除了生成完整的音频混音外，Lyrics2Leadsheet2Song系统可以配置为生成单独的音轨，包括人声、鼓、低音、钢琴和吉他，既可以使用符号表示也可以生成音频。唱歌声音合成（SVS）是该系统的一个应用，其中模型设置为仅输出人声音轨，如这些示例所示。

Music Editing

在本节中，我们探讨音乐音频编辑作为后期制作过程。第3.3节中描述的基于扩散的方法的非因果特性使其特别适合此类任务。例如，在文本条件下的修补中，扩散模型能够在遮蔽音频段前后访问上下文，从而确保更平滑的过渡[Wang et al., 2023c]。我们将此框架视为乐谱条件下的修补任务，以训练DiT模型。在推理过程中，修改后的乐谱作为条件输入，遮蔽与乐谱中修改部分对应的音频段并重新生成。

在这些听力示例中，我们展示了系统在保持旋律和伴奏的同时，精确修改演唱歌词的能力，支持英语和普通话的演唱。在某些情况下，歌词在同一语言内进行修改，而在其他情况下，系统允许在语言之间交替。此外，在这些示例中，我们展示了用户如何在指定的时间段内精确调整旋律，同时保持歌词、其余旋律和伴奏轨道不变。这种新的“生成音频编辑”范式让我们感到兴奋，因为它保留了原始曲目的音乐表现和基本特质，而这一点在没有重新录制人声及原始乐器音轨的情况下以往是复杂或几乎不可能实现的。

Zero-shot Singing Voice Conversion

为创作者编辑声乐音乐的最直观方式之一是将声乐音色转换为与其自身声音相匹配的音色。本节探讨了作为Seed-Music套件最终组成部分的唱歌声音转换（VC）系统。尽管我们的唱歌VC方法与Seed-TTS中介绍的语音VC有相似之处，但在声乐生成背景下的声音克隆和转换面临更大的挑战[Arik et al., 2018]：

声乐混合：声乐音乐通常由声乐和背景乐器伴奏组成，两者在和声和节奏方面具有强一致性。相比之下，语音信号往往包含与语音内容无关的背景环境声音。尽管现代MSS模型可以隔离声乐，但通常会引入降低质量的伪影。我们的目标是开发一个可扩展的系统，能够直接处理声乐与背景轨道的混合，而不依赖MSS，从而避免这些伪影。
声乐范围：唱歌声音的音高范围远大于语音。在零-shot唱歌VC中，系统必须将参考声音的音高范围推广到合成的唱歌声音，这对模型的鲁棒性提出了很高要求。
声乐技巧：唱歌声音具有高度表现力，并涉及比语音更多的技巧。同一位歌手在歌剧中、音乐剧或爵士即兴中演唱时，听起来可能截然不同。唱歌VC系统必须准确捕捉和重现这些表现性技巧，同时处理清晰发音和韵律等常规语音特征。
唱歌与语音参考：在VC应用中，用户通常提供语音作为参考声音，无论是用于语音还是唱歌合成。我们的系统专门设计为能够接受无论是语音还是唱歌的参考声音，并能够有效地使用短语音片段作为参考进行唱歌VC。
业余与专业唱歌：与语音VC数据相比，业余唱歌与专业唱歌的配对数据显著较少。这使得唱歌VC特别具有挑战性，因为模型必须适应非专业唱歌输入，并将其转换为专业质量的表现。例如，如果用户提供的唱歌参考音调不准，唱歌VC系统不仅要捕捉其声音的音色，还必须纠正音高。

听力示例展示了我们的唱歌VC系统在不同场景下的表现。结果的质量在很大程度上取决于参考声音与目标唱歌信号之间的相似性。例如，当两者都是用英语演唱的男性声音时，效果最佳。然而，处理跨性别和跨语言的情况更具挑战性，往往会导致伪影、失真和发音不一致等问题。

结论

在本报告中，我们介绍了Seed-Music，这是一个全面的音乐生成和编辑系统套件，旨在支持多样化的音乐创作工作流程。我们展示了该系统如何基于多模态输入（包括歌词、风格描述、音频参考、乐谱和声音提示）生成高质量的声乐音乐。我们的统一框架通过三种中间表示（即音频标记、乐谱标记和声码器潜在表示）及其相关管道，满足各种用例，为用户提供灵活的工具，从创意到生成和编辑。

从应用的角度来看，Seed-Music 降低了艺术创作和音乐表达的门槛。我们相信本报告中的演示可以赋能从初学者到专业人士的广泛创作者。例如，文本到音乐系统与零-shot唱歌声音转换的结合，使初学者能够更深入地参与创作过程。初学者不仅是从远处与音乐互动，而是能将自己独特的声音和身份融入到过程中，增强创意的构思。

音乐也是短视频、电影、游戏和增强现实/虚拟现实体验等补充媒体的重要组成部分。实时条件控制和生成音乐的渲染引入了全新的互动形式，超越了传统的音频播放。我们展望新的艺术媒介，在这些媒介中，生成音乐能够响应来自文本、游戏叙事和视觉艺术风格的条件信号。

对于专业人士而言，提议的乐谱标记旨在无缝集成到音乐家、作曲家、歌手和艺术家的工作流程中。我们相信，这些标记有潜力发展成为音乐语言模型的符号标准，类似于传统音乐制作中的MIDI。音乐家和制作人可以在保持对旋律、和声和节奏元素的熟悉控制的同时，利用生成模型的强大功能。此外，能够编辑和操控录制的音乐，同时保持其音乐语义，将为行业节省大量时间和成本。我们对未来在音轨生成和编辑方面的发展特别感兴趣，这将超越声乐轨道。这些能力将使专业人士能够更高效地探索音乐创意，从而增加发现“意外惊喜”的可能性，这通常对创作过程至关重要。

Qwen2-Audio：让LLM 拥有“耳朵”

Qwen2-Audio-7B 🤖 | 🤗 ｜ Qwen-Audio-7B-Instruct 🤖 | 🤗 ｜ Demo 🤖 | 🤗

论文链接–https://arxiv.org/abs/2407.10759

代码链接–github.com/QwenLM/Qwen2-Audio

Qwen2-Audio作为一个大规模音频语言模型，Qwen2-Audio能够接受各种音频信号输入，并根据语音指令执行音频分析或直接响应文本。我们引入两种不同的音频交互模式：

语音聊天：用户可以自由地与Qwen 2-Audio进行语音交互，无需文字输入;
音频分析：用户可以在交互过程中提供音频和文本指令进行分析;
多语言支持：该模型支持超过8种语言和方言，例如：中文、英语、粤语、法语、意大利语、西班牙语、德语和日语。

Qwen 2-Audio是一个大规模的音频语言模型，它能够接受各种音频信号输入，并对语音指令进行音频分析或直接的文本响应。与复杂的分层标签相比，我们通过利用不同数据和任务的自然语言提示简化了预训练过程，并进一步扩大了数据量。我们提升了Qwen 2-Audio的语音追踪能力，并实现了语音聊天和音频分析两种不同的音频交互模式。在语音聊天模式下，用户可以自由地与Qwen 2-Audio进行语音交互，无需文字输入。在音频分析模式下，用户可以在交互过程中提供音频和文本指令进行分析。请注意，我们不使用任何系统提示来在语音聊天和音频分析模式之间切换。 Qwen 2-Audio能够智能地理解音频中的内容，并按照语音命令做出适当的响应。例如，在同时包含声音、多说话者对话和语音命令的音频片段中，Qwen 2-Audio可以直接理解命令并提供对音频的解释和响应。

Qwen2-Audio、Qwen-Audio 以及之前 LALM 顶级产品的性能，例如 SpeechT5 、SpeechNet、 SpeechLLaMA、SALMONN、Whisper、Pengi，和 SpeechVerse。我们展示了 10 个数据集的测试集结果，涵盖自动语音识别 (ASR)、语音到文本翻译 (S2TT)、语音情绪识别 (SER)、声音分类 (VSC) 和指令跟踪基准。 ASR 数据集（例如 Librispeech 和 Aishell2）的结果参考 1 – WER%。 CoVoST2的结果是七个翻译方向（en-de、de-en、en-zh、zh-en、es-en、fr-en和it-en）的平均BLEU得分。 AIR-Bench 聊天基准测试的结果包含四个维度：语音、声音、音乐和混合。每个维度的分数由 GPT-4 自动评估，值范围为 0 到 10。 Qwen2-Audio 无需任何针对特定任务的微调即可实现卓越的性能，超越了同类产品。

介绍

音频是人类和其他生物之间互动和交流的重要媒介，承载着丰富的信息内容。全面理解各种形式的音频信号对于实现通用人工智能 (AGI) 至关重要。Qwen2-Audio主要重点是增强其指令跟踪能力。 Qwen2-Audio 是一种大型音频语言模型 (LALM)，旨在处理音频和文本输入以生成文本输出。与之前的模型相比，Qwen2-Audio 显着扩展了训练数据集。为了减少训练前和训练后阶段之间的差距，我们通过直接使用自然语言提示各种数据和任务来简化预训练过程，如下图所示。遵循大语言模型（OpenAI，2023；Qwen，2023）的实践，我们进一步进行指令调优和直接偏好优化，使模型的输出与人类偏好保持一致。

Qwen2-Audio 以两种不同的模式运行：音频分析和语音聊天。这两种模式从功能上有所区别，但用户在使用过程中无需区分。在音频分析模式下，用户可以利用Qwen2-Audio来分析多种音频类型，包括语音、声音、音乐或各种混合音频形式。 命令可以通过音频或文本发出，Qwen2-Audio 将自动识别音频中的命令片段。相反，在语音聊天模式下，用户可以与 Qwen2-Audio 进行交互，就好像它是一个会话代理一样，进行不受限制的对话。提供音频交互，用户可以随时切换到文本交互。例如，如果用户输入一个音频剪辑，其中初始部分是键盘打字的声音，然后用户询问“这是什么声音？”在口语中，Qwen2-Audio 预计会直接回复“这是键盘的声音”。

方法

模型架构

Qwen2-Audio的训练过程如图2所示，其中包含音频编码器和大语言模型。给定配对数据(𝒂,𝒙)，其中𝒂和𝒙表示音频序列和文本序列，训练目标是最大化下一个文本词符的概率为：

以音频表示和先前文本序列 𝒙<t 为条件，其中 θ 和 ϕ 分别表示大语言模型和音频编码器的可训练参数。

与Qwen-Audio不同的是，Qwen2-Audio的音频编码器的初始化是基于Whisper-large-v3模型。为了预处理音频数据，我们将其重新采样到 16kHz 的频率，并使用 25ms 的窗口大小和 10ms 的跳跃大小将原始波形转换为 128 通道梅尔频谱图。此外，还合并了步长为 2 的池化层，以减少音频表示的长度。因此，编码器输出的每一帧大约对应于原始音频信号的 40ms 片段。 Qwen2-Audio 仍然采用大型语言模型 Qwen-7B 作为其基础组件。 Qwen2-Audio的总参数为8.2B参数。

预训练

在预训练阶段，我们用自然语言提示替换分层标签。如图2所示。我们发现使用语言提示可以提高更好的泛化能力和更好的指令跟随能力。

有监督微调

Qwen2-Audio的彻底预训练使模型对音频内容有了全面的理解。在此基础上，我们采用基于指令的微调技术来提高模型与人类意图保持一致的能力，从而形成交互式聊天模型。我们的初步研究强调了 SFT 数据的质量和复杂性对模型性能的关键影响。因此，收集了一组精心策划的高质量 SFT 数据，并实施了严格的质量控制程序。

我们考虑两种不同的人类互动模式：

音频分析：在音频分析模式下，用户可以灵活地让 Qwen2-Audio 分析各种音频。 用户指令可以通过音频或文本给出。该模式常用于音频文件的离线分析。
语音聊天：在语音聊天模式下，鼓励用户与Qwen2-Audio进行语音对话，提出各种问题。请随意将其视为您的语音聊天助手。该模式常用于与 LALM 的在线交互。

为了一致性和模型统一性，两种交互模式都经过联合训练，用户在使用过程中不会出现模式差异化，也无需使用单独的系统提示在不同模式之间切换。 两种模式在实际使用中是无缝结合的。

直接偏好优化(DPO)

我们采用 DPO (Rafailov 等人, 2024) 来进一步优化模型以遵循人类偏好。通过获取带有三元组数据(𝒙,𝒚_𝒘,𝒚_𝒍)的数据集𝒟，其中𝒙是带有输入音频的输入序列，𝒚_𝒘和𝒚_𝒍 分别是人工注释的好响应和坏响应，我们对模型 𝒫θ 进行如下优化：

其中𝒫ref表示用𝒫θ初始化的参考模型，σ表示sigmoid函数，β是超参数。图2说明了Qwen2-Audio的三阶段训练过程。

实验

在实践中，我们发现之前的许多测试数据集都非常有限，无法充分反映现实场景中的性能，例如一些SLU（口语理解）和SER（语音情感识别）数据集。因此，我们主要直接在AIR-Bench上评估性能。我们发现 AIR-Bench 的分数更符合实际的用户交互体验。同时，为了评估Qwen2-Audio的通用理解能力，如表1所示，我们仍然进行了涵盖各种任务的综合评估，即自动语音识别（ASR）、语音识别-文本翻译（S2TT）、语音情感识别（SER）、语音分类（VSC）。评估是在 13 个数据集上进行的。评估数据集被严格排除在训练数据之外，以避免数据泄露。我们比较的模型包括开源模型和可调用的 API，例如 Gemini。

表2：自动语音识别 (ASR)、语音到文本翻译 (S2TT)、语音情绪识别 (SER)、声音分类 (VSC) 和 AIR-Bench 聊天基准测试的结果。请注意，对于 Qwen2-Audio，Fleurs 的结果是零样本，而 Common Voice 的结果不是零样本。

案例：

结论：

在本文中，我们提出了 Qwen2-Audio，它建立在 Qwen-Audio 分析各种类型音频的能力之上，同时还被赋予了语音交互能力。在预训练阶段，我们针对不同的数据和任务利用自然语言提示，进一步扩大了数据量。 在SFT阶段，我们通过提高SFT数据的数量、质量和复杂性来增强Qwen2-Audio与人类交互的一致性，从而实现无缝的语音和文本交互。 此外，我们还通过 DPO 阶段提高了 Qwen2-Audio 的响应质量。在不同基准上测试的客观指标证明了 Qwen2-Audio 在音频理解和对话能力方面的熟练程度。论文中的案例也说明了Qwen2-Audio流畅灵活的语音交互能力。

补充：语音/文本嵌入融合

Qwen-audio-chat模型如何将音频特征与文本提示无缝融合，通过特征编码、位置标记和信息整合，提升模型的跨模态理解能力。

系统会提取音频的特征，然后对文本提示进行嵌入（Embedding）处理。具体来说，它通过将音频特征转换成一个三维向量（如[1,56,4096]），并将这个向量嵌入到文本提示中。例如，考虑到一个文本提示信息，其中包括标记转换为ID的过程，随后是与音频特征的结合，即在文本中通过和标签指明音频的开始与结束位置。

在融合过程中，系统通过ID定位到这些标签所代表的位置，并用音频特征向量A替换掉文本提示中的“Audio_path/audio_name.flac”相对应的向量表示。这样，音频特征就被有效地融合到文本提示中，形成了一个语言模型能够理解的向量表示。

 // A code block
     <|im_start|>system
    You are a helpful assistant.<|im_end|>
    <|im_start|>user
    Audio 1:<audio>Audio_path/audio_name.flac</audio>
    what does the person say?<|im_end|>
    <|im_start|>assistant

代码实现：

// An highlighted block
bos_pos = torch.where(input_ids == self.config.audio['audio_start_id'])
eos_pos = torch.where(input_ids == self.config.audio['audio_start_id'] + 1)
audio_pos = torch.stack((bos_pos[0], bos_pos[1], eos_pos[1]), dim=1)
if audios is not None:
	for idx, (i, a, b) in enumerate(audio_pos):
	     hidden_states[i][a : b+1] = audios[idx]
	output_shape = input_shape + (hidden_states.size(-1),)

LLaMA-Omni 开源语音交互大模型

LLaMA-Omni是基于Llama-3.1-8B-Instruct构建的低延迟、高质量的端到端语音交互模型，旨在实现GPT-4o级别的语音功能。

HF链接–https://huggingface.co/ICTNLP/Llama-3.1-8B-Omni

论文链接–https://arxiv.org/pdf/2409.06666

代码链接–https://github.com/ictnlp/LLaMA-Omni

总的来说，LLaMa-Omni的训练方法第一阶段类似Qwen2Audio模型，都是用whisper large作为音频编码器，“输入文本-语音特征-文本”的输入，输出文本，用于训练LLM和 Speech Adaptor 。第二阶段，为了将文本输出转成语音输出，固定LLM和 Speech Adaptor, 用 LLM输出的隐藏状态作为输入，生成与语音响应对应的HUBERT离散单元序列，然后使用该序列合成语音。缺点：hubert token合成的语音生硬、缺乏声学信息，后续可以替换为WavTokenizer 或者 RVQ【encodec、soundsream】的方法合成带声学特征的语音。因为输出的是离散的hubert token，可以一边输出，一边流式合成语音。第一阶段本质上是让LLM拥有“耳朵”，第二阶段是让LLM能够”说话“。但一二阶段分离训练会不会导致第一阶段LLM学习到的都是一些语义知识，声学信息都损失掉了，这样的话即使在第二阶段替换不同的token方法也很难从LLM的输出中学习到声学信息。另外，在数据集的制作上，使用LJSpeech数据集训练了一个TTS，缺乏丰富的情感控制，后续可以考虑使用Seed-TTS /cosyvoice/SeedTTS 等情感可控的等语音合成方法来合成响应的音频。对于LLM主干网络的选择，可以考虑使用Qwen2Qudio这样的经过音频预训练过的LLM模型和语音编码器作为主干，只需要对音频解码器进行第二步的解码器微调训练。

“自从OpenAI推出了GPT-4o之后，它开启了语音交互大模型的大门。国内相继也有很多大公司和创业公司开始模仿它，计划推出自己的语音交互大模型。ChatGPT等大语言模型通常只支持基于文本的交互，而GPT4o的出现使得通过语音与LLM交互成为可能，按照极低的延迟响应用户的指令，并显著提升了用户体验。然而，开源社区在构建基于LLM的语音交互模型方面仍然缺乏探索。当前，实现与LLM的语音交互的最简单方法是通过基于自动语音识别（ASR）和文本到语音（TTS）模型的三段式级联系统，其中ASR模型将用户的语音指令转录为文本，TTS模型将LLM的响应合成为语音。然而，由于级联系统顺序输出转录文本、文本响应和语音响应，因此整个系统往往具有更高的延迟。

为了解决这个问题，作者提出了LLaMA-Omni，这是一种新的模型架构，旨在与LLM进行低延迟和高质量的语音交互。LLaMA-Omni集成了预训练语音编码器、语音适配器、LLM和流式语音解码器。它消除了对语音转录的需要，并且可以直接从语音指令中以极低的延迟同时生成文本和语音响应。LLaMA-Omni在内容和风格上都能提供更好的响应，响应延迟低至226ms。此外，整个LLaMA-Omni模型仅需要在4个GPU上训练3天左右。

💪 基于Llama-3.1-8B-Instruct构建，确保高质量的响应。

🚀 低延迟语音交互，延迟低至226 ms。

🎧 同时生成文本和语音响应。

♻️ 仅️使用4个GPU，在不到3天的时间内完成训练。

语音交互大语言模型发展历程

SpeechGPT算法简介

2023年，Dong Zhang, Shimin Li等人提出“SpeechGPT: Empowering large language models with intrinsic cross-modal conversational abilities”算法。本文提出了SpeechGPT，这是一种具有内在跨模态会话能力的大型语言模型，能够感知和生成多模型内容。通过离散语音表示，作者首先构建了SpeechInstruct，这是一个大规模的跨模态语音指令数据集。此外，作者采用了一种三阶段训练策略，包括模态适应预训练、跨模态教学微调和模态教学链微调。大量的实验结果表明：SpeechGPT具有令人印象深刻的能力，可以遵循多模态人类指令，并突出了用一个模型处理多种模态的潜力。

SALMONN算法简介

2024年，Changli Tang, Wenyi Yu等人提出“SALMONN: Towards generic hearing abilities for large language models”算法。SALMONN是一个支持语音、音频事件和音乐输入的大型语言模型（LLM），由清华大学电子工程系和字节跳动共同开发。SALMONN可以感知和理解各种音频输入，从而获得多语言语音识别和翻译以及音频语音协同推理等新兴功能，而不是仅语音输入或仅音频事件输入。这可以被视为赋予了LLM“耳朵”和认知听觉能力，这使SALMONN朝着有听觉功能的通用人工智能迈出了一步。

Qwen2-audio算法简介

2024年7月，Yunfei Chu, Jin Xu等人提出“Qwen2-audio technical report”算法。作为一个大规模音频语言模型，Qwen2-Audio能够接受各种音频信号输入，并根据语音指令执行音频分析或直接响应文本。作者介绍了两种不同的音频交互模式：语音聊天 voice chat 和音频分析 audio analysis。语音聊天：用户可以自由地与 Qwen2-Audio 进行语音互动，而无需文本输入；音频分析：用户可以在互动过程中提供音频和文本指令对音频进行分析；作者已经开源了 Qwen2-Audio 系列的两个模型：Qwen2-Audio-7B和Qwen2-Audio-7B-Instruct。

LLaMA-Omni背景简介

以ChatGPT为代表的大型语言模型（LLM）已经成为强大的通用任务求解器，它们能够通过对话交互帮助人们解决日常生活中的问题。然而，大多数LLM目前只支持基于文本的交互，这限制了它们在文本输入和输出不理想的情况下的应用场景。最近，GPT4o的出现使得通过语音与LLM交互成为可能，按照极低的延迟响应用户的指令，并显著提升了用户体验。然而，开源社区在构建基于LLM的语音交互模型方面仍然缺乏探索。因此，如何利用LLM实现低延迟和高质量的语音交互模型是一个亟待解决的重大挑战。当前，实现与LLM的语音交互的最简单方法是通过基于自动语音识别（ASR）和文本到语音（TTS）模型的三段式级联系统，其中ASR模型将用户的语音指令转录为文本，TTS模型将LLM的响应合成为语音。然而，由于级联系统顺序输出转录文本、文本响应和语音响应，因此整个系统往往具有更高的延迟。

相比之下，学者们相继已经提出了一些多模态语音语言模型，这些模型将语音离散化为标记，并扩展LLM的词汇表从而支持语音输入和输出。这种语音语言模型理论上可以直接从语音指令生成语音响应，而无需产生中间文本，从而实现极低的响应延迟。然而，在实践中，由于涉及复杂的映射，直接根据语音生成语音可能具有挑战性，因此通常会生成中间文本来实现更高的生成质量，然而这会牺牲一些响应延迟。

LLaMA-Omni算法简介

LLaMA-Omni由语音编码器、语音适配器、LLM和流式语音解码器组成。LLM用户的语音指令由语音编码器编码，然后由语音适配器编码，然后输入到LLM中。LLM直接从语音指令解码文本响应，而不首先将语音转录成文本。语音解码器是非自回归（NAR）流式传输Transformer，其将LLM的输出隐藏状态LLM作为输入并使用连接主义时间分类（CTC）来预测对应于语音响应的离散单元的序列。 在推理过程中，当LLM自回归生成文本响应时，语音解码器同时生成相应的离散单元。为了更好地适应语音交互场景的特点，我们通过重写现有的文本指令数据并进行语音合成来构建一个名为InstructS 2S-200 K的数据集。

大量的实验结果表明，与之前的语音语言模型相比，LLaMA-Omni在内容和风格上都能提供更好的响应，响应延迟低至226ms。此外，整个LLaMA-Omni模型仅需要在4个GPU上训练3天左右，为未来高效开发语音语言模型铺平了道路。

图1：LLaMA-Omni可以根据语音指令同时生成文本和语音响应，响应延迟极低。

LLaMA-Omni组成和算法流程

图2：左：LLaMA-Omni的模型架构。**右图：**LLaMA-Omni的两阶段培训策略示意图。

如上图所示，左图展示了LLaMA-Omni的模型的整体架构。它由一个语音编码器、语音适配器、LLM和语音解码器组成。详细的步骤如下所述：

首先，将用户的提问语音输入到一个Speech Encoder模块中执行语音编码操作，作者使用Whisper-large-v3的编码器作为语音编码器E；
然后，将其结果送入一个Speech Adaptor模块中。为了使LLM能够理解输入语音，作者引入了一个可训练的语音适配器，它能够将语音连续特征表示映射到LLM的嵌入空间中；
接着，将语言适配器的结果送入一个大语言模型中。作者使用Llama-3.1-8B-Instruct3，这是目前最先进的开源LLM。它具有很强的推理能力，与人类的偏好非常一致。
最后，将大语言模型的结果经过上采样之后送入一个Speech Decoder模块中。为了在生成文本响应的同时生成语音响应，作者在LLM之后添加了一个流式语音解码器D。它由几个与LLaMA具有相同架构的标准Transformer层组成，每个层都包含一个因果自我注意模块和一个前馈网络。

右图展示了LLaMA- Omni的两阶段训练策略示意图。在第一阶段中，作者训练模型直接从语音指令中生成文本响应。具体而言，语音编码器被冻结，语音适配器和LLM使用方程中的目标Lllm进行训练。在此阶段，语音解码器不参与训练。在第二阶段，训练模型从而生成语音响应。在此阶段，语音编码器、语音适配器和LLM都被冻结，只有语音解码器使用目标Lctc进行训练。

Speech Encoder

使用Whisper-large-v3的编码器作为语音编码器 ℰ 。Whisper是一种基于大量音频数据训练的通用语音识别模型，其编码器能够从语音中提取有意义的表示。具体地，对于用户的语音指令 X^S ，编码语音表示由 𝐇=ℰ⁢(X^S) 给出，其中 𝐇=[𝐡₁,…,𝐡_N] 是长度为 N 的语音表示序列。我们在整个训练过程中保持语音编码器的参数冻结。

Speech Adaptor

为了使LLM能够理解输入语音，我们结合了一个可训练的语音适配器 𝒜 ，它将语音表示映射到LLM的嵌入空间中。我们的语音适配器首先对语音表示 𝐇 进行下采样以减小序列长度。具体地，每 k 个连续帧沿特征维度被沿着连接：

接下来， 𝐇′ 通过线性层之间具有ReLU激活的2层感知器，产生最终的语音表示 𝐒，非离散的特征。上述过程可以形式化如下：

Large Language Model

我们使用Llama-3.1-8B-Instruct 作为LLM ℳ ，这是目前最先进的开源LLM。它具有强大的推理能力，并且与人类的偏好保持一致。提示模板 𝒫⁢(⋅) 如图3所示。将语音表示序列 𝐒 填充到对应于<speech>的位置，然后将整个序列 𝒫⁢(𝐒) 输入到LLM中。LLM最后，LLM自回归直接基于语音指令生成文本响应 YT=[y1T,…,yMT] ，并使用交叉熵损失进行训练：

Speech Decoder

对于语音响应 Y^S ，我们首先遵循Zhang等人将语音离散化为离散单元。具体来说，我们使用预训练的HuBERT模型来提取语音的连续表示，然后使用K均值模型将这些表示转换为离散聚类索引。随后，将连续的相同索引合并成单个单元，从而产生最终的离散单元序列 Y^U=[y₁^U,…,y_L^U],y_i^U∈{0,1,…,K−1},∀1≤i≤L ，其中 K 是簇的数目，并且 L 是离散单元序列的长度。离散单元可以用附加的基于单元的声码器 𝒱 转换成波形

为了与文本响应同时生成语音响应，我们在LLM之后添加了流式语音解码器 𝒟 。LLM它由几个标准的Transformer组成具有与LLaMA相同架构的层，每个包含因果自我注意模块和前馈网络。与Ma等人（2024 a）; Zhang等人（2024 b）2024 a）类似，语音解码器以非自回归方式运行，将LLM输出的隐藏状态作为输入，生成与语音响应对应的离散单元序列。LLM具体地，对应于文本响应的输出隐藏状态被表示为 𝐂=[𝐜1,…,𝐜M] ，其中

LLaMA-Omni算法实现细节

提示词模版

上图展示了提示模板P。语音表示序列S被填充到与<speech>对应的位置，然后整个序列P（S）被输入到LLM中。最后，LLM直接基于语音指令自回归生成文本响应结果，整个过程使用交叉熵损失进行训练。

Training

如图2所示，作者采用两阶段训练策略为LLaMA-Omni。在第一阶段，作者训练模型直接从语音指令生成文本响应。具体而言，语音编码器被冻结，而语音 Adapter 和LLM使用公式（3）中的目标进行训练。在这一阶段，语音解码器不参与训练。在第二阶段，作者训练模型生成语音响应。在此阶段，语音编码器、语音 Adapter 和LLM都被冻结，只有语音解码器使用公式（5）中的目标进行训练。

Inference

在推理过程中，LLM 自动回归地生成文本响应。同时，由于作者的语音解码器使用因果注意力，一旦 LLM 生成一个文本响应前缀，对应的 upsampled 隐藏状态可以被输入到语音解码器中，生成一个部分对齐，从而得到与生成的文本前缀对应的离散单元。

为了进一步实现语音波形的 Stream 合成，当生成的单元数量达到预定义的块大小时，作者将这个单元段输入到 vocoder 中，合成一个语音段，然后立即播放给用户。因此，用户可以在等待完整文本响应生成完成之前开始听语音响应，确保低响应延迟，该延迟不受文本响应长度的影响。

此外，由于语音解码器使用非自回归建模，每个文本令元对应的对齐都在块内并行生成。因此，同时生成文本和语音的解码速度与仅生成文本的速度之间没有显著差异。

在推理过程中，LLM根据语音指令自回归生成文本响应。同时，由于其语音解码器使用因果注意力机制，一旦LLM生成文本响应前缀，相应的上采样隐藏状态就可以被馈送到语音解码器中生成部分对齐结果，这反过来又产生了与生成的文本前缀对应的离散单元。

为了进一步实现语音波形的流式合成，当生成的单元数量达到预定义的块大小时，作者将该单元段输入到声码器中以合成语音段，然后立即向用户播放。因此，用户可以开始收听语音响应，而无需等待生成完整的文本响应，从而确保不受文本响应长度影响的低响应延迟。

INSTRUCTS2S-200K数据集构建细节

为了训练LLaMA-Omni，作者需要利用由<语音指令、文本响应、语音响应>组成的三元组数据。然而，大多数公开的指令数据都是文本形式的。因此，作者通过以下步骤来基于现有的文本指令数据构建语音指令数据集。

步骤1–指令重写。由于语音输入与文本输入具有不同的特征，作者根据以下规则重写文本指令：1）在指令中添加适当的填充词（如“hey”、“so”、“uh”、 “um”等），来模拟自然语音模式。2）将指令中的非文本符号（如数字）转换为相应的口语形式，从而确保TTS的正确合成。3）修改说明，使其相对简短，不要过于冗长。作者利用Llama-3-70BInstruct4模型根据这些规则重写指令。

步骤2–响应生成。在语音交互中，来自文本指令的现有响应不适合直接用作语音指令响应。这是因为，在基于文本的交互中，模型倾向于使用复杂的句子生成冗长的响应，并可能包含有序列表或括号等非语言元素。然而，在语音交互中，简洁而信息丰富的回答通常是首选。因此，作者使用Llama-3-70B-Instruct模型根据以下规则生成语音指令的响应：1）响应不应包含TTS模型无法合成的内容，如括号、有序列表等。2）响应应非常简洁明了，避免冗长的解释。

步骤3–语音合成。在获得适合语音交互的指令和响应后，作者需要使用TTS模型将其进一步转换为语音。对于指令，为了使合成的语音听起来更自然，作者利用CosyVoice-300M-SFT模型为每条指令随机选择男声或女声。对于响应，作者使用在LJSpeech数据集上训练的VITS模型将响应合成为标准语音。

LLaMA-Omni算法性能评估

实验配置

训练数据集：

作者使用第3节中提到的InstructS2S-200K数据集（包含20万条语音指令数据）。为了提取对应目标语音的离散单元，作者使用了一个预训练的K-means分箱器9，它从HuBERT特征中学习了1000个簇。预训练的高保真GAN解码器用于将离散单元合成为波形。

对于评估数据，作者从Alpaca-Eval10中选择了两个子集：_helpful_base_和_vicuna_，因为它们的问题更适合语音交互场景。作者删除了与数学和代码相关的问题，总共得到199条指令。为了获得语音版本，作者使用CosyVoice-300M-SFT模型将指令合成为语音。作者将在以下章节中将其称为InstructS2S-Eval测试集。

模型配置：

作者使用Whisper-large-v3的编码器作为语音编码器，使用LLama-3.1-8B-Instruct作为LLM。语音 Adapter 对语音表示进行5倍下采样。语音解码器由2个与LLaMA相同的Transformer层组成，具有4096个隐藏维度、32个注意力头和11008个 FFN 维度，其中包含425M参数。上采样因子λ设置为25。对于输入语音编码器的最小单位块大小Ω，作者在主要实验中设置Ω=+∞，这意味着作者等待整个单位序列生成后再将其输入到语音合成器进行语音合成。在后续实验中，作者将分析如何调整Ω的值来控制响应延迟，以及延迟和语音质量之间的权衡。

训练全功能的LLaMA-Omni遵循两阶段的训练过程。在第一阶段，作者使用32个批量的语音 Adapter （speech adapter）和语言模型（LLM），训练3个周期，每次迭代32步。作者使用余弦学习率调度器，前3%的步骤用于 Warm up ，峰值学习率设置为2e-5。在第二阶段，作者使用相同的批量大小、步骤数和调度器训练语音解码器，但峰值学习率设置为2e-4。整个训练过程大约需要65小时，在4个NVIDIA L40 GPU上运行。

Evaluation

由于LLaMA-Omni可以根据语音指令同时生成文本和语音响应，作者评估模型在两个任务上的性能：语音到文本指令遵循（S2TIF）和语音到语音指令遵循（S2SIF）。作者使用贪心搜索以确保可重复的实验结果。从以下方面对模型进行评估：

为了评估模型遵循语音指令的能力，作者使用 GPT-4o对模型的响应进行评分。对于S2TIF任务，评分基于语音指令的转录文本和模型的文本回复。对于S2SIF任务，作者首先使用 Whisper-large-v3 模型将模型的语音回复转录为文本，然后像S2TIF任务一样以相同的方式进行评分。 GPT-4o 在两个方面给出评分：内容和风格。 内容评分评估模型回复是否充分解决了用户指令，而风格评分评估模型回复的风格是否适合语音交互场景。详细说明可以在附录A中找到。

语音文本对齐为了评估文本响应和语音响应之间的对齐情况，作者使用Whisper-large-v3模型将语音响应转录为文本，然后计算转录文本和文本响应之间的Word Error Rate（WER）和Character Error Rate（CER）。作者将这些指标分别称为ASR-WER和ASR-CER。

为了评估生成的语音的质量，作者使用了名为UTMOS11的Mean Opinion Score（MOS）预测模型，该模型能够预测语音的MOS分数以评估其自然度。作者将这个指标称为UTMOS分数。

响应延迟latency是语音交互模型的一个关键指标，它指的是从输入语音指令到语音响应开始之间的时间间隔，这对用户体验有显著影响。此外，当语音响应开始时，作者还计算出已经生成的文字数量，称为**#滞后词**。

Baseline Systems

作者将以下语音语言模型作为基准系统：

SpeechGPT 是一种支持语音输入和输出的语言模型。作者使用原论文中采用的连续模态 Prompt 进行解码，根据语音指令依次输出文本指令、文本响应和语音响应。

SALMONN (+TTS) 是一种能够接受语音和音频输入并作出文本响应的LLM，使其能够执行S2TIF任务。对于S2SIF任务，作者在SALMONN之后添加了一个VITS TTS模型，以分阶段方式生成语音响应。

Qwen2-Audio (+TTS) 是一种强大的通用音频理解模型，能够执行各种与音频相关的任务，包括S2TIF任务。作者还构建了一个Qwen2-Audio和VITS ConCat 的系统，以完成S2SIF任务。

主要结果

表1展示了在InstructS2S-Eval基准测试上的主要结果。首先，对于S2TIF任务，从内容角度来看，LLaMA-Omni相较于之前的模型有显著提高。这主要是由于LLaMA-Omni是基于最新的LLaMA-3.1-8B-Instruct模型开发的，利用其强大的文本指令遵循能力。从风格角度来看，SALMONN和Qwen2-Audio的得分较低，因为他们是语音转文本模型。他们的输出风格与语音交互场景不匹配，经常产生格式化内容并包含大量冗余解释。

相比之下，SpeechGPT作为语音转语音模型，实现了更高的风格分数。同样，作者的LLaMA-Omni也获得了最高的风格分数，表明在经过作者InstructS2S-200K数据集的训练后，输出风格已经与语音交互场景很好地对齐。对于S2SIF任务，LLaMA-Omni在内容和风格得分上都优于之前的模型。这进一步证实了LLaMA-Omni能够在简洁高效的方式下，有效地处理用户的指令。

此外，在语音与文本响应的对齐方面，LLaMA-Omni实现了最低的ASR-WER和ASR-CER分数。相比之下，SpeechGPT在将语音与文本响应对齐方面表现不佳，这可能是由于其顺序生成文本和语音的缘故。

级联系统的语音-文本对齐，如SALMONN+TTS和Qwen2-Audio+TTS，也是次优的，主要原因是生成的文本响应可能包含无法合成为语音的字符。这个问题在Qwen2-Audio中尤为明显，它偶尔会输出中文字符，导致语音响应中出现错误。相比之下，LLaMA-Omni实现了最低的ASR-WER和ASR-CER分数，表明生成的语音与文本响应之间的对齐程度更高，进一步验证了同时生成文本和语音响应的优势。

Case Study

上图展示了该模型与多个不同模型（Qwen2-Audio、SALMOON、Speech GPT）针对输入指令（“我该如何把礼物包装整齐？”）的输出结果。通过观察与分析，我们可以发现：Qwen2 Audio的响应相当长，包括换行符和括号等无法合成语音的元素。SALMONN的回应也有点长。SpeechGPT的响应风格更适合语音交互场景，但其响应中包含的信息量较少。相比之下，LLaMA Omni给出的响应更详细、更有用，同时保持了简洁的风格，在语音交互场景中优于之前的模型。

语音质量和响应延迟之间的权衡

LLaMA-Omni 可以同时生成文本响应和与语音响应对应的离散单元。如第2.6节所述，为了进一步实现流形波生成，当生成的离散单元数量达到一定块大小Ω时，该块单元被输入到语音合成器中进行合成和播放。通过调整Ω的值，作者可以控制系统的延迟，其中较小的Ω对应较低的系统延迟。当Ω=+∞时，意味着在合成语音之前等待所有单元生成。同时，Ω的值也影响生成的语音质量。较小的Ω意味着将语音分割成更多段进行合成，这可能导致段与段之间的断续，可能降低语音的整体连贯性。

为了更好地理解Ω的影响，作者研究了系统的延迟、语音与文本响应的对齐以及不同Ω设置下生成的语音质量。如表2所示，当Ω设置为10时，系统的响应延迟低至226毫秒，甚至低于GPT-4o的平均音频延迟320毫秒。此时，语音响应在开始时平均滞后1.82个词。当Ω设置为无穷大时，延迟增加到约2秒。对于ASR-WER和ASR-CER指标，作者惊讶地发现，随着块大小的增加，错误率也增加。作者认为可能有两个原因。

一方面， vocoder可能比长序列更可靠地处理短单元序列，因为它通常训练在较短序列上。
另一方面，作者使用的ASR模型Whisper-large-v3具有很强的鲁棒性。即使语音与较小Ω的较小连续性，对ASR识别精度影响很小。

因此，作者进一步使用UTMOS指标评估生成的语音自然度。它显示，随着Ω的增加，语音的自然度提高，因为语音的不连续性减少。总之，作者可以根据不同的场景调整Ω的值，以实现响应延迟和语音质量之间的权衡。

Decoding Time

表3列出了不同模型在S2TIF和S2SIF任务上的平均解码时间。对于S2TIF任务，SpeechGPT需要先输出文本指令，然后输出文本回复，而SALMONN和Qwen2-Audio倾向于产生冗长的回复。

相比之下，LLaMA-Omni能直接提供简洁的答案，导致解码时间显著降低，每条指令的平均解码时间仅为1.49秒。对于S2SIF任务，SpeechGPT逐条输出文本和语音回复，导致解码时间比仅生成文本回复时大约延长6倍。相比之下，LLaMA-Omni同时输出文本和语音回复，并采用非自动回归架构生成离散单元。因此，总生成时间仅增加1.28倍，证明了LLaMA-Omni在解码速度上的优势。

客观指标性能评估

上表展示了该算法与多个SOTA算法在InstructS2S评估基准上的评估结果。首先，对于S2TIF任务，从内容的角度来看，LLaMA Omni与之前的模型相比有了显著改进。这主要是因为LLaMA Omni是基于最新的LLaMA-3.1-8BInstruct模型开发的，利用了其强大的文本指令跟踪功能。

从风格角度来看，SALMONN和Qwen2 Audio的得分较低，因为它们是语音转文本模型。它们的输出风格与语音交互场景不一致，通常会产生格式化的内容，并包含大量冗余的解释。相比之下，SpeechGPT作为一种语音对语音模型，其风格得分更高。同样，LLaMA Omni获得了最高的风格得分，这表明在该算法InstructS2S-200K数据集上训练后，输出风格与语音交互场景非常一致。对于S2SIF任务，LLaMA Omni在内容和风格得分方面也优于之前的模型。这进一步证实了LLaMA Omni能够以简洁高效的方式通过语音有效地处理用户的指令。

摘自：https://mp.weixin.qq.com/s/pjCIJaGNyfWiwGwP03zMNg

WavTokenizer-突破语音表征瓶颈

突破音频语言表征的瓶颈! 1s音频仅需40个Token，就能够高质量重建音频

论文：Wavtokenizer: An Efficient Acoustic Discrete Codec Tokenizer For Audio Language Modeling

论文地址：https://arxiv.org/pdf/2408.16532

Github地址：https://github.com/jishengpeng/WavTokenizer

HuggingFace地址：https://huggingface.co/novateur/WavTokenizer

浙江大学，联合阿里通义语音实验室和Meta研究员发表了一篇题为“Wavtokenizer: An Efficient Acoustic Discrete Codec Tokenizer For Audio Language Modeling”的论文。该论文研究了如何将多码本（RVQ）语音声学编解码器模型简化为单码本（VQ）结构，它不仅在压缩率和重构质量上超越了现有的最先进Codec模型，在UTMOS主观感知质量等指标上实现了SOTA的性能，还在语义信息建模上取得了重要进展，极致的序列压缩将有效提升下游语音大语言模型/多模态大语言模型的建模能力。

背景动机：解决音频语言建模的瓶颈，迈向更高效的音频处理

在大规模语言模型快速发展的背景下，音频处理领域依赖于离散化声学编解码器模型将音频信号转换为离散token，使其能被语言模型处理。然而，当前的技术在以下几个方面存在显著的局限性：

压缩与重构质量的权衡：大多数现有模型（如DAC、Encodec）通过多量化器层的设计来提升音频重构质量，但这也增加了计算复杂性和资源消耗。例如，DAC模型在9个量化器层的条件下，每秒需要900个token来重构一秒音频。如此高的压缩比率和计算成本，使得下游应用和模型部署变得复杂且代价高昂。
缺乏语义信息的丰富表达：当前的声学编码模型大多专注于音频的重构，而未能有效捕捉和保留语音和音频中的语义信息，这是重建任务和下游生成任务本身的训练gap。一些研究通过添加独立的语义模块来增强语义内容，但这通常需要多阶段的模型架构，增加了训练复杂度，并导致难以统一建模语音、音乐和其他音频数据。
单量化器模型的探索潜力：多量化器模型的复杂性推动了研究者对单量化器模型的探索，但在极端压缩条件下保持高质量重构仍是一个挑战。单量化器模型的优势在于更简单的架构和更低的计算成本，但如何优化矢量量化（VQ）空间以增强表示能力，并设计出避免重构伪影的解码器结构，依然是未解决的问题。

基于这些挑战，我们提出了 WavTokenizer。通过创新设计扩展VQ空间、优化解码器架构、扩展上下文建模窗口和引入多尺度判别器，我们的模型实现了极致的压缩效果，同时显著提升了音频重构质量和语义信息表达能力。这一工作不仅为音频语言建模提供了新方向，也在音频生成和理解的未来应用中展现出巨大潜力。

它与SOTA声学编解码器相比，在音频领域具有以下几个优点：

1）极限压缩。通过压缩量化器的层次和离散编解码器的时间维度，24kHz采样率的一秒音频仅需要具有40或75个令牌的单个量化器。

2)提高主观质量。尽管减少了令牌的数量，但WavTokenizer仍能以出色的UTMOS得分实现最先进的重建质量，并固有地包含更丰富的语义信息。

实现细节：WavTokenizer的核心技术设计

图1：WavTokenizer和最先进的声学编解码器模型之间的比较。纵轴UTMOS表示更接近人类听觉感知的重构质量，横轴kbps表示音频压缩水平。圆圈的大小表示每秒离散令牌的数量。

为了突破当前音频语言建模中存在的压缩和重构质量瓶颈，我们设计了一个新的离散声学编解码器模型——WavTokenizer。它在音频压缩、重构质量和语义信息表达能力上实现了前所未有的平衡。

我们的模型建立在VQ-GANs框架上，遵循与SoundStream和EnCodec相同的模式。具体来说，WavTokenizer通过三个模块传递原始音频 X ，编码器模块、量化模块、解码器模块。

1) 采用音频输入并生成潜在特征表示 Z 的全卷积编码器网络;

2) 用于生成离散表示 Z_q的单个量化器来离散化特征Z。

3) 一种改进的解码器，用于从压缩的潜在表示 Z_q 中重构音频信号 X~ 。

该模型是端到端训练的，优化了在时间和频率域上应用的重建损失，以及在不同分辨率下操作的鉴别器形式的感知损失。

考虑到WavTokenizer被设计为大型音频语言模型的离散令牌表示，重点应该放在编解码器的主观重建质量（音频保真度）和语义内容信息上。在图1中，我们可视化了比特率和UTMOS度量之间的关系。我们可以观察到WavTokenizer仅用75个令牌就实现了最先进的重建质量。此外，它还探索了极端的压缩比特率，在0.48 kbps时达到了3.6的UTMOS分数。

编码器设计

跟Encodec设计类似，编码器模型由具有C个通道的1D卷积组成，并且核大小为7，随后是B个卷积块。每个卷积块由单个残差单元组成，该残差单元之后是由步长S的两倍的核大小的步长卷积组成的下采样层。残差单元包含两个核大小为3的卷积和一个跳跃连接.每当发生下采样时，通道数量加倍。卷积块之后是用于序列建模的两层LSTM和具有7个核大小和D个输出通道的最终1D卷积层。

扩展矢量量化（VQ）空间，提高码本利用率

在传统的声学编解码器模型中，矢量量化（VQ）空间的大小通常是固定的，这限制了模型对音频信号的表达能力。我们通过将VQ空间从 1024 扩展到4096，显著提升了模型对高维音频数据的压缩和表达能力。为了确保扩展后的VQ空间得到充分利用，WavTokenizer 采用了基于K-means聚类初始化和随机唤醒策略的优化方法。这种设计能够在保证较低码率的同时，维持高质量的音频重构效果，并且能够有效减少信息损失。

图2：WavTokenizer量化码本空间的可视化分析，图（a）说明了LibriTTS测试干净集上每个码本索引（1-16384）的概率分布。图（B）检查了不同码本空间上的重构质量和码本利用率之间的关系。

最初，在不改变任何结构的情况下，我们试图在训练期间仅依赖于单个量化器来进行重构，但发现结果不是最佳的。考虑到自然语言中巨大的词汇空间，我们假设将语音作为一种独特的语言来处理可能会产生更好的结果。因此，我们首先将码本空间从 2¹⁰ 扩展到 2¹⁴ 。我们对LibriTTS进行了585小时的训练，并在LibriTTS测试-清理数据集上可视化了码本的概率分布，如图2（a）所示。我们观察到语音词汇空间集中在 2¹² 的左侧，表明利用更大的 2¹²语音词汇空间的潜力。当前的编解码器码本 2¹⁰ 可能没有充分利用语音空间的潜力。

此外，扩展量化码本空间可能导致较低的利用率，

我们使用K均值聚类来初始化码本向量。我们将聚类中心的数量调整为200，以与较大的码本空间对齐。在训练期间，使用衰减为0.99的指数移动平均值来更新每个输入的所选代码，并且用从当前批次中随机采样的输入向量来替换对于若干批次未分配的代码。这种强制激活策略有助于确保大码本空间的有效利用。如图2（B）所示，我们分析了码本利用率与重构结果的关系，确认了 2¹²是合适的，与图2（a）的结论一致，适当扩展相应的码本空间可以减少将分层RVQ结构压缩到单个量化器所带来的信息损失。语音可以在串行化量化器结构下有效地重构，其中 2¹² 的码本空间实现利用率和重构质量之间的有利平衡。这表明了将语音与广泛的自然语言词汇对齐的潜力，通过标记器将其作为一种独特的语言进行强有力的映射。

改进的解码器架构：逆傅里叶变换、注意力机制与扩展的上下文窗口结合

传统的编解码器模型通常使用镜像卷积上采样的方法，但这容易产生混叠伪影，影响音频重构质量。为了解决这一问题，WavTokenizer 在解码器设计中基于Vocos模型，采用了基于逆傅里叶变换（iFFT）的方法。iFFT 能在所有深度上保持一致的特征分辨率，有效减少重构伪影，同时更精确地恢复音频信号。在解码器部分中，使用短时傅立叶变换（STFT）来表示目标音频信号 X~

此外，WavTokenizer 在解码器中引入了注意力模块，并设计了扩展的上下文窗口来增强语义信息的建模能力。研究表明，使用更大的上下文窗口（例如 3 秒）有助于捕捉更多的语义信息，提升模型对长音频序列的重构质量。这种方法能够更好地处理音频中的静音段，提高了重构结果的连贯性和自然度。通过将注意力网络与逆傅里叶变换结合，WavTokenizer 在极低码率下实现了高质量的音频重构。

将WavTokenizer的上下文建模窗口扩展到3秒，注意力模块将进一步改善训练过程中的编解码器重建。这可能是因为一秒钟的剪辑，包括沉默，可能包含不足的语义信息。增加上下文建模窗口大小有助于编解码器模型更好地捕获上下文。我们通过详细的消融研究验证了这些发现。在我们的实验中，我们还发现在WavTokenizer中引入注意力模块只对解码器有益。

多尺度判别器与复数STFT判别器的设计

为了进一步优化生成音频的质量，WavTokenizer 引入了多尺度判别器（MSD）和复数短时傅里叶变换（STFT）判别器。这些判别器能够在不同时间尺度和频谱范围内对生成的音频进行评估。模型使用了对抗性损失（adversarial loss）和特征匹配损失（feature matching loss）进行联合优化。与现有模型相比，这种创新设计能够更好地保留音频的细节信息和语义内容，提高了音频重构的主观质量。

端到端优化策略，实现高效压缩

WavTokenizer 采用了端到端的优化策略，同时考虑时间域和频率域的重构损失。与现有的多量化器层模型相比，WavTokenizer能够在单量化器条件下实现更高效的音频压缩。在 24kHz 采样率下，每秒音频仅需 40 或 75 个离散token，这大大减少了模型的带宽需求，同时保持了高水平的音频重构质量。

这些技术创新使得WavTokenizer能够在单量化器结构下实现音频的极致压缩和高质量重构，同时提供丰富的语义信息表达能力。我们相信，这一模型将为音频语言建模的未来应用提供新的可能性。

实验验证：WavTokenizer的卓越性能

为了验证 WavTokenizer 在音频语言建模中的实际效果，我们在多个数据集上进行了广泛的实验，涵盖了语音重构、语义信息评估和消融研究。结果显示，WavTokenizer 在多个指标上均优于现有的最先进模型，展现了其卓越的压缩效率、重构质量和语义表达能力。在LibriTTS测试集上的语音重构实验中，WavTokenizer-small在0.9 kbps的压缩率下，仅使用一个量化器和75个token，就实现了4.05的UTMOS得分，显著超越了使用9个量化器和900个token的DAC模型的3.91分。这一结果表明，WavTokenizer在极低码率下依然能够保持卓越的音频重构质量，接近人类听觉感知水平。相比于需要多个量化器的复杂模型，WavTokenizer在使用单一量化器、40个token的条件下，也展现出高效的压缩率和优异的重构效果，大大降低了计算成本。同时，在PESQ等感知语音质量指标上，WavTokenizer表现与多量化器模型相当甚至更优，进一步验证了其在单量化器设置下对音频质量的强大保持能力。

在语义信息评估方面，我们使用ARCH基准评估了WavTokenizer在不同音频任务中的表现。结果显示，WavTokenizer在情感语音、歌曲（RAVDESS）和口语理解（SLURP）等多领域任务中，表现优于使用更多量化器的Encodec和DAC，展现出卓越的语义捕捉能力。这一结果说明，WavTokenizer不仅能够在极限压缩条件下保持高质量的重构，还能在语义信息表达方面提供强大支持，为下游任务带来更高的应用价值。

为了深入研究WavTokenizer中各个模块的贡献，我们还进行了消融实验，验证了VQ空间扩展、上下文窗口长度的作用。实验结果表明，扩展VQ空间能够显著提高音频重构质量，从而验证了VQ空间优化对模型性能的关键作用；增加上下文窗口长度也有助于更好地捕捉语义信息，尤其是在处理长音频序列时表现突出。

通过这些实验，WavTokenizer 展现出在极限压缩率和长序列生成任务中的强大适应性和稳定性，证明了其在音频压缩、重构质量和语义表达能力方面的全面优势。这些结果不仅为音频语言建模提供了新的可能性，也为未来多模态大模型的音频处理与生成提供了一个更高效、更有潜力的解决方案。

进一步探索

由于训练成本较大，我们将在十月之前补充WavTokenizer-medium，WavTokenizer-large版本的实验结果，以及在audio和music领域codec重建性和语义丰富性的实验。同时将进一步探索WavTokenizer模型在下游生成任务例如text-to-speech和GPT-4o范式任务上的性能，并且补充更多的消融实验结果。

总结

在本文中，我们提出了一个新的离散声学编解码器模型——WavTokenizer，旨在解决音频语言建模中压缩效率和重构质量之间的权衡问题。与现有的多量化器模型相比，WavTokenizer通过一系列技术创新，包括扩展矢量量化（VQ）空间、改进的解码器架构（结合逆傅里叶变换和注意力机制）、扩展的上下文建模窗口、多尺度判别器和复数STFT判别器的设计，实现了在单量化器架构下的高效音频压缩和高质量音频重构。实验结果表明，WavTokenizer在LibriTTS、RAVDESS、SLURP等多个数据集上的重构质量和语义信息表达方面，均优于当前最先进的模型。

通过对模型架构的改进和优化，WavTokenizer在保持高效压缩的同时，成功减少了模型的计算复杂性和带宽需求，在24kHz采样率下每秒音频仅需40或75个离散token。这一工作不仅验证了单量化器模型的可行性，还为音频生成和语义建模的未来发展提供了新的视角和方向。未来，我们计划进一步扩展模型的应用场景，探索WavTokenizer在更多下游任务和多模态数据处理中的潜力。

InternVL家族：通过开源组件缩小与商业多模态模型的差距 —— GPT-4o的开源替代方案

InternVL家族：用开源组件缩小与商业多模态模型的差距——一个开创性的开源替代方案，旨在平替GPT-4o

https://github.com/OpenGVLab/InternVL/

[🆕 博客] [🚀 InternVL2 博客] [🗨️ 对话Demo] [🤗 HF Demo] [📖 文档] [🌐 API] [🚀 快速开始]

[📜 InternVL 1.0 论文] [📜 InternVL 1.5 报告] [📖 1.0 中文解读] [📖 1.5 中文解读] [📖 2.0 中文解读]

我们的 InternVL2-Llama3-76B 在 OpenCompass 多模态排行榜上取得了比 GPT-4o 更高的分数。尽管这让我们感到兴奋，但我们必须指出，这个分数仅捕捉了模型性能的一部分，特别是在与视觉相关的任务方面。我们认识到，在指令跟随、用户体验、纯文本处理能力和整体理解能力等方面，我们的模型与 GPT-4 之间仍存在显著差距。我们致力于不断改进我们的模型，以更好地满足现实世界的应用需求。

书生·万象多模态大模型。万象，代表对多模态大模型的愿景，即理解真实世界一切事物和景象，实现全模态全任务的通用智能。它涵盖图像，视频，文字，语音、三维点云等5种模态，首创渐进式对齐训练，实现了首个与大语言模型对齐的视觉基础模型，通过模型”从小到大”、数据”从粗到精”的渐进式的训练策略，以1/5成本完成了大模型的训练。它在有限资源下展现出卓越的性能表现，横扫国内外开源大模型，媲美国际顶尖商业模型，同时也是国内首个在MMMU（多学科问答）上突破60的模型。它在数学、图表分析、OCR等任务中表现优异，具备处理复杂多模态任务、真实世界感知方面的强大能力，是当之无愧的最强多模态开源大模型。

书生万象具有千亿规模参数，支持图像，视频，文字，语音、三维点云等模态。为了使模型能够支持丰富的输出格式，书生万象首次使用了向量链接技术，链接各领域专用解码器，打通梯度传输链路，实现通专融合，支持检测、分割、图像生成、视觉问答等百种细分任务，性能媲美各领域的专家模型。为了训练书生万象模型，我们从各类来源构建了最大图文交错数据集OmniCorpus，包含约160亿图像，3万亿文本词元，相比现有开源图文数据集，图像数量扩大了三倍，文本数量扩大了十倍。

传统的预训练范式直接使用大模型+大数据进行一步到位训练，需要大量的算力资源。为了提高训练效率，研究团队首创了渐进式训练策略，先利用小模型在海量带噪数据上进行高效预训练，然后再使用大模型在较少高质量精选数据上进行高效对齐，模型”从小到大”，数据”从粗到精”，仅需20%的算力资源即可取得同等效果。采用这种训练策略，我们实现了首个与大模型对齐的视觉基础模型，同时，我们的多模态大模型，展现出卓越的性能，在MathVista（数学）、AI2D（科学图表）、MMBench（通用视觉问答）、MM-NIAH（多模态长文档）等评测上可比肩GPT-4o、Gemini 1.5 Pro等闭源商用大模型。

InternVL2系列基于以下设计构建：

1、渐进式与大型语言模型：我们引入了渐进式对齐训练策略，从而使第一个视觉基础模型与大型语言模型原生对齐。通过采用渐进式训练策略，即模型从小到大，而数据从粗到细，我们以相对较低的成本完成了大型模型的训练。这一方法在有限的资源下表现出了出色的性能。

2、多模式输入：通过一组参数，我们的模型支持多种输入模式，包括文本、图像、视频和医疗数据。

3、多任务输出：由我们最近的工作VisionLLMv 2提供支持，我们的模型支持各种输出格式，如图像，边界框和蒙版，展示了广泛的通用性。通过将MLLM与多个下游任务解码器连接，InternVL 2可以推广到数百个视觉语言任务，同时实现与专家模型相当的性能。

性能：

InternVL2在处理复杂的多模态数据方面表现出强大的能力，在数学、科学图表、通用图表、文档、信息图表和OCR等任务中表现出色。例如，在MathVista基准测试中，InternVL2的准确率达到66.3%，大大超过了其他闭源商业模型和开源模型。此外，InternVL2在广泛的基准测试中实现了最先进的性能，包括通用图表基准测试ChartQA，文档基准测试DocVQA，信息图表基准测试InfographicVQA和通用视觉问答基准测试MMBench。

name	MMMU (val)	MathVista (testmini)	AI2D (test)	ChartQA (test)	DocVQA (test)	InfoVQA (test)	OCRBench	MMB-EN (test)	MMB-CN (test)	OpenCompass (avg score)
GPT-4V* (20240409)	63.1 / 61.7	58.1	89.4	78.1	87.2	–	678	81.0	80.2	63.5
Gemini Pro 1.5*	58.5 / 60.6	57.7	80.3	81.3	86.5	72.7	754	73.9	73.8	64.4
Claude3.5-Sonnet*	68.3 / 65.9	67.7	94.7	90.8	95.2	–	788	79.7	80.7	67.9
GPT-4o* (20240513)	69.1 / 69.2	63.8	94.2	85.7	92.8	–	736	83.4	82.1	69.9
Cambrian-1	49.7 / 50.4	53.2	79.7	75.6	75.5	–	600	81.4	–	58.3
LLaVA-NeXT Qwen1.5	50.1	49.0	80.4	79.7	85.7	–	–	80.5	–	–
InternVL2-Pro	58.9 / 62.0	66.3	87.3 / 96.0	87.1	95.1	83.3	837	87.8	87.2	71.8

name	MMMU (val)	MathVista (testmini)	AI2D (test)	ChartQA (test)	DocVQA (test)	InfoVQA (test)	OCRBench	MMB-EN (test)	MMB-CN (test)	OpenCompass (avg score)
InternVL2-1B	35.4 / 36.7	37.7	64.1	72.9	81.7	50.9	754	65.4	60.7	48.3
InternVL2-2B	34.3 / 36.3	46.3	74.1	76.2	86.9	58.9	784	73.2	70.9	54.0
InternVL2-4B	47.0 / 48.3	58.6	78.9	81.5	89.2	67.0	788	78.6	73.9	60.6
InternVL2-8B	49.3 / 51.2	58.3	83.8	83.3	91.6	74.8	794	81.7	81.2	64.1
InternVL2-26B	48.3 / 50.7	59.4	84.5	84.9	92.9	75.9	825	83.4	82.0	66.4
InternVL2-40B	53.9 / 55.2	63.7	87.1	86.2	93.9	78.7	837	86.8	86.5	69.7
InternVL2-Llama3-76B	55.2 / 58.2	65.5	87.6	88.4	94.1	82.0	839	86.5	86.3	71.0
InternVL2-Pro	58.9 / 62.0	66.3	87.3 / 96.0	87.1	95.1	83.3	837	87.8	87.2	71.8

实例：

MoE-Mixtral 8x7B

论文地址：https://arxiv.org/pdf/2401.04088.pdf
项目地址：https://github.com/mistralai/mistral-src
论文主页：https://mistral.ai/news/mixtral-of-experts/

专家层的混合。每个输入向量由路由器分配给 8 个专家中的 2 个。该层的输出是两个所选专家输出的加权和。在 Mixtral 中，专家是标准前馈块，就像普通变压器架构中一样

Mixtral 8x7B由法国的Mistral AI发布，性能直逼Llama2-70B，超越了GPT-3.5。此前，由于 OpenAI 团队一直对 GPT-4 的参数量和训练细节守口如瓶。Mistral 8x7B 的放出，无疑给广大开发者提供了一种「非常接近 GPT-4」的开源选项。要知道，很早之前就有人爆料，OpenAI 也是采用了「混合专家模型」（Mixture of Experts，MoE）的构架来搭建 GPT-4。

Mixtral 8x7B 是一种具有开放权重的稀疏专家混合模型 (Sparse Mixture of Experts ： SMoE)，在大多数基准测试中都优于 Llama 2 70B 和 GPT-3.5。Mixtral 可以在小批量大小下实现更快的推理速度，并在大批量大小下实现更高的吞吐量。Mixtral （即 Mixtral 8x7B）与单个 Mistral 7B 架构相同。Mistral 7B 模型同样来自这家法国人工智能初创公司 Mistral AI ，这篇论文发表于去年 10 月，在每个基准测试中，Mistral 7B 都优于 Llama 2 13B，并且在代码、数学和推理方面也优于 LLaMA 1 34B。

与 Mistral 7B 不同的是，Mixtral 8x7B 是一种仅包含解码器的模型，每层由 8 个前馈块（即专家）组成。对于每个 token，在每一层，路由器网络都会选择两名专家来处理当前状态并组合他们的输出。尽管每个 token 只看到两个专家，但所选的专家在每个时间步上都可能不同。因此，每个 token 可以访问 47B 参数，但在推理过程中仅使用 13B 激活参数。
从这里我们也可以看出，Mixtral 8x7B 并不是大家认为的有 8 个 Mistral 7B 模型，名字中的 8 代表 8 个专家。

Mixtral 预训练上下文的大小为 32k，在多项基准测试中，它的性能达到或超过 Llama 2 70B 和 GPT-3.5。尤其是，Mixtral 在数学、代码生成和需要多语言理解的任务方面表现出了卓越的能力，并在这些领域显著优于 Llama 2 70B。实验表明，Mixtral 能够成功地从 32k token 的上下文窗口中检索信息，无论序列长度和信息在序列中的位置如何。
除了 Mixtral 8x7B，该研究还推出了 Mixtral 8x7B – Instruct 聊天模型，其性能在人类评估基准上明显超过了 GPT-3.5 Turbo、Claude-2.1、Gemini Pro 和 Llama 2 70B 聊天模型。在 BBQ 和 BOLD 等基准中，Mixtral – Instruct 也显示出更少的偏见。

不过，有研究者表示 Mixtral 中的专家似乎专注于语法而不是领域，特别是在初始层和最终层（参见路由分析部分）

Mixtral 8x7B 如此令人兴奋的原因在于它探索了一种新的架构范式，即「专家混合」的方法，与大多数 LLM 所遵循的方法形成鲜明的对比。MoE 结合了多个专家模型的优势来解决问题，在 MoE 中，仅使用一名或少数专家就能进行预测。这种方法有两个主要组成部分：

路由器：决定对于给定输入信任哪个专家以及如何权衡每个专家对于特定输入的结果。
专家：专门研究问题不同方面的个体模型。

在 Mixtral 的案例中，有八位专家，其中两位是被选中的。我们接下来看具体细节。

架构细节

Mixtral 基于 Transformer 架构，支持上下文长度达到 32k token，并且前馈块被 Mixture-of-Expert（MoE）层取代。

稀疏专家混合

对于给定的输入 x，MoE 模块的输出由专家网络输出的加权和决定，其中权重由门控网络的输出给出。即给定 n 个专家网络 {E_0, E_i， …， E_(n−1)}，则专家层的输出为：

这里，G (x)_i 表示第 i 个专家的门控网络的 n 维输出，E_i (x) 是第 i 个专家网络的输出。不过实现 G (x) 有多种替代方案，其中简单且高性能的方法是通过在线性层的 Top-K logits 上采用 softmax 来实现。即：

MoE 层可以在具有高性能专用内核的单个 GPU 上高效运行。例如，Megablocks 将 MoE 层的前馈网络（FFN）操作转换为大型稀疏矩阵乘法，显著提高了执行速度。此外，MoE 层可以通过标准模型并行技术以及一种称为专家并行 (EP) 的特殊分区策略分布到多个 GPU 上。
在 MoE 层执行期间，本应由特定专家处理的 token 将被路由到相应的 GPU 进行处理，并且专家的输出将返回到原始 token 位置。
在 Transformer 模型中，MoE 层独立的应用于每个 token，并取代 Transformer 块的前馈 (FFN) 子块。对于 Mixtral，该研究使用与专家函数 E_i (x) 相同的 SwiGLU 架构，并设置 K = 2。这意味着每个 token 都被路由到具有不同权重集的两个 SwiGLU 子块。将所有这些放在一起，输入 token x 的输出 y 计算如下：

实验及结果

研究者将 Mixtral 与 Llama 进行了比较，并使用自己的评估 pipeline 重新运行了所有基准，以进行公平比较。该研究对以下各种任务的性能进行了测量：常识推理、世界知识、阅读理解、数学、代码等。具体任务详情见原论文.

表 2 列出了 Mixtral、Mistral 7B 和 Llama 2 7B/13B/70B 以及 Llama 1 34B 的详细结果。

图 2 比较了 Mixtral 和 Llama 在不同类别任务中的性能。在大多数指标上，Mixtral 都超过了 Llama 2 70B。特别是在代码和数学基准测试中，Mixtral 的表现更胜一筹。

研究者将 Mixtral 与 Llama 2 系列进行了比较。如图 3 所示，作为一个稀疏专家混合模型，Mixtral 每个 token 仅使用 13B 个激活参数。尽管激活参数减少了 5 倍，Mixtral 在大多数类别中仍然能够胜过 70 亿参数的 Llama 2。

多语言基准测试
与 Mistral 7B 相比，研究者在预训练时大幅提高了多语言数据的采样比例。额外的容量使 Mixtral 在多语言基准测试中表现出色，同时保持了较高的英语准确率。如表 4 所示，Mixtral 在法语、德语、西班牙语和意大利语方面的表现明显优于 Llama 2 70B。

长距离性能
图 4（左）结果表明，无论上下文长度或 passkey 在序列中的位置如何，Mixtral 的检索准确率都达到了 100%。图 4（右）显示，随着上下文大小的增加，Mixtral 在 proof-pile 数据集的一个子集上的困惑度单调降低。

偏见基准测试
研究者使用他们自己的评估框架对 Llama 2 和 Mixtral 在 BBQ 和 BOLD 上进行基准测试，结果如表 5 所示。与 Llama 2 相比，Mixtral 在 BBQ 基准测试中展现出较少的偏见。在 BOLD 的中，更高的平均情感得分意味着更积极的情感，而更低的标准差表示该群组内的偏见较少。总体而言，Mixtral 比 Llama 2 显示出更积极的情感，并且各组内的差异类似。

路由分析
研究者对路由器选择专家的情况进行了少量分析，他们尤其想知道在训练过程中，一些专家是否专攻某些特定领域，如数学、生物学、哲学等。
为了研究这一点，研究者测量了在 The Pile 验证数据集的不同子集中所选专家的分布情况。图 7 展示了第 0 层、第 15 层和第 31 层的结果。

令人惊讶的是，研究者在根据主题分配专家时没有观察到明显的模式。例如，在所有层中，ArXiv 论文（用 Latex 编写）、生物学（PubMed Abstracts）和哲学（PhilPapers）文档的专家分配分布非常相似。只有在 DM 数学中，专家的分布略有不同。
这表明路由器表现出一些结构化的语法行为。
图 8 显示了不同领域（Python 代码、数学和英语）的文本示例，其中每个 token 都用与其所选专家相对应的背景色突出显示。从图 8 中可以看到，连续的 token 往往被分配给相同的专家。
每个 token 都用第一个专家选择着色。专家的选择似乎更符合语法而不是领域，特别是在初始层和最后层。

表 5 显示了每个领域和层中连续 token 获得相同专家分配的比例。对于较高的层，重复连续分配的比例明显高于随机分配。

多模态大模型VITA : GPT-4o的简易平替

Abs：https://arxiv.org/pdf/2408.05211
Demo：https://vita-home.github.io/
Code：https://github.com/VITA-MLLM/VITA

原文：https://zhuanlan.zhihu.com/p/714031459

总览

传统的音频交互需要预定义的唤醒词，例如每次提问时都需要说“Hi! Siri∼”，或者需要按下按钮来控制输入的音频问题（限制1）。此外，当模型生成输出时，不能支持新的查询，因为以前的系统只能依次响应输入的查询（限制2）。VITA克服了这两个limitations。

GPT-4o 的卓越多模态能力和用户交互体验在实际应用中非常重要，但没有开源模型在这两个领域同时表现出色。本文介绍了 VITA，这是首个能够同时处理和分析视频、图像、文本和音频模态的开源多模态大语言模型（MLLM），并且具备先进的多模态交互体验。我们在以下三个关键特性，与现有的开源 MLLM 有所区分：

全方位多模态理解能力：VITA 展示了强大的多语言、视觉和音频理解基础能力，并在多种单模态和多模态基准测试中表现优异。
非唤醒交互：VITA 可以在不需要唤醒词或按钮的情况下被激活，并对环境中的用户音频问题做出响应。
音频打断交互：VITA 能够实时跟踪和筛选外部查询，允许用户随时以新问题打断模型的生成，VITA 将根据新的查询做出相应的响应。

VITA 模型的详细介绍

VITA 的整体训练流程如上图所示，由三个阶段组成：LLM指令微调、多模态对齐和多模态指令微调。

LLM 指令微调

我们选择 Mixtral 8x7B 作为基础语言模型，它是具有稀疏专家混合（SMoE）架构的代表性 LLM，性能在开源 LLM 中名列前茅，是我们工作的理想起点。然而，我们观察到官方的 Mixtral 模型在理解中文方面表现有限。为此，我们扩展了基础模型的中文词汇量，将词汇量从 32,000 增加到 51,747。这一扩展不仅增强了双语（中英文）理解能力，还减少了相同文本下的词元数量，从而提高了推理效率。在扩展词汇后，我们使用 500 万条合成的双语语料库进行纯文本指令微调。

补充：Mixtral 8x7B 是一种具有开放权重的稀疏专家混合模型 (SMoE)，在大多数基准测试中都优于 Llama 2 70B 和 GPT-3.5。Mixtral 可以在小批量大小下实现更快的推理速度，并在大批量大小下实现更高的吞吐量。Mixtral 8x7B 是一种仅包含解码器的模型，每层由 8 个前馈块（即专家）组成。对于每个 token，在每一层，路由器网络都会选择两名专家来处理当前状态并组合他们的输出。尽管每个 token 只看到两个专家，但所选的专家在每个时间步上都可能不同。因此，每个 token 可以访问 47B 参数，但在推理过程中仅使用 13B 激活参数。Mixtral 8x7B 并不是大家认为的有 8 个 Mistral 7B 模型，名字中的 8 代表 8 个专家。

多模态对齐

在这一阶段，我们旨在弥合文本与其他模态之间的表示差距，为多模态理解奠定基础。

视觉模态

视觉编码器：我们使用 InternViT-300M-448px 作为视觉编码器，该编码器接收 448×448 的图像作为输入，通过一个简单的两层 MLP 视觉连接器生成 256 个词元。对于高分辨率图像输入，我们实现了动态补丁策略来捕捉局部细节。视频被视为图像的特殊情况进行处理。如果视频长度小于 4 秒，我们均匀采样 4 帧；如果视频长度在 4 到 16 秒之间，我们每秒采样一帧；对于超过 16 秒的视频，我们均匀采样 16 帧。为了防止引入过多的视觉词元，我们不对视频的单个帧执行动态补丁。

视觉对齐：在视觉对齐阶段，我们仅训练视觉连接器。表 1 总结了使用的训练数据（不包括纯文本SFT部分）。此外，在此阶段我们不使用音频问题。

对于一般图像描述任务，我们引入了来自 ShareGPT4V 的 GPT-4V 生成部分，以确保数据质量。我们还引入了 Allava-Caption 和 ShareGTP4o-Image，并补充了一些由现有 MLLM 生成的中文图像描述。
对于一般图像问答（QA）任务，我们初步收集了三个数据集：LLaVA-Mixture-sample、Lvis-Instruct 和 ScienceQA。我们使用现有的 MLLM 生成了额外的 21.8K 中文 QA 数据。此外，我们从 LLaVA-150K 数据集中移除了标题子集，并将其余部分翻译为中文。
对于 OCR 和图表任务，我们引入了 Anyword-3M、ICDAR2019-LSVT、ICDAR2017-RCTW、Open-Chart（包括 ChartQA、DVQA、InfoVQA、Pew 和 OpenCQA），以及一些由现有 MLLM 从其他开源数据中生成的合成数据。
对于一般视频描述任务，我们使用 ShareGemini 数据集。
对于一般视频 QA 任务，我们使用现有的 MLLM 重新标注了 Video-ChatGPT 和 VideoChat2 的开源数据。

不同的文本数据直接拼接到 6K 词元。图像首先被划分为局部补丁，然后将不同的图像-文本对进行拼接。视频数据则直接逐帧采样作为输入，无需进行拼接。通过这种方式，我们能够统一不同训练批次中的数据长度，从而提高训练效率。

数据拼接：对于纯文本数据和图像数据，我们的目标是将上下文长度拼接到 6K 词元，如上图所示。视频数据则不进行拼接。拼接不同的数据带来了两个好处：一是支持更长的上下文长度，使得从单一到多图像-问题交互成为可能，从而实现更灵活的输入形式和延长的上下文；二是提高了计算效率，因为视频帧通常包含大量视觉词元。通过拼接图像-问题对，我们在训练批次中保持了词元数量的平衡，从而提高了计算效率。此外，我们发现使用拼接数据训练的模型在性能上与未拼接数据的模型表现相当。

音频模态

音频编码器：输入音频首先通过 Mel 频率滤波器块处理，该块将音频信号分解为 Mel 频率尺度上的各个频带，模拟人类对声音的非线性感知。随后，我们使用 4 层 CNN 下采样层和 24 层的变换器，共计 341M 参数，处理输入特征。我们采用简单的两层 MLP 作为音频-文本模态连接器。最终，每 2 秒的音频输入被编码为 25 个词元。

音频对齐：在对齐任务中，我们选择了自动语音识别（ASR）。我们的数据集包括 Wenetspeech，该数据集涵盖了超过 10,000 小时的多领域语音识别数据，主要集中在中文任务上。同样，Gigaspeech 也包含 10,000 小时的高质量音频数据，大部分数据用于英语语音识别任务。另一个任务是音频字幕生成，依赖于 Wavcaps 的 AudioSet SL 子集，该数据集包含 400K 个音频片段及其对应的音频字幕。在对齐过程中，音频编码器和连接器都进行了训练。

多模态指令微调

在这一阶段，我们对模型进行指令微调，以增强其遵循指令的能力（文本 & 音频指令）。

训练数据

数据构建：指令微调阶段的数据来源与对齐阶段相同（见表1），并进行了如下改进：

音频问题替换：我们使用 TTS 技术（如 GPT-SoVITS6）将大约一半的问题随机替换为其音频版本，以提升模型对音频查询的理解能力和指令跟随能力。音频问题和文本问题的数量见表1。
系统提示设置：设置不同的系统提示，以避免不同类型数据之间的冲突（见下表）。例如，有些问题可以基于视觉信息或模型自身知识进行回答，这可能会导致冲突。此外，由于图像数据的补丁类似于视频数据的多个帧，可能会使模型感到困惑。系统提示明确区分不同的数据类型，使其更易于理解。

噪声音频构建：在人机交互过程中，并非所有的音频输入都需要响应，这些被称为噪声音频。一个具有良好交互能力的系统应能主动识别音频类型，并有选择性地执行后续输出。为此，我们需要构建各种噪声音频样本以供模型识别。具体而言，我们从现有的多模态和单模态 QA 数据中随机抽取 474K 个句子。这些负样本文本集中在不需要用户响应的非查询相关内容上，其长度分布与正向问题的长度分布一致。然后，我们使用 TTS 工具将这些句子转换为音频。噪声音频样本的构建使模型能够识别不需要响应的音频输入，这有助于实现非唤醒交互。具体的训练策略将在以下部分详细说明。

训练过程

根据上述构建的 QA 对，模型需要区分三种类型的查询：

查询音频：问题由音频发起。
噪声音频：输入为音频，但不包含问题。
查询文本：问题由文本发起。

基于这些查询类型，我们设计了三种状态标记 <1>、<2> 和 <3>。在训练阶段，我们在答案的开头插入对应的状态标记，使模型能够灵活处理不同的交互行为。具体如下：

状态标记 <1> 表示问题输入为查询音频。在这种情况下，模型的输出需要以文本或通过 TTS 工具转换的语音形式呈现给用户。
• 状态标记 <2> 表示问题输入为噪声音频。模型应输出 EOS 标记作为终止符。然而，我们发现训练过程中突然终止输出可能会显著降低性能。因此，我们将噪声音频对应的文本发送给 LLM，并使用其输出文本作为训练目标。在推理过程中，<2> 作为另一种特殊的 EOS 标记。
状态标记 <3> 表示问题为纯文本，用于区分训练集中的前两种查询。

在训练过程中，视觉和音频编码器保持冻结状态，而连接器与 Mixtral 8×7B 一起进行训练。

模型部署：双工策略

在这一部分，我们主要讨论如何实现两种交互功能：非唤醒交互和音频中断交互。

非唤醒交互

非唤醒交互意味着模型可以在不需要唤醒词或按钮的情况下被激活，并对环境中的用户音频问题做出回应。部署过程必须满足以下要求：

• 实时跟踪环境声音：这涉及确定音频内容是否属于人类语言。
• 过滤噪声音频：模型应仅对有效的用户查询音频作出响应。

对于第一个要求，现有的语音活动检测（VAD）可以提供帮助。VITA 使用 SileroVAD ，该系统经过大规模语料库训练，涵盖超过 6,000 种语言，并且能够在各种背景噪声下表现良好。对于第二个要求，我们利用第 3.3.2 节中描述的状态标记 <2>。这使模型能够自动区分输入音频是否为有效查询。如果输入为非查询类型，模型将直接终止推理，从而仅对查询类型的输入作出响应。

音频中断交互

音频中断交互允许用户随时用新问题打断模型的生成过程。为实现这一点，部署环境必须满足以下要求：

实时跟踪和过滤外部查询：在生成响应的同时，系统必须实时跟踪和过滤外部查询。
回答新问题：当出现新问题时，系统必须停止当前生成，整合历史上下文，并对当前查询作出回应。

为实现这一目标，我们提出了双工部署框架。如上图所示，两个 VITA 模型同时部署。在典型条件下，生成模型负责回答用户查询。同时，监控模型在生成过程中检测环境声音。它忽略非查询用户声音（即噪声音频），但在检测到查询音频时会停止生成模型的进度。监控模型随后整合历史上下文，并对最新的用户查询做出回应。这时，生成模型和监控模型的身份会发生转变。

评估

语言表现：

为了验证我们训练过程对语言模型的有效性，我们将训练后的模型“Mixtral 8x7B Ours”与官方版本“Mixtral 8x7B Instruct”进行对比，评估使用了四个数据集：C-EVAL、AGIEVAL、MMLU 和 GSM8K。这些数据集涵盖了包括普通多项选择题、多学科问答，以及数学和逻辑推理任务的各种场景，涉及中文和英文上下文。结果如上表所示，我们的训练显著提升了模型在中文评估集（C-EVAL 和 AGIEVAL）上的能力，同时保持了在英文相关基准（MMLU）上的原有性能，并在数学推理任务（GSM8K）中显示出显著的改进。

音频表现：

为了验证我们模型所学的语音表示的鲁棒性，我们在 Wenetspeech 和 Librispeech数据集上进行了测试。Wenetspeech 具有两个评估拆分：test_net 和 test_meeting。前者的数据源与训练数据更为接近，较容易；后者则具有更大的挑战性。作为我们模型的留出数据集，Librispeech 评估了模型在未见数据集上的泛化能力。它有四个评估拆分：“dev” 开头的是验证集，“test” 开头的是测试集。“Clean” 指较不具挑战性的集合，而 “other” 指较具挑战性的集合。我们可以看到，VITA 在 ASR 基准上取得了可观的结果。

多模态表现：

为了评估 VITA 的多模态能力，我们在四个代表性基准上进行评估，包括 MME 、OCRBench、HallusionBench 和 Video-MME 。如上图所示，在图像理解方面，VITA 超越了图像专用的开源模型 LLaVA-Next，接近于闭源模型 Gemini 1.5 Pro。在视频理解方面，VITA 超过了视频专用的开源模型 Video-CCAM。尽管 VITA 与视频专用的 LLaVA-Next-Video 之间存在差距，但鉴于 VITA 支持更广泛的模态并优先考虑交互，这种差距是可以接受的。然而，值得注意的是，当前开源模型与专有模型在视频理解能力方面仍存在较大差距。

结论与未来工作

在本文中，我们介绍了 VITA，一个强大的开源多模态大语言模型，它将视频、图像、文本和音频理解整合到一个统一的框架中，并提供了先进的交互体验。除了强大的多模态基础能力，VITA 还在开源社区中开创了新的多模态交互方式，包括非唤醒交互和音频中断交互。然而，当前版本仍面临以下限制：

基础能力的提升：虽然 VITA 在单模态和多模态任务中相较于领先的开源模型表现出色，但与专有模型相比仍存在显著差距。
噪声音频构建的优化：使用现有数据的非查询响应作为噪声音频样本是一种简单而有效的方法。然而，VITA 有时会将噪声音频误分类为查询音频，这突显了需要更细致的构建方法。
与 LLM 联合构建端到端 TTS：我们目前使用额外的 TTS 工具将 LLM 生成的文本转换为语音，这一过程比较耗时。如果能够将 TTS 与 LLM 结合，实现端到端的语音输出，可能会大大提升实时交互性能。

未来的工作将集中在解决这些限制，并探索以下方向：

提升多模态基础能力：引入更多数据并改进模型架构，以缩小与专有模型的性能差距。
优化噪声音频识别：开发更复杂的噪声音频识别算法，以提高模型过滤无关音频的能力。
实现端到端 TTS：研究如何将 TTS 功能直接集成到 LLM 中，以实现更高效的语音生成和实时交互。

我们期待在未来版本的 VITA 中克服这些挑战，并继续推动开源多模态模型的发展。

Seed-ASR基于大型语言模型（LLM）的语音识别模型

https://arxiv.org/abs/2407.04675

https://bytedancespeech.github.io/seedasr_tech_report/

字节推出Seed-ASR,支持复杂场景、语种、多方言超精准识别

Seed-ASR是一种基于大型语言模型（LLM）的语音识别模型。Seed-ASR是在音频条件大语言模型（AcLLM）框架上开发的，利用了大型语言模型的强大能力，将连续的语音表示和上下文信息输入到语言模型中。通过分阶段的大规模训练以及语言模型中上下文感知能力的引入，Seed-ASR 在综合评估集上（涵盖多个领域、口音/方言和语言）比传统的端到端模型有了显著提升。

摘要

ASR模型需要在各种应用场景中准确地转录给定特定上下文信息的各种语音信号（来自不同领域、语言、口音等）。融合了额外语言模型的经典端到端模型表现良好，但主要应用在数据匹配场景中，并且逐渐接近瓶颈。Seed-ASR基于大语言模型（LLM）的语音识别模型。Seed-ASR是基于audio conditioned LLM（AcLLM）的框架开发的，通过将连续语音表示与上下文信息一起输入到LLM中来利用LLMs的功能。通过阶段式大规模训练和LLM中的上下文感知能力的启发，Seed-ASR在综合评估集（包括多个域，口音/方言和语言）上展示了端到端模型的显着改进。此外，Seed-ASR可以进一步部署，以支持各种场景中的特定需求，而无需额外的语言模型。与最近发布的大型ASR模型相比，Seed-ASR在中文和英文公共测试集上的单词（对于中文字符）错误率降低了10%-40%，进一步证明了其强大的性能。

Introduction

Seed-ASR，一个基于LLM的大规模ASR模型。为了成为一个“更智能”的语音识别模型，通过将连续语音表示与指令和上下文信息一起输入到LLM中，利用LLMs的能力。Seed-ASR具有五大特点：

Seed-ASR 具有高识别率、大模型容量、多语言支持、上下文感知和分阶段训练五大特点。通过2000万小时语音和90万小时ASR数据训练，Seed-ASR（CN）和Seed-ASR（ML）在多个数据集上表现优异。其采用了包含20亿参数的音频编码器和数百亿参数的MoE大语言模型，支持普通话、13种方言以及多种语言，并计划扩展至40多种语言。通过整合包括历史对话、视频编辑历史和会议参与详细信息，来捕获与语音内容相关的重要指标。这种集成大大提高了各种场景中ASR评估集中的关键词召回率。【关键字召回率可以定义为 ASR 系统成功识别出的关键字的数量占所有实际出现的关键字数量的比例】，增强了多场景下的表现。Seed-ASR的开发经历了一个简单而有效的训练方案：音频编码器的自监督学习（SSL） → 监督微调（SFT） → 上下文SFT → 强化学习（RL）。每个阶段都有不同的作用，确保Seed-ASR的性能逐步提高。

数据集测评：

我们建立了一个高质量评估集的系列，包括广泛的语音输入，作为不同的主题，口音/方言，语言和语音持续时间。这些集合还包括一个ASR系统在不同应用场景下的定制能力评估（例如，对话场景下的关键词识别准确性和一致性）。在Seed-ASR设计中，我们选择了大规模训练的路径，利用了大模型容量和扩展训练数据以增强泛化性。我们考虑到提供给 AcLLM 框架的上下文，通过训练模型以来详细说明其定制化能力，从而形成一个适用于不同场景的统一且紧凑的模型结构。在我们的多维评估集上，与经典的端到端模型相比，Seed-ASR展示了更全面、更强大的模型能力。Seed-ASR的性能优势在公共测试集和我们的主观理解评估中得到了进一步证明。

Motivation

ASR模型的升级可以从LLM的技术进步中得到启发，主要可以归结为三个方面：

·统一模型框架。LLM采用基于下一个令牌预测的仅解码器框架。它对输入输出文本进行排序，依靠自注意机制建立序列中标记之间的依赖关系，从而统一文本理解和文本生成;

·缩放定律的力量。大规模模型参数为LLM提供了从不同数据源学习知识的关键能力。例如，从GPT-2 到GPT-3 ，参数数量从15亿增加到1750亿，使GPT-3表现出更好的泛化和涌现能力。

·全面的训练pipline，ChatGPT经历三个阶段：预训练，监督微调（SFT）和带有人类反馈的强化学习（RLHF）。在预训练阶段，LLM是在大量的文本数据上训练的，这使得它存储了大量的知识。在SFT阶段，LLM进一步针对更高质量的面向任务的数据进行微调，增强其根据上下文进行推理和理解任务指令的能力。最后，在RLHF阶段，训练目标转变为在强化学习的帮助下使LLM的行为与人类偏好保持一致;

由于ASR的任务是将语音转换为文本，因此其文本生成过程与LLMs一致。存储在LLMs中的广泛的文本知识和上下文推理能力使它们成为向ASR提供语义指导的潜在成分。剩下的核心挑战是如何使LLMs更好地“理解”语音，这是一种不同于文本的模态。

方法

Framework and Training Recipe

基于上述动机，我们提出了Seed-ASR，一个大规模的语音识别模型建立在音频条件LLM（AcLLM）的框架。通过将编码的连续语音表示与任务指令和相关上下文一起输入到预先训练的LLM中，Seed-ASR可以利用LLM的丰富文本知识和推理能力来生成语音的相应文本转录。总体框架如图2所示。

音频是与文本不同的模态。为了使LLMs更好地理解不同的语音输入，我们在LLMs中采用了大规模预训练的概念。具体来说，我们构建了一个具有近20亿个参数的音频编码器，并对数千万小时的数据进行了自监督学习（SSL）。预训练的音频编码器获得了强大的语音表示能力，这有助于在监督微调（SFT）期间快速收敛。在大规模SSL阶段之后，我们在AcLLM框架内实现了一个简单有效的阶段式训练方法（如图3所示）。在SFT阶段，我们通过对大量的语音-文本对进行训练，建立语音和文本之间的映射关系。在上下文SFT阶段，我们使用相对少量的上下文-语音-文本三元组来引出LLM从上下文中捕获语音相关线索的能力。这些三重数据可以根据具体场景进行定制。在强化学习阶段，我们应用MWER的训练标准_{[传统Attention-based Sequence-to-Sequence model使用cross-entropy作为损失函数，不是直接对WER指标进行优化，而真正的目标是直接或间接地最小化WER => MWER Training]}和一些改进来进一步加强我们模型的能力。在下面的小节中，我们将更详细地介绍这些方法。

语音编码器的自监督预训练

大规模SSL使音频编码器能够从语音中捕获丰富的信息。受基于BERT的语音SSL框架的启发，我们开发了我们的音频编码器，这是一种conformer-based的模型[_{Conformer 是 Google 在 2020 年提出的语音识别模型，主要结合了 CNN 和 Transformer 的优点，其中 CNN 能高效获取局部特征，而 Transformer 在提取长序列依赖的时候更有效。 Conformer 则是将卷积应用于 Transformer 的 Encoder 层，用卷积加强Transformer 在 ASR 领域的效果。}]，可以捕获存储在音频信号中的全局和局部结构。在这项工作中，我们主要关注语音信号。由于它是在大规模无监督数据上训练的，因此我们将训练后的音频编码器称为LUISE，它代表L大规模无监督迭代SpeechEncoder。

LUISE秉承BERT的概念，采用掩蔽语言预测的学习范式。训练过程如图4所示。具体地，首先将从波形提取的梅尔滤波器组特征的序列输入到 tokenizer模块以获得每个帧的离散标签。然后，使用交叉熵准则进行LUISE的训练，仅针对被掩蔽的帧计算损失函数。训练后，softmax层被移除，LUISE的编码器部分用于后续的监督微调。

我们利用一个迭代的固定 tokenizer的方法来获得相应的离散标签的每一帧。在第一次迭代中，我们应用随机projection层将语音特征投影到随机初始化的码本中，并通过找到码本中最近的向量将它们映射到离散标签。在第二次迭代中，我们对先前训练的编码器的中间层的表示执行K均值聚类以获得新的码本。然后通过在新码本中找到与来自相同中间层的表示最接近的向量来获得离散标签。在中间层的选择过程中，我们冻结了第一次迭代中训练的编码器参数，并为每个中间层添加了映射层和连接主义时间分类（CTC）损失，以进行监督微调。图5显示了通过对每个中间层的表示进行监督微调获得的字错误率（WER）。对于具有20亿个参数的LUISE，第25层（32层中）的输出展示了最佳的语义表示，并用于在后续迭代中生成离散标签。

有监督微调SFT

经过对大规模纯语音数据的训练，LUISE已经开发出强大的语音表示能力。它以40ms/帧速率输出包含丰富语音和语义信息的连续表示。为了使AcLLM更好地理解语音中相应的文本内容，我们需要将编码表示的语义信息映射到LLM的语义空间中。LLM为了实现这一点，我们使用以下两种方法：

在模型结构中，我们引入了一个转换器模块来连接我们的音频编码器（LUISE）和LLM（如图2所示）。转换器包括下采样模块和线性投影层。我们发现不同的下采样方法同样有效，因此我们使用最简洁的方法：帧拼接。具体来说，我们在特征维度上拼接4个连续的语音表示帧，然后输入到线性层中。因此，输入到LLM中的语音表示帧率为160毫秒；
在训练方法上，我们采用“可学习音频编码器+可学习转换器+固定LLM“的策略，在保持LLM参数不变的情况下，最大限度地保留了LLM丰富的语义知识和推理能力。可学习的音频编码器和转换器参数确保语音表示中包含的语义信息与LLM的语义空间对齐。LLM在训练过程中，使用交叉熵损失函数，只有生成转录文本的标记位置参与交叉熵计算;

上下文SFT

在大规模语音-文本对数据上进行训练后，我们的SFT模型在覆盖多个领域的测试集上表现出色。然而，SFT模型的训练方式决定了它缺乏在给定上下文信息（上下文）的情况下识别模糊语音内容的能力。这些问题在涉及口音（语音歧义）和同音异义词或稀有词（语义歧义）的情况下更加明显。因此，我们引入了上下文感知训练和联合波束搜索的方法，以增强模型有效利用上下文的能力（图6中给出了一个示例）。

上下文感知训练：首先，我们使用我们的内部大型语言模型来生成与语音转录相关的上下文。在我们的实验中，它比使用长段语音中的开头和结尾的转录文本作为上下文表现得更好。使用生成的自然语言上下文还可以提供更完整的语义，从而除了从上下文复制相关转录内容之外还能够学习推理。然后，我们构建了一个<context，speech，text>三元组的数据集，并将其与一定比例的一般ASR数据（语音-文本对数据）混合用于上下文感知训练。如图2所示，在上下文感知训练期间，我们将上下文和语音表示输入到LLM中。LLM这种训练的目标是增强模型从上下文中捕获语音内容相关线索的能力。

联合波束搜索：我们发现，直接使用本地波束搜索存在严重的幻觉问题。为了解决这个问题，我们提出了一种联合波束搜索的解码策略来缓解这个问题。具体地，我们使用联合波束搜索来找到最佳得分 Pjoint⁢(𝒚|𝒙,𝒄) ，其中 𝒚 表示预测的假设， 𝒙 是语音信息，并且 𝒄 是给定的上下文信息。超参数 α 用于在解码期间平衡语音信息和上下文信息的重要性：

同时，我们引入了一种修剪策略，首先使用上下文无关的得分 P⁢(𝒚|𝒙) 过滤出声学上不可信的候选令牌，然后对剩余的候选令牌应用联合波束搜索。修剪策略在缓解幻觉中起着重要作用。

强化学习

由于SFT和上下文SFT阶段中的训练基于交叉熵目标函数，因此与推断期间使用的评估度量（例如WER）不匹配。随着强化学习（RL）的发展，它可以在序列建模任务中学习相对最优的决策策略。因此，我们通过构建基于ASR度量的奖励函数来引入RL阶段。

单词错误率（WER）通常被认为是评估ASR模型性能的核心指标，但句子中的某些内容（例如关键字）在理解整个句子中起着更关键的作用。因此，我们还引入加权WER（WWER）作为额外的奖励函数，强调关键字错误的重要性。具体来说，我们应用最小字错误率（MWER）作为另一个训练目标，在我们的RL阶段中使用交叉熵目标 ℒCE 进行插值：

    在传统的 MLE 训练中，损失函数通常是基于每个时间步的交叉熵损失。这意味着模型优化的目标是每个时间步的预测概率分布，这可能导致最终的序列输出与实际参考输出在词级别上不匹配。MWER 训练则直接优化序列的 WER，这是更接近于最终应用的评价标准，尤其是在语音识别和自然语言处理任务中。

MWER 训练的实现方法:
候选序列生成：在 MWER 训练过程中，模型会先使用其当前参数生成多个候选的输出序列（通常使用采样或束搜索策略）。这些候选序列代表了模型对给定输入的不同潜在输出。

损失计算：计算每个候选序列的词错误率（WER），然后通过比较这些候选序列与参考序列之间的WER来评估损失。具体来说，损失函数会惩罚那些与参考序列WER较高的候选序列，同时奖励那些WER较低的候选序列。

最小化损失：使用反向传播算法更新模型参数，以最小化平均 WER 损失。由于损失函数直接反映了序列级别的错误率，这种方法能够更有效地训练模型来生成更准确的输出。

为了提高强化学习的训练效率，我们部署了一个远程服务来生成假设，并在更新当前服务器上的模型参数的同时计算MWER损失。在强化学习训练过程中：1）我们使用前一阶段训练的上下文SFT模型初始化模型参数; 2）我们利用高质量的数据进行强化学习训练，数据规模为数千小时。3)为了保持初始化模型的上下文感知能力，我们的训练数据还包括一定比例的上下文、语音、文本三元组。在完成RL训练之后，我们获得了我们的Seed-ASR模型。

表1：RL阶段的消融研究。作为奖励函数的加权WER在所有三个评估集上显示出比WER更好的性能（这些集的详细信息在第4.1节中介绍）。在强化学习阶段使用的上下文、语音、文本三元组的训练数据保证了上下文感知能力的不下降。Seed-ASR使用最后一行中的策略。WER或加权WER的度量计算中文、日文和韩文的字符错误，以及英文和其他语言的单词错误。

Observations

在改进Seed-ASR性能的过程中，我们也得到了一些观察：

Scaling Law

在LLM领域，可以观察到，较大的模型可以通过在更多数据上进行训练来不断降低损失值。据我们所知，在基于LLM的框架下，没有关于音频编码器的缩放律的相关研究。在SSL阶段，我们进行实验，以探讨不同的模型大小的LUISE的性能。具体来说，我们选择了五组型号尺寸：75 M、0.2B、0.6B、2B和5B。训练数据包括770万小时的无监督语音数据，覆盖多个领域，确保模型容量的充分利用。不同大小的模型在大多数训练配置中保持一致性，只是随着模型大小的增加，我们会按比例扩大模型的宽度和深度，适当增加批量大小和权重衰减，并降低学习率。

图7：（a）描绘了我们的音频编码器（LUISE）的预训练损失与模型参数大小的以2为底的对数之间的相关性。(b)描述了SFT之后的贪婪WER与模型参数大小的以2为底的对数之间的相关性。(c)描述了SFT之后的贪婪WER与LUISE的预训练损失之间的相关性。

我们首先关注验证集上的交叉熵预训练损失值与模型大小之间的相关性。如图7所示，我们观察到两者之间几乎呈线性相关。此外，我们比较了基于训练的LUISE的小规模SFT数据训练后的性能。使用贪婪搜索进行推理。如图7所示，多域评估集上的WER度量也与LUISE的模型大小呈现出近乎线性的相关性。此外，这揭示了SFT之后测试集上的WER度量与图7中SSL阶段中的损失函数值之间的正相关性。这些关于缩放律的发现为我们的编码器选择（考虑性能和效率的平衡）和后续优化提供了指导。

Long-form Ability

我们的Seed-ASR是在AcLLM的框架下建模的，它自然地利用LLM的语义知识和长上下文建模能力。因此，我们还探索了直接将整个长格式语音输入LLM进行识别的选项。该方法有效地避免了与对多个独立推断的长形式语音进行分割相关联的两个问题：1）分割过程可能导致边界处的信息丢失，从而降低识别准确性; 2）分割过程破坏了长形式语音中的强全局上下文信息，从而影响识别的准确性和一致性。

具体来说，我们构建了一系列长格式视频测试集，包括来自不同来源的5个数据集。在训练过程中，整个长格式数据被输入到模型中，而没有任何分割处理。测试集的持续时间分布与训练集的持续时间分布相当。如表2所示，使用长形式数据进行训练和测试，与短形式训练相比，相对WER降低了近8.8%，短形式训练采用域自适应VAD将长形式语音分割成几个部分进行训练和测试。长格式视频测试集的最大持续时间为5分钟，并具有显著长度延长的调度器。

模型与评价

目前，我们专注于在多样化场景下全面提升中文和多语种（不含中文）语音识别性能。因此，我们提出了两个具有相同模型结构和训练配方的Seed-ASR模型：汉语多方言模型，称为Seed-ASR（CN），和多语言模型，称为Seed-ASR（ML）。虽然我们也有同时支持中文和多语言的模型，但本报告将特别详细介绍两种分别专注于中文和多语言（不包括中文）的Seed-ASR模型。

Seed-ASR（CN）不仅可以用单个模型对普通话和13种汉语方言进行转录，而且在多领域、多方言、多口音和公共集等多维评估集上，与其他已发布的大型模型相比，性能有了显著的提高。此外，在上下文SFT阶段的训练赋予种子ASR（CN）有效的上下文感知能力，如在对话上下文评估集上所示。同样，Seed-ASR（ML）在8种多语言公共集（包括英语）和多领域评估集上取得了与其他已发布模型相比具有竞争力的结果，并且正在扩展到40多种语言。在下面的部分中，字错误率（WER）的度量被用作主要的客观度量。除非另有说明，否则WER的度量计算中文、日语、韩语的字符错误，并计算英语和其他语言的单词错误。

Seed-ASR (CN)

Seed-ASR（CN）遵循图3所示的完整训练管道。在SSL阶段，我们使用了具有近2B参数的LUISE编码器，并对来自各个领域的近800万小时的普通话和汉语方言语音数据进行了训练。在SFT阶段，我们使用经过训练的LUISE和具有超过百亿个参数的LLM进行模型初始化。训练数据包括包含多个域的普通话数据和方言数据的混合。SSL和SFT阶段的详细数据分布见附录A.3。在上下文SFT阶段，我们使用一定比例的SFT阶段数据与一些上下文、语音、文本三元数据混合进行训练。在RL阶段，我们使用训练好的上下文SFT模型进行初始化，并构建高质量的训练数据进行训练。在这个全面的训练过程之后，我们获得了Seed-ASR（CN）

为了全面评估Seed-ASR（CN）模型的ASR能力，我们在公开数据集上将其与其他已发布的模型进行了比较，并构建了一系列评估集，包括多领域集、多源视频集、硬案例集、多方言集、多口音集、上下文感知集和主观可懂度评估。

最后的结果是上述6个测试集的WER（中文字符）的平均值。我们用于比较的基线包括Paraformer-Large、Qwen-Audio和最近发布的基于LLM的ASR模型，其结构为Hubert+ Baichuan 2。他们的研究结果来自他们各自的论文。如表3所示。Seed-ASR（CN）表现出比其他模型更显著的性能优势，在这些公共数据集上获得了最先进的结果。对于6套的平均WER，Seed-ASR（CN）比其他已发布模型实现了超过24%-40%的WER降低。

对多域多源视频集的评估:

我们还对多领域评估集进行了全面的性能比较，该评估集包含来自视频，直播，语音搜索，会议，智能助手等各种场景的高质量评估数据，并将多领域集合中总共7个集合的加权平均WER作为最终指标。我们选择基于传感器的端到端模型[20]，其具有MoE编码器和超过300 M的参数作为基线之一。此外，我们还在多域评估集上运行Paraformer-large（离线解码）的结果作为另一个基线。从表4中的结果来看，Seed-ASR（CN）显示出显著的性能优势，与我们强大的端到端模型相比，WER指标相对降低了47%以上。在覆盖7个不同子集的视频评估集上，Seed-ASR（CN）也获得了相当大的性能改善。这些结果证明了Seed-ASR（CN）强大的基础能力。

此外，我们通过引入10个硬案例测试集来评估高级ASR能力，这些测试集覆盖了包括书名、汽车名称、成语、药品名称、电影名称、古诗、产品名称、音乐名称等在内的话语。这些测试集旨在评估模型识别包含专有名词的语音内容的能力，这些专有名词具有很强的专业性和领域特异性，反映了ASR模型的知识储备和识别准确率。硬案例集的评估指标是每个句子中给定关键字的F1分数。如表4所示，与端到端模型基线相比，Seed-ASR（CN）模型实现了F1值3. 3%的绝对增长，证明了AcLLM模型框架在利用LLM常识知识和语义推理能力方面的有效性。

多方言集和多口音集的评估:

由于我们的Seed-ASR（CN）模型支持普通话和13种汉语方言的识别，我们还引入了方言评估集。这套共包括13种方言（广东话、西南话、吴语、吉鲁话、中原话、闽语等）。并使用汉字的相同或相似发音对文本进行人工标注。我们的方言评估集的具体演示可在我们的网站²上获得。我们使用WER作为这个方言评估集的客观度量。

我们使用微调的Whisper Medium-v2，769 M参数作为我们的基线。为了进行公平的比较，我们使用相同的方言训练集训练Whisper Medium-v2和Seed-ASR（CN）。Seed-ASR（CN）需要在保持普通话综合能力的同时提高方言上的ASR性能，因此它使用来自多个领域的更大比例的普通话数据进行训练。相比之下，Whisper Medium-v2在多域集等综合评估集上显示出较差的结果。尽管如此，具有更大建模能力的Seed-ASR（CN）模型在13种方言集上仍然显示出优于基线的性能优势，13种方言的平均WER从21.68下降到19.2（相对WER降低11.4%），并且在单个方言测试集上相对WER降低超过21%。

为了进一步验证Seed-ASR（CN）对不同语音的识别性能，我们引入了一系列口音评估集，包括来自安徽、福建、甘肃、广东、贵州、湖南、江西、辽宁、陕西、山西和云南的11个中国口音。具体的口音语音样本也可在我们的网站².如表6所示，与从头开始训练的强E2 E模型相比，Seed-ASR（CN）在口音测试集上表现出显着的改进。我们还通过在训练过程中移除重音SFT数据来进行消融研究，但Seed-ASR（CN）仍然在重音集上实现了强大的性能。在多方言、多口音评价集上的实验结果表明，该算法对不同地区的汉语语音识别具有较强的鲁棒性。

对对话上下文集的评估:

在语境感知的评估中，我们构建了一个高质量的对话语境集，其中对话历史被用作语境信息。如图8所示，我们提供了两个对话示例。每个测试用例包括对应的对话历史文本和当前识别的语音内容。我们将对话语境评估分为严格和宽松两个子集。严格子集包含对历史对话有很强依赖性的样本，以准确识别语音内容，例如人名。松散子集的历史对话和演讲内容之间的依赖性较弱，如专有名词。我们使用关键字召回作为评估指标。

总结:

在包括SFT → context SFT → RL的逐步训练配方之后，我们的Seed-ASR（CN）模型产生了。在上述综合评估集上，我们观察到我们的Seed-ASR（CN）模型的某些能力在不同的训练阶段得到了增强。在这里，我们对每个阶段的效果进行了详细的消融研究，结果如表9所示。首先，RL阶段的引入带来了对大多数评估集的改进，例如多域，多源视频，多方言，硬案例和代码切换。重音测试集中的轻微降级可能是由于训练数据比率。此外，上下文SFT阶段的训练对大多数测试集产生了积极的影响，特别是在上下文严格测试集上的召回度量方面带来了显着的改善。这进一步证明了我们的上下文感知训练和解码策略在上下文SFT阶段的有效性。

Seed-ASR (ML)

如上所述，Seed-ASR（CN）在识别普通话和汉语方言方面表现出很强的性能。为了将这些优势扩展到其他国家用户使用的语言，我们还将Seed-ASR方法应用于多语言场景，从而形成了我们的多语言模型：Seed-ASR（ML）。Seed-ASR（ML）的训练与Seed-ASR（CN）的主要区别在于训练数据。Seed-ASR（CN）专注于普通话和中国方言，而Seed-ASR（ML）则是在各种多语言数据集上进行训练的。在SSL阶段，Seed-ASR（ML）的音频编码器也使用了具有2B参数的LUISE，并使用来自多域源的数千万小时无监督多语言数据进行训练。在随后的阶段中，我们从我们的多语言ASR训练集中选择训练数据，这些训练数据总计数十万小时，涵盖9种语言：英语，中文，阿拉伯语，西班牙语，法语，印度尼西亚语，日语，韩语和葡萄牙语。 SSL和SFT阶段的详细数据分布见附录A.3。我们对多个评估集和公共数据集进行性能比较。

Evaluation on Multi-domain and Multi-accent Sets:

在多域评估集上，覆盖的域与第4.1.2节中介绍的种子ASR（CN）上的多域评估集相同。硬盒测试集涵盖了医疗健康、食品和饮料、体育、技术、服装、游戏、娱乐和美容等领域。我们还建立了对不同口音的英语的评估，包括来自英国，美国，澳大利亚，加拿大，中国，印度，新加坡，新西兰和南非的发言者。对于多语言评估，我们报告了7种非英语语言的平均WER性能：阿拉伯语（AR），西班牙语（ES），法语（FR），印度尼西亚语（ID），日语（JA），韩语（KO）和葡萄牙语（PT）。如表10所示，用于比较的基线包括Google USM [50]（API call ³）、Whisper Large v3 [39]（离线解码）和Universal-1 [41]（API调用⁴）。由于Universal-1在我们的多语言多域评估集中仅支持3种语言，因此其相应结果未包含在此处。我们将这些模型在多语言多域评估集上的语言性能比较附在附录A.1中。从表10中的结果来看，与最强的基线相比，Seed-ASR（ML）在英语和多语言多领域评估集上分别表现出相对超过42%和40%。在英语多重音和硬格评估集上也观察到类似的显着改进。

除了内部多域评估集之外，我们还将Seed-ASR（ML）与英语和其他语言的公共测试集上的其他模型进行了比较，包括Librispeech[36] test clean/other，MLS[38]，Tedo 3[24]，Callhome，Switchboard[19]，AMI[30]和Fleurs[13]。测试集的详细信息见附录A.2。结果如表11所示。请注意，基线模型的所有结果都是由基线模型的相应论文或技术报告的WER（Whisper Large-v3结果来自Universal-1的技术报告[41]）。如表11所示，Seed-ASR（ML）在不同语言的大多数测试集上都实现了最佳性能，提高了10%到40%，这表明Seed-ASR（ML）对训练期间看不到的领域具有泛化能力。

与Seed-ASR（CN）类似，Seed-ASR（ML）在广泛的评估集上表现出与多个强基线相比的卓越性能。该模型在识别具有不同声学环境、语义上下文和多种语言口音的语音方面表现出色，强调了该模型的泛化能力及其在训练过程中处理来自各种看不见的领域的语音的有效性。总体而言，上述中文和多语言环境下的评估集的结果证明了Seed-ASR在涵盖多语言，多方言，多口音，多领域和多定制需求的多种应用场景中的泛化能力和强大的基础能力。

总结

通过包括SFT、上下文SFT和RL在内的逐阶段训练的Seed-ASR模型，与最近发布的强大端到端模型相比，在不同声学和语义领域、口音/方言/语言和长距离语音持续时间的各种评估集上展示了上级能力。大规模的LUISE预训练和连接LUISE和LLMSFT赋予Seed-ASR理解不同语音内容的能力。上下文SFT阶段的引入显著提高了模型对相关上下文的关键词的召回率，展示了模型在利用LLMs的上下文感知能力方面的强大定制能力。RL阶段进一步巩固了Seed-ASR的文本生成行为与准确转录的要求之间的一致性，特别是语义重要部分的转录。总体而言，结果肯定了Seed-ASR作为涉及多种语言，方言，口音，域和定制需求的各种应用程序的最佳ASR模型的地位。未来，我们将专注于扩展Seed-ASR在单个模型中处理多个任务的能力，进一步增强长格式能力并增加支持的语言数量。

关于数据集：

paraformer-工业级非自回归端到端语音识别模型

论文地址：https://arxiv.org/abs/2206.08317

代码：https://github.com/modelscope/FunASR/

摘要：

Transformers在 ASR 领域占据主导地位。虽然能够产生良好的性能，但它们使用自回归（AR）解码器来逐一生成令牌，这在计算效率上是低效的。为了加快推理速度，可以使用非自回归 (NAR) 方法，例如单步 NAR 的设计是为了实现并行生成。然而，由于输出标签之间的独立性假设，单步 NAR 的性能不如 AR 模型，尤其是在大规模语料库的情况下。改进single-step NAR 面临两个挑战：首先是准确预测输出 token 的数量并提取隐藏变量；其次，增强输出标签之间相互依赖性的建模。为了应对这两个挑战，我们提出了一种快速且准确的并行Transformer，称为 Paraformer。该模型属于单步非自回归模型。这利用基于连续积分和激发的预测器来预测令牌的数量并生成隐藏变量。然后，扫视语言模型（GLM）采样器生成语义嵌入，以增强 NAR 解码器对上下文相互依赖进行建模的能力。最后，我们设计了一种策略来生成负样本以进行最小错误率训练，以进一步提高性能。使用公共 AISHELL-1、AISHELL-2 基准和工业级 20,000 小时任务的实验表明，所提出的 Paraformer 可以达到与最先进的 AR Transformer相当的性能，并且加速超过 10 倍。

1. Paraformer使用基于CIF的predictor预测输出标签的个数并产生隐变量；【文献18】

2. GLM sampler用于产生语义向量增强非自回归模型对上下文的建模能力；【文献19】

3. 最后作者设计了一个策略产生负例，并用MWER损失训练使模型的识别能力进一步提升。【文献20】

介绍：

过去几年，端到端（E2E）模型在自动语音识别（ASR）任务上的性能已经超越了传统层级系统。存在三种流行的 E2E 方法：连接主义时间分类 (CTC)、循环神经网络转换器 (RNN-T) 和基于注意力的编码器-解码器 (AED) 。其中，AED 模型由于其卓越的识别精度而在 ASR 的 seq2seq 建模中占据主导地位。例如 Transformer 和 Conformer。虽然性能良好，但此类 AED 模型内的自回归 (AR) 解码器需要一一生成令牌，因为每个令牌都以所有先前的令牌为条件。因此，解码器的计算效率低下，并且解码时间随着输出序列长度线性增加。为了提高效率并加速推理，有人提出使用非自回归（NAR）模型并行生成输出序列。

基于推理时需要的迭代次数，NAR 模型可以分为迭代模型或单步模型。在前者中，A-FMLM 是单步自回归模型的最早尝试，旨在通过不断迭代来预测以未屏蔽标记为条件的屏蔽标记。由于需要预先定义目标令牌长度，性能受到影响。为了解决这个问题，Mask-CTC 和变体提出通过 CTC 解码来增强解码器输入。即便如此，这些迭代 NAR 模型需要多次迭代才能获得有竞争力的结果，限制了实践中的推理速度。最近，提出了几种单步 NAR 模型来克服这一限制。它们通过消除时间依赖性同时生成输出序列。虽然单步 NAR 模型可以显着提高推理速度，但其识别精度明显不如 AR 模型，尤其是在大规模语料库上评估时。

前面提到的单步非自回归模型主要关注如何预测输出标签的个数和准确提取隐变量。和机器翻译通过predictor预测输出标签个数相比，ASR预测输出标签个数确实比较难，因为有很多的潜在影响因素，比如说话人的语速、静音、噪音。另一方面，经过作者的观察和分析，单步非自回归模型相比自回归模型具有更多的替换错误，如下图1。作者认为缺少上下文依赖信息导致预测标签个数准确率差不多，但替换错误上升明显(AR和vanilla NAR比较)，尤其是单步自回归模型的条件独立假设。另外，所有的非自回归模型都是在学术基准阅读音频上实验的，并没有验证这些模型在工业基准数据上的效果。这篇论文的目标是提升单步非自回归模型的识别效果，使其达到和自回归模型相同的水准，并在大规模工业级数据上验证。

文章提出了一个又快又准的并行transformer模型，可以克服上面提到的两个挑战。首先，不像前面的基于CTC的工作，作者提出了使用基于CIF【continuous integrate-and-fire】的predictor网络评估目标长度并产生隐变量。对于第二个挑战，作者设计了基于GLM【glancing language mode】的sampler模块增强非自回归解码器对输出上下文的建模能力。这个工作受到了机器翻译工作的启发。作者另外设计了一个包含负例的策略，利用MWER损失指导模型学习提升模型性能。

Paraformer是第一个在性能上可以和自回归模型媲美，并且在大规模数据集上相比自回归模型有10倍+的推理速度提升。

方法

整体框架

如上图所示，整个框架包含五个模块：encoder、 predictor、sampler、decoder、loss function。其中Encoder和自回归模型的Encoder一样，本文使用SAN-M【multihead-attention的部分换成了san-M】和FFN，也可以使用conformer等结构。Predictor用于生成声学特征指导解码。Sampler模块使用声学特征和标签特征生成语义特征【用于学习输入的上下文内容语义信息，增强非自回归解码器对输出上下文的建模能力】。Decoder和自回归解码器相同，只不过这里是双向解码器[类似bert]。解码器包含多个SAN-M、FNN和cross MHA模块。除了CE loss，还会使用MAE loss训练predictor，MWER损失也一起参与模型训练。

整个流程阐述：
输入音频为X，长度为T；音频对应的文本标签为Y，长度为N。Encoder的输入为X，输出为H。Predictor的输入为H，输出为预测的输出标签长度N’并生成声学向量E_a。第一轮解码Decoder的输入为H和E_a，输出为Y’。图中红色虚线Pass1标记部分表示输入E_a，但是并不对这个输入进行反向传播学习。第二轮解码前会首先经过Sampler模块。Sampler模块在声学向量E_a和输出标签向量E_c之间进行采样得到语义向量E_s。其中Char指的是标签Y。采样过程依赖Y和Y’之间的距离。第二轮解码Decoder的输入为H和E_s，输出为Y’‘，这次进行反向传播学习。此次反向传播学习指导decoder学习上下文语音信息，同时也会指导predictor和encoder的学习。Sampler使用Y’进行距离计算不会进行反向传播学习。最后输出的Y’’会被采样为MWER训练生成负例候选。使用N和N’计算MAE。MWER、MAE和CE loss一起作为loss进行训练。
推理时，sampler模块是不激活的，并且双向并行解码器只使用声学向量E_a和隐向量H通过一轮输出最终的预测结果。尽管decoder在每次训练时会前向推理两次，但是因为在推理时只进行了一次所以并不会使计算复杂度变大。

Encoder：

SAN‑M（Memory Equipped Self‑Attention）是一种将自注意力（Self-Attention）与 DFSMN 记忆模块融合的结构，最初用于 增强 Transformer 的上下文捕捉能力，尤其在 ASR 任务中表现出色。它通过在每个 Transformer 注意力块中嵌入 FSMN 类型的 记忆增强路径，来充分结合 Transformer 的远程依赖和 FSMN 的局部惯性记忆优势。

DFSMN 通过引入跳跃连接和记忆步长改进了 FSMN 架构。它由三部分组成：一个线性投影、一个记忆单元以及一个从记忆单元到下一个隐藏子层的权重连接。DFSMN 的关键元素是可学习的类 FIR 记忆块，它们用于将长上下文信息编码为固定大小的表示。因此，DFSMN 能够在不使用循环反馈的情况下对序列数据中的长期依赖关系进行建模。第l-th 记忆块中的操作采用以下形式：

这里， 𝐌^ℓ 是记忆块。 𝐡t^ℓ 和 𝐩t^ℓ分别表示 ReLU 层和线性投影层的输出。 𝐦t^ℓ 表示第 ℓ 个记忆块的输出。 N1^ℓ 和 N2^ℓ分别表示第 ℓ 个记忆块的回顾和前瞻顺序，而 s1 和 s2 是它们各自的步幅因子。

其中 𝐘 表示 SAN-M 的输出。单向 SAN-M 意味着自注意力和 DFSMN 记忆块本身都是单向的。

DFSMN 记忆块和自注意力的输出都是通过对特征向量加权然后求和来计算的。重要的区别在于如何得出权重。对于 DFSMN 记忆模块而言，权重是上下文无关（CI）系数，我们可以将其视为学习整个数据集的统计平均分布。虽然单层的感受野较小，但仍然可以通过堆叠多层来建模长距离依赖关系。

(a) 自注意力机制能够学习全序列内的长程依赖关系，但学习到的特征并不一定总是长期依赖的，尤其是在编码器中。(b) DFSMN 记忆模块倾向于学习局部依赖关系。同时，它们的计算效率更高，也比自注意力机制更灵活。(c) 自注意力机制学习的是专注于单个特征的长期上下文依赖关系，而 DFSMN 记忆模块则从整个数据集的统计平均分布中学习局部项依赖关系，这意味着它们在实践中可能更具鲁棒性。

Predictor

Predictor由两个卷积层组成，输出的float weight α 在0～1之间。作者通过累计此权重预测输出标签的长度。MAEloss定义为：

其实就是将所有α 进行了累加，加起来的长度就是预测的长度。LOSS就是真实长度和预测长度差的绝对值。作者引入了CIF机制产生声学向量。CIF是一个软的(非0/1，可以是小数)和单一对齐的，在AED模型中作为流式解决方案的实现。声学向量的生成时，CIF对权重α 进行累计，如果超过了设定的阈值β ，说明某一个声学向量的边界确定了。对边界之内的向量H根据权重α 进行缩放累计即可得到某一个声学向量。此过程重复直到结尾，可得到所有的声学向量。如下图所示：

在训练时权重α会根据N进行缩放(比如累计的α为N’，使用N/N’对所有的α 进行缩放，使用缩放后的α计算声学向量E_a。缩放是为了让的E_a维度和E_c的维度保持一致)，但是在推理时无法进行缩放，导致训练和推理之间存在不一致。为了弥补这个不一致，作者提出了使用动态阈值β而不是固定阈值。计算公式如下：

下面是一个向上取整，所以分子小于等于分母，阈值β < = 1 。

Sampler 【参考字节Glancing Transformer】

非自回归模型的另一个核心问题是如何增强模型对上下文建模能力，现有的通用的单轮自回归模型 (vanilla-NAR) 为了高效计算效率，模型中 decoder 去除了显式的 Dependency 建模，从而在处理同音替换错误的能力会弱很多。GLM目的就是更好的学习输出序列的上下文语义关系，利用上下文进行当前的文本预测， 学习输出标签之间的依赖关系。

在普通的单步非自回归模型中，优化的目标为：

然而，正如上面所说的，单步非自回归模型中的输出标签独立性假设导致模型识别效果不如自回归模型。GLM模块的loss定义如下：

其中GLM(Y,Y′)表示Sampler模块在Ea和Ec中选中Ec替换Ea对应的Y′′中token的集合；GLMˉ(Y,Y′)表示Sampler模块在Ea和Ec中未选中Ec替换Ea对应的Y′′的token的集合；GLM(Y,Y′)的定义如下：

上面公式的含义是从Ec中采样⌈αd(Y,Y′)⌉个向量替换对应位置的Ea，生成新的向量为Es。其中α是控制采样率的采样因子，越大表示使用Ec替换Ea的概率越大。该采样概率应该在最初模型效果不好时设置的稍微大一些，然后随着整个的训练过程的进行逐渐减小。为了达到这个目的，作者简单实用汉明距离，其定义为：

也就是，最开始的时候模型学习不好，d会比较大，当模型学习越来越好时，d也逐渐减小。表示最开始训练时，使用较多的Ec替换Ea，也就是上下文信息更多和准确，减小模型的学习难度；当模型学习的越来越好时，使用较少的标签信息迫使模型进一步学习。

总结，sampler模块结合了标注标签向量Ec，实现方法是随机替换Ea中⌈αd(Y,Y′)⌉个向量生成新的含有语义的向量Es。训练并行decoder使用语义上下文GLM(Y,Y′)预测目标标签GLMˉ(Y,Y′)，使模型学习输出标签之间的依赖关系。

补充Glancing Transformer 原理：

自回归模型中最为常用的训练方式是最大似然估计（MLE），不少非自回归模型也直接使用 MLE 进行训练。但是非自回归模型的输出方式是并行的，输出语句中的任何部分在输出之前都无法获得输出语句中其余词的确切值。所以直接使用 MLE 训练并行输出的非自回归模型无法有效地建模输出语句中词之间的依赖关系。值得注意的是，词之间依赖关系的建模对输出通顺的语句至关重要，拥有良好生成质量的自回归模型和多轮迭代解码的模型均对这种依赖关系进行了有效的建模。

直接训练完全并行生成来学习目标语句中词之间的依赖关系对模型并不友好。一种更为简单有效的依赖关系学习方式是根据部分输入词预测其余目标词。但是这种学习方式需要部分目标词作为输入，不符合非自回归模型并行生成的要求。作者观察到随着模型自身更好地学习到词之间的依赖关系，模型对于依赖关系的学习可以逐渐摆脱使用目标语句部分词作为输入的需求。基于以上观察，Glancing Transformer（GLAT）利用了一种 glancing language model 的方法，通过渐进学习的方式进行词之间依赖关系的建模。在渐进学习的过程中，模型会先学习并行输出一些较为简单的语句片段，然后逐渐学习整句话的单步并行生成。

具体地，在第一次解码的时候，和常规的非自回归模型一样，模型使用完全并行解码的方式输出语句。然后将第一次解码得到的输出和训练数据中的目标语句进行对比。如果输出和目标语句差距较大，说明模型在训练中难以拟合该训练样本，因此这时 GLAT 会选择提供更多目标词作为输入来帮助学习词之间依赖关系。反之，如果输出和目标语句比较接近，则模型自身已经较好地学习了如何并行生成该目标语句，所需要的目标词数量也相应减少。

在第二步解码之前，模型的解码器可以得到部分目标词作为输入，这些词的数量由第一步的解码结果所决定。这时，模型在并行输出之前可以获得部分目标词的确切值，所以在学习输出剩余目标词的过程中就可以对目标语句中词之间的依赖关系进行建模。

随着训练的进行，模型对数据拟合程度更高，因此能够更准确地生成目标语句。与此同时，需要作为解码器输入的目标语句中的词的数量会越来越少，在训练后期逐渐接近学习完全并行生成的训练场景（例如上图右边的例子）。具体的方法细节和实现方式可以参考论文。

Loss Function：

一共定义了三个loss：CE、MAE、MWER。训练时进行联合训练：

对于MWER，具体的计算公式如下：

非自回归模型使用贪婪搜索，所以只有一个输出路径。正如前面提到的，在使用MWER训练时作者使用负例采样策略通过随机遮蔽top1分值标签产生多个候选路径。

MWER代码实现：https://gist.github.com/TeaPoly/234429e6c2d74d10fcb4987bc541d528

在训练阶段，为克服贪婪推理带来的路径多样性不足，Paraformer 采用 Minimum Word Error Rate（MWER）训练，其中：

MWER 损失目标是最小化期望词错误率，需要多条候选路径参与比较；
但 NAR 模型贪婪解码只产生单条路径，这时就需要人为生成多条候选路径。

于是引入 “负例采样策略”（Negative Sampling）：

给定模型输出的 logit 序列，先得到首候选分布；
然后随机遮蔽（mask）每个位置上概率最高的 token（top1）；
遮蔽后重新预测该位置（随机或第二选 token），这样对每个采样得到一条新的路径；
重复 N 次，便可以生成多条“看似真实但含小变动”的候选路径。

实验

实验设置

在AISHELL-1、AISHELL-2以及工业级2wh数据集上验证上述方法的效果。其中工业级的测试集有两个：普通30h、远场15h。具体的工业级语料介绍可以参考文献21和28。RTF的测试在NVIDIA tesla V100上完成。

结果如上表格。在上述两个测试集上的测试都是在ESPNET框架上实现的，不包含LM和预训练模型。
AISHELL-1 的AR baseline参考文献15，效果在所有AR模型中是最好的（排除使用更多数据知识的模型）。因为作者当前的目标是通过模型结构提升模型效果而不是通过数据。普通的NAR和Paraformer的结构相同，但是没有Sampler。

结论：
1. 普通NAR的表现超过了其它的NAR工作，比如文献15和文献12
2. 普通NAR模型的表现比AR模型稍微差一些，因为缺乏了输出标签之间的上下文信息。
3. Paraformer通过使用基于GLM的Sampler模块对普通NAR模型增强，得到了和AR模型相近的识别表现。
4. Paraformer模型在dev和test测试上的CER分别为：4.6%和5.2%，推理速度比AR基线模型快12倍

工业级2wh数据集

结果如上表格所示，进行了多个扩展实验。动态β表示2.2节中的动态阈值，CTC表示带有LM的DFSMN-CTC-sMBR系统，参考文献32。RTF在OpenNMT上进行评估。
实验有两个模型，一个41M的一个63M的。AR基线模型中attention的维度为256，和文献21一致。这里的结论和前面有所不同。

结论

可以看到在大型数据集上，普通NAR模型和AR模型的识别效果差距很大(AISHELL上差别较小)。
普通NAR模型虽然和CTC都有输出标签独立假设限制，但是普通NAR模型效果优于CTC效果。
普通NAR模型结合GLM时，效果提升。
当进一步结合MWER训练方法时，效果进一步提升。
Paraformer模型效果和AR模型效果很接近，差别在相对2%以内，但是推理速度提升10倍+。
Paraformer结合动态β \betaβ，效果进一步提升。因为相比固定阈值，动态阈值减少了推理和训练的不一致，更准确地提取了声学向量信息。
将模型变大时，得到了和前面相似的结论。Paraformer相比普通NAR模型效果提升；和AR模型效果相当，但是推理速度提升10倍+。
Paraformer-63M和AR transformer-41M模型相比较，尽管Paraformer模型较大，但是Paraformer推理速度更快。也就是说，在远场测试集上Paraformer-63M模型相比AR transformer-41M模型，识别效果相对提升6.0%，并且推理速度提升7.4倍。 也就是，在实际生产中，可以通过使用较大的Paraformer模型达到比AR模型更好的识别效果以及更快的推理速度。

对采样因子α的超参数测试结果参见上表格。和预期相同α变大时，模型效果变好，因为在训练时提供了更多的上下文信息；然而如果该参数太大会导致训练和测试不一致。基本上，α 在0.5～1.0之间的表现比较稳定。

在小型训练集上普通NAR和AR模型的识别性能差别不大，但是在工业级大数据集上差距明显。这是第一个在大规模工业级数据上验证NAR模型效果的研究。
Paraformer相比普通NAR模型识别效果相对提升11%，和精细训练的AR模型效果相当。

分析：见文章第一张图。普通NAR模型相比AR模型，插入错误多一点，但是删除错误少一点。说明普通NAR模型的predictor预测输出的标签个数较准确。然而替换错误比较多，侧面反应两者性能差距很大。作者认为这是由普通NAR模型的条件独立假设造成的。Paraformer模型相比普通NAR模型替换错误下降很多，也暗示了识别效果提升很多。作者认为这是由于GLM模块使NAR模型学习到了标签之间的依赖关系。Paraformer模型相比AR模型替换错误稍微多一些，也暗示着识别准确率稍微差一些。作者认为AR模型中基于LM的beam search解码扮演了很重要的角色，相比GLM效果更好。为了减少这个性能差距，作者将在未来工作中在Paraformer模型上结合外部语言模型。

个人思考/疑问

MWER loss没看懂，需要看文献20.
Char 的 Embedding使用的torch.nn.Embedding，直接学习嘛？还是预设值好的。
端到端语音识别中的Embedding，例如wenet框架的token 的 Embedding能不能使用NLP领域用文字训练得到的Embedding，如果能的话为啥主流的不是这种的，这个Embedding不比直接学习更好嘛？
wenet的重打分架构，decoder能不能直接根据CTC N-best结果得到矫正的识别结果，相当于做矫正/纠错？
Paraformer能不能直接结合在当前的wenet框架中，使用conformer那套encoder，而不是SAN-M。从文章结论看，可以使用更大的模型训练Paraformer，效果比之前的模型效果好，且推理速度快，是一个可以实践的方向。
Paraformer结构能不能和wenet重打分那套结合？Pafaformer的输出替代CTC的那一支，然后再加上decoder部分的重打分。这样相当于有了两个decoder。按道理就是训练会慢，但是推理应该还好吧？可能可行。——》Paraformer输出只有一个结果，重打分啥啊。。这个做不了。但是decoder可以作为纠错模型对结果进行纠错。
作者提出的在外面再结合一个语言模型应该是可行的。

[18] L. Dong and B. Xu, “CIF: Continuous integrate-and-fire for end-to-end speech recognition,” in ICASSP 2020-2020 IEEE Interna-tional Conference on Acoustics, Speech and Signal Processing(ICASSP). IEEE, 2020, pp. 6079–6083.
[19] L. Qian, H. Zhou, Y. Bao, M. Wang, L. Qiu, W. Zhang, Y. Yu,and L. Li, “Glancing transformer for non-autoregressive neural machine translation,” arXiv preprint arXiv:2008.07905, 2020.
[20] R. Prabhavalkar, T. N. Sainath, Y. Wu, P. Nguyen, Z. Chen, C.-C. Chiu, and A. Kannan, “Minimum word error rate training for attention-based sequence-to-sequence models,” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018, pp. 4839–4843

GPT-4o背后的语音技术

5月14日凌晨，OpenAI推出了最新的生成模型GPT-4o，带来了一系列震撼的功能，用技术彻底颠覆了产品形态。产品最大的亮点在于：以近乎完美的交互方式，为每位用户带来GPT-4级别的智能体验。在语音方面，GPT-4o做到了实时低延迟，平均响应时间与人类反应速度相当，输出的语音能够理解极度贴合对话上下文，能够理解人类的情感情绪，听觉质量上佳，与真人无异。

OpenAI的博客：https://openai.com/index/hello-gpt-4o/

GPT-4o是一个any2any的多模态模型，能够接受文本、音频、图像、视频等多模态输入，也能够生成包含文本、语音、图像和视频等混合内容的多模态输出。限于篇幅，本文主要谈谈语音多模态的实现，并分享一些对于语音研究未来发展的看法。

当我们主要关注文本和语音模态时，GPT-4o其实就是一个语音语言模型(speech language model, SLM)。该SLM同时具备语音理解能力和语音合成能力，输入端和输出端均支持文本和语音的混合多模态。那么，这一SLM应该如何实现呢？在大语言模型(large language model, LLM)滥觞的今日，不难想到这样一种方法：将连续的语音数据离散化成如同单词(或者称token，词元)一样的表示，并入到LLM的词表中，再走一遍训练LLM的老路。

基于上述思想来构建SLM，需要解决以下几个问题：

语音如何离散化？
如何让LLM理解语音的token？加入语音token之后，LLM在语音数据的理解上是否具有涌现性？
LLM如何合成/解码语音？

接下来，我们按图索骥，分别看看上述三个问题应该如何解决。看完现有的方案之后，也会谈谈一些关于工程实现的思考以及新兴语音技术对于游戏业务的影响。最后，我会给出一个完整的roadmap来收束全文。

语音的离散化：向LLM看齐！

在谈及语音离散化之前，我们先来看看语音和文本作为两种不同的模态，有什么区别，有什么联系。这直接关系到后文建模方法的选择以及离散化特征的关注点。

语音和文本的差别主要体现在：文本离散、序列短、信息密度高(几乎每个词都包含语义)；语音则连续、序列长、信息密度低。语音序列长、信息密度低的特点，意味着语音数据有很大的压缩空间，这一点和图像非常类似。因此，一些用于图像的离散化压缩方法也可以用在语音上。

除了差异，语音和文本也有一定的联系：语音是文本的超集，既包含文本内容(说话人说了什么，也就是语义信息)，也包含语音特有的音色、韵律、语速等声学信息(也叫做副语言)。既然语音包含文本，那么在NLP中预训练语言模型也可以用来建模语音中的上下文依赖关系，从而得到语音的离散化token。基于这些方法得到的token主要包含语音的语义信息。

花开两朵，各表一枝。我们先来看看语音的语义token如何获取。

语义token: 用MLM建模语音的上下文依赖

语音的语义建模方法，最常用到的就是BERT的MLM方法，比较经典的工作有三个：wav2vec 2.0[1]、HuBERT[2]和w2v-BERT[3]。

类似于BERT，wav2vec 2.0[1]在隐空间(latent space)随机mask了一定比例的语音输入，然后用基于对比学习的训练目标学习帧的表征。值得注意的一点是，对比学习中目标帧的离散化处理是一个非常巧妙的操作，它将无限的连续特征空间坍缩为有限的离散空间，让帧特征的鲁棒性更强了。这在语音领域上非常有用的trick，允许模型接受带有噪声的语音作为输入。

图1：wav2vec 2.0的模型架构

wav2vec 2.0只是借用了BERT中mask的操作，训练目标大体上是基于对比学习的范式。那么，能直接用BERT的MLM建模目标来得到高质量的语音表征吗？其后的HuBERT[2]做的就是这个事情。HuBERT[2]的核心点在于使用简单的KMeans聚类方法为语音数据抽取离散化的分类标签，也就是文中所说的hidden unit/acoustic unit。有了分类标签，然后就是用BERT的MLM loss来学习语音数据中内在的上下文依赖关系。对于KMeans聚类对初始值和K值高灵敏的特点，作者设计了ensemble和iterative refinement方法予以解决。前者就是多个聚类模型ensemble，后者就是先在基于MFCC的聚类标签上进行学习，学习到一定程度时，在模型学习到的表征重新聚类，再做一次BERT的学习。

图2：HuBERT的模型架构

既然对比学习可以学习语音的语义表征，BERT的MLM也可以，那将二者结合起来，会不会有互补的效果呢？w2v-BERT[3]做的就是这个事情。注意到：HuBERT中语音的离散token不是端到端获得的，需要用KMeans算法对特征进行离线聚类，而wav2vec 2.0又正好提供了音频帧的量化离散表征，HuBERT和wav2vec 2.0很容易就能缝合在一起。缝合的方法也是显然的：前面若干层做类似wav2vec 2.0的对比学习，学习出HuBERT要用的离散表征，然后在后面若干层做类似HuBERT的MLM训练。

图3：w2v-BERT的模型架构

声学token：压缩+离散

上一部分介绍的预训练模型做的是上下文关系的预训练，学习到的表征主要包含与上下文相关的语义信息。要想将语音的token还原成为真正具有真人表现力的信号，还需要有包含音色、韵律、语速等副语言信息的声学特征。声学特征的学习在很大程度上参考了图像领域的工作，用到的主要是类似于VQVAE[4]、VQGAN等的离散化压缩方法，并针对语音数据的特性做了优化。这一部分比较经典的工作就是SoundStream[5]和Encodec[6]，二者的工作高度类似，我们放在一起来看。

说到压缩，最先想到的模型当然就是AutoEncoder(自编码器)。为提升压缩效率，有利于数字传输和存储，以及离散化建模的要求，压缩模型中还需要包含量化(quantization)，将连续的音频信号转换为离散的数值。基于上述考虑，模型大体上应该是VQVAE[4]的结构。为了平衡VQ(Vector Quantization，向量量化)与音频实时高保真传输的矛盾，通常采用多个残差连接的codebook来进行量化，这个就是所谓的RVQ(具体分析过程可以参见知乎文章)。采用RVQ的好处主要有两个：其一，区分不同quantization block的分工，第一个block包含最重要的语义信息，后续的block包含还原语音的副语言信息；第二，模型训练时可随机采样前面若干个block来训练，保持一定精度，实现对比特率的动态适应。

总而言之，SoundStream[5]/Encodec[6]其实就是一个RVQ-VAE，它们所建模的语音离散化token包含了层次化的语义信息和声学信息。

图4：Encodec的模型架构

语音的统一表征？

不难发现，虽然说SoundStream[5]和Encodec[6]这样的基于RVQ-VAE的压缩建模方法包含了语音的声学特征，但其中也不可避免地带入了语义特征。二者提取的实际上更像是一种语义特征和声学特征的混合体。基于此，SpeechTokenizer[7]在二者的基础上，引入了语义引导信息来解耦语义特征和声学特征。语义特征和声学特征的解耦对于最终的语音合成有着相当的重要性。SpeechTokenizer的具体做法是：使用HuBERT[2]的特征对RVQ1的特征做语义蒸馏，其余部分保留声学信息。

图5：SpeechTokenizer的模型架构

语音的其他表征：MEL依旧有用！

上述的语音离散表征，不管是基于HuBERT[2]的语义token，还是基于Encodec[6]的声学token，它们都是直接基于原始的音频波形抽取的。除此之外，也可以基于语音的中间表征来抽取。最典型的语音中间表征就是梅尔谱(MEL spectrogram，下文简称MEL)。梅尔谱本身就对语音进行了压缩，将梅尔谱类比于图像，使用单码本的VQ也可以达到与SoundStream和Encodec那样类似的压缩程度。这种MEL+VQ的做法在各种语音合成模型中也相当常见。我们在语音合成部分会详细介绍。

让LLM理解语音token！

有了上面所说的语义token和声学token之后，其实就可以利用它们来构建语音层面的语言模型了。比较经典的工作有：谷歌的AudioLM[8]和AudioPaLM[9]、字节的SALMONN[10]、复旦的SpeechGPT[11]/SpeechGPT-Gen[12]/SpeechAlign[13]、阿里的LauraGPT[14]和新加坡国立大学的NextGPT[15]。它们的做法其实都大差不差，我们看几个就知道是怎么回事了。

AudioLM：最初的SLM

见名知义，AudioLM[8]构建的是语音层面的语言模型——给定一段语音，模型预测后续的语音。输入侧和输出侧都只有语音模态。这个任务形式和GPT-4o非常类似，不会经历ASR->LM->TTS的过程，而是直接从语音上下文中推理语义信息，再结合声学信息合成贴合上下文的高表现力语音。而上文所述的语义token和声学token正好就能满足这个任务的要求。

AudioLM的具体做法是：用SoundStream[5]提取声学token，用w2v-BERT[3]提取语义token，模型主体就是一个常规的GPT，词表包含所有的声学token和语义token。它的建模过程也相当有意思，有很大的参考意义：先做最重要的语义建模，然后先预测SoundStream的前若干层特征，建模粗糙的声学特征，在预测SoundStream的剩余层特征，建模声音的细节信息，最后基于所有的声学token还原为语音。这种层次化的建模在诸如VALL-E[16]这样的语音合成模型中也非常常见。

图6：AudioLM的tokenizer

图7：AudioLM的建模流程

当然，AudioLM[8]仅仅关注语音模态，LM也很常规，不具备如同GPT-4o一样强悍的指令遵循能力和对话能力，语音对话的连贯性和表现力都相当弱。但这一工作仍然具有相当的启发性和开拓性，证明了：即使是常规的LM，照样也能理解语音token。

AudioPaLM[9]：整合LLM

这个就是AudioLM的后续了，谷歌将常规的LM替换成已经训练好的、具有强大文本理解能力和生成能力的大语言模型——PaLM-2[17]，既继承了AudioLM保留副语言的能力，又融合了PaLM-2强大的语义理解能力和推理能力。而且，该模型的词表同时包含大语言模型的token和语音token，可以同时做语音理解任务和合成生成任务，第一将这些任务整合在一个模型中进行解决。

不过，需要指出地是，文中的语音token embedding是直接输入到Transformer中的，并没有使用音频编码器做一次转换。而且，AudioPaLM的训练更加接近文本多任务的T5，并未用到复杂的、丰富多样的指令来表达任务的意图，还不能算是真正严格的instruction fine-tuning。

图8：AudioPaLM的模型架构

SALMONN[10]：让LLM理解语音

这是字节跳动和清华大学电子系(也是我们实验室)的合作成果。虽然这个工作的目的是让LLM能够理解语音，还不能生成语音，但它的训练方法和LLM比较接近，而且在诸多语音相关的任务上都显示出了涌现性，可以用作universal的特征提取器，这对于构建高质量的、包含语音-文本多模态的指令微调数据集具有相当大的意义。

图9：SALMONN的模型架构

SpeechGPT/SpeechGPT-Gen/SpeechAlign：向LLM的训练方法看齐

这算是复旦大学邱锡鹏组在这个领域一个成系列的工作，我们一个一个来看。

SpeechGPT[11]做的也是兼具语音理解能力和语音生成能力的多模态模型。在模型的训练上，SpeechGPT大幅度向LLM看齐，使用了三段式的训练方法：第一阶段先做模态适应的预训练，其实就是拿ASR的语音数据来做预训练；第二阶段和第三阶段都是指令微调，不过根据指令模态的不同，细分为了跨模态的指令微调和模态链指令微调。指令微调的数据集都是来自ASR数据集。描述任务需求的指令由GPT-4生成。

在我看来，这个工作还是相当偏学术化的作品，文中有不少点都有值得商榷的地方：第一，语音的离散化仅仅用了HuBERT[2]，模型只能看到语音的语义特征，这对模型合成语音的音质和表现力有非常大的影响，demo的语音也验证了我的判断；第二，指令微调数据集的构造上有问题。他们用的是ASR数据集，其实更好的选择应该是TTS数据集，可惜高质量的TTS数据集实在是太少了。ASR数据集中的文本和语音可能并不是严格对齐的，GPT-4产生的meta-prompt和语音本身的特征也有可能是对不上的，比如prompt要求大声朗读，但语音本身可能是特定低沉的。meta-prompt本身就无法做到足够复杂丰富，不能描述到语音的一些细粒度信息。

这一部分，最好要有像诸如SALMONN[10]这样的多模态语音理解模型的介入，像DALLE3一样丰富指令的多样性。至于语音方面，可以考虑引入zero-shot的语音合成模型或者变声模型来做合成数据。第三，文中的训练方法也没有与人类偏好做对齐。

图10：SpeechGPT的模型架构

对于上面的第一个问题，作者在其后的SpeechGPT-Gen[12]中做了解决。解决思路的核心点就是：让模型不仅看到语音的语义token，也要看到语音的声学token。具体做法是：SpeechGPT的HuBERT特征替换成了SpeechTokenizer[7]中的语义特征，用SpeechGPT这一LLM来自回归地建模语义特征，有了语义特征之后，再使用Flow-Matching这样的扩散模型来建模声学特征。这里选用Flow-Matching扩散模型，可能是受了SD3和Voicebox/Audiobox的影响。为了增强两阶段建模的依赖关系，作者将语义特征的先验信息注入到第二阶段扩散模型的先验分布中。可以看到，这里语音的解码其实也是一种层次化渐进式解码。

图11：SpeechGPT-Gen的模型架构

SpeechAlign[13]做的则是SLM与人类偏好的对齐，彻底地向LLM的训练方法看齐。该工作构建了对比gold token和合成token的encodec数据集，然后进行偏好优化来进行改进。使用的偏好优化方法包括RLHF和Chain of Hindsight。

图12：SpeechAlign的流程图

简单总结一下上面这些工作中值得关注的点：

要想让LLM输出上下文连贯的高表现力语音，必须要让LLM看到语义token和声学token，只有语义token，那语音就会显得呆板机械，只有声学token，那语音就不知所云；
LLM的指令微调同样可以迁移到语音-文本多模态领域中，LLM的指令微调同样可以带来如同NLP一样的涌现性；
高质量指令微调数据集的构建应该是最大的瓶颈！一下子让LLM同时做语音理解和语音生成，难度非常大。不如分步进行。
如果要分步进行的话，要先实现一个类似于SALMONN[10]那样的多模态理解模型和一个强大的Zero-shot TTS模型。前者用于给语音数据打上丰富的标签，可以是情感情绪、韵律、音高、语速，也可以是口音、意图和说话环境；后者则用于生成高质量的语音数据。毕竟，高质量的、文本和语音严格对齐的TTS数据实在是太少了，尤其是中文领域。有了这两个模型的加持，我们其实就能够构造出高质量的指令微调数据集。我不知道OpenAI是否有SALMONN这样的模型，但OpenAI的OpenVoice模型应该足够为其提供高质量的语音数据了。

既然我们在上面的篇幅中论述了语音理解多模态模型的构建，那我们在下一部分就重点关注zero-shot TTS模型，它对高质量指令微调数据集的构建同样至关重要。同时，LLM解码语音的方法也能从zero-shot TTS方案中得到不少的启发。

LLM如何合成语音：Zero-shot TTS

前面说到，SLM词表中包含了语音的语义token和声学token。语义token保证生成语音与对话上下文的连贯性，声学token保证了合成语音的质量和表现力。要想做到合成上下文连贯的高自然度语音，有两个问题必须要解决：

语音既有语义token，又有声学token，应该要如何解码成语音？
SLM在合成语音的过程中是否能够遵循多轮对话中的文本指令和语音指令？这个很重要！这允许模型根据用户的即时要求来生成语音回复。比如说，OpenAI演示视频中出现的：“将语速提高两倍”、“采用更加机械化的语气”这样的要求。

对于第一个问题，以VALL-E[16]为代表的诸多zero-shot TTS模型给出了不同的解决方案，这些方案虽有不同，但也有不可忽视的共同点；对于第二个问题，以VoiceLDM[18]和ParlerTTS[19]为代表的text/prompt-guided zero-shot TTS工作给出了肯定的答案。简单解释一下text/prompt-guided zero-shot TTS是怎么回事，通常的语音合成就是将文本(transcription)转换成声音，该任务在transcription之外，又增加了description的输入，来描述合成语音的情感情绪、口音、语气、语速、音高、说话环境、氛围等等信息。我们逐个来看这些工作。

Zero-shot TTS

2023年以来，学术界和工业界出了不少具备in-context learning(zero-shot/few-shot)能力的TTS模型。这些TTS模型通常会将低信息密度、长序列的连续语音数据压缩为高信息密度的tokens或者latents(其实就是码本中具体的token embedding)。这些模型本质上做的事情就是：如何高效实现语音tokens/latents到音频波形的映射。

这些模型给出的解决方案基本上都遵循一个准则：语义token和声学token层次化解码，先语义后声学，或者先解码成MEL再后接声码器，并且非必要不做自回归(毕竟自回归上线虽高，但太吃数据了)！我们一个个来看。

基于声学token或语义token的工作

先是微软的VALL-E[16]。这是zero-shot TTS的开山之作，首次在TTS任务上采用了上万小时的数据。它采用Encodec将语音转换为离散的token，然后用GPT在token上做语言模型的任务。但是，语音毕竟不是文本，如果直接在语音的所有特征上都做自回归的话，那训练的成本会相当高。考虑到Encodec RVQ特征的层次性，低层特征表示语义内容这样的重要特征，高层特征则表征声学细节。前者具有比较强的上下文依赖关系，适合用自回归来建模，后者诸如音色这样的特征，具有全局性，用非自回归特征也可以搞定，所以就有了VALLE中自回归+非自回归的层次建模方式。

图13：VALL-E的模型架构

尽管VALL-E[16]在用GPT建模token的上下文关系的时候，基于token的层次化特性做了分治处理，可能是限于当前语音数据集的规模(几万小时可能不够)，这种GPT自回归的难度还是相当大的，解码过程存在常见的错误传播现象，鲁棒性非常差，极其不稳定。根据Ilya Sutskever此前对于自回归的论述，GPT自回归相比于BERT这种双向结构是非常data-hungry的，万小时的数据可能不够。根据本人以及一些同行的经验，VALL-E模型这一类的自回归模型，也包括tortoise-tts[20]和xtts v2，要想显出威力，至少要有十几万小时的数据才行。

既然GPT自回归的难度这么大，就有不少人想方设法地来降低GPT学习的难度了。他们的解决方案也非常类似：给GPT提供额外的条件信息不就行了。比较典型的工作就是微软的RALL-E[21]和吉利的HAM-TTS[22]。RALL-E先生成了时长信息和音高信息，作为GPT自回归的先验，之所以会补充时长和音高，这大概是受到FastSpeech2[23]这样的非自回归模型的启发，这两个指标的引入，有助于提升合成的鲁棒性；HAM-TTS则是补充了基于HuBERT的语义信息。值得注意地是，HAM-TTS将模型的训练数据扩充到了65万小时，其中有50万小时的数据是合成数据。合成数据也能大幅度提升合成语音的音质。

图14：RALL-E的模型架构，框出来的就是辅助信息

图15：HAM-TTS的模型架构

说到VALL-E的后续改进，VoiceCraft不得不提。我愿意称之为“优雅的VALL-E”。它的优雅主要体现在两个方面：casual masking和delayed stacking。所谓的causal masking，是为了用自回归GPT架构来做语音编辑任务，就是把被mask的部分移动到序列末尾去预测，一套架构同时做合成和编辑任务；所谓的delay stacking，是为了适配自回归和RVQ，通过delay错位让当前码本的token预测正好可以利用前面那些token的预测结果，比起VALL-E那样自回归和非自回归缝合在一起的结构要优雅不少。

图16：VoiceCraft的建模流程

基于声学/语义latents的工作

我们通常所说的语音token是离散的。如果使用对应码本中的embedding来表示语音的话，它也可以是连续的低维度的latent变量。既然是低维度的连续latent变量，那图像合成领域中大火的LDM(latent diffusion model，其实就是stable diffsion 1&2采用的模型)模型[]自然也可以用到语音的合成上。这方面的经典工作有很多，比如说：NaturalSpeech 2&3[25, 26]、AudioLDM 2[27]、VoiceLDM[18]。但这里面只有NaturalSpeech2用到了语音离散化部分提及的声学/语义token，NaturalSpeech3的属性分解形式的VQ更像是另一种形式的RVQ。我们先来看NaturalSpeech 2&3，其他的工作后面再来看。

首先是NaturalSpeech 2[26]，它基本上就是VALL-E的连续版本。它用的latent也是来自Encodec，对其中不同层次的latent做了求和，然后将其作为扩散模型的训练目标。值得注意地是，扩散模型和FastSpeech2一样也用了时长和音高作为合成的先验条件。这一点也被后来的RALL-E采用。该工作中的扩散模型采用WaveNet实现，同时预测不加噪的latent和后验均值，和图像合成领域的扩散模型在实现方式上还是有所不同的。

图17：NaturalSpeech2的模型架构

然后是NaturalSpeech 3[26]，还是非自回归的，而且非自回归的正统性味道更加浓厚，借用了不少FastSpeech2和megatts1&2(后面会讲)[27, 28]的设计思想。像megatts 1&2一样，同样采用(自)监督信号对语音token编码的内容做了限制，而不再像是VALL-E/NaturalSpeech2那样一把抓。相应地，语音token化的方法也用VQ就行。具体而言，文章将语音信号分解为时长、内容、韵律和细节四个部分，然后每个部分用离散化的扩散模型来建模。不过，原文使用GRL来促进语音属性的分解，这一点的靠谱程度存疑。我也尝试过文章的FACodec，但效果很差。三级扩散模型级联的结构，预测起来似乎也非常麻烦。

图18：NaturalSpeech3的模型架构

基于MEL谱+VQ的TOKEN的工作

当然，也有不少工作用了MEL谱作为中间特征，然后在梅尔谱的基础上，或是用VQ提供离散token，或是用CNN来提取连续latent。对于MEL+VQ的工作，有tortoise-tts[20]、xtts 1&2、megatts1&2[28, 29]、base TTS[30]。对于MEL+latents的工作，有：AudioLDM 1&2[27]、StyleTTS 1&2[31, 32]。我们来简单看看是它们是怎么做的。

Tortoise-tts[20]。该工作是著名的开源英文TTS模型。其作者目前在OpenAI就职，同时也是GPT-4o的重要Contributor(他自个儿在博客中说的)。Tortoise-tts使用MEL+VQVAE的方法得到语音的MEL token，然后对MEL token以及text token做GPT自回归建模。对于语音的解码，自然也是分为两步：先是用扩散模型将MEL token转换为MEL谱，这一步和文生图很像，用扩散模型是很自然的选择；然后用声码器将MEL谱转换为音频波形。tortoise-tts和VALL-E的主体都是自回归建模，二者的不同主要在于token的不同。

图19：tortoise-tts的模型架构

MegaTTS 1&2[28, 29]。字节跳动的MegaTTS系列对语音token编码信息做了显式的信息压缩处理，让语音token仅编码上下文依赖强的韵律信息，然后用GPT自回归来建模语音的韵律。对于其他方面的信息，模型的处理显得较为常规：音色一般具有全局性，使用单一的音色编码器从参考音频中提取就性；对于文本语义内容的处理，模型在很大程度上参考了非自回归的FastSpeech 2。

对于语音的解码，也是分为两步：先通过MEL decoder还原为MEL谱，然后通过声码器解码为音频波形。MegaTTS 2和1总体上类似，在音色编码(音素级编码、多条参考音频)、语音提示长度(扩展同speaker语音上下文长度硬train，音频prompt长度更长)和时长建模(也用GPT自回归)上做了改进，同时堆了更大规模的数据。剪映的后端TTS模型用的就是megatts2。该工作在各论文的评测中表现也都不错。

图20：megatts1的模型架构

基于MEL谱+VAE的latents的工作

AudioLDM 1&2[27]。AudioLDM 1&2使用的语音latents是一致的，均通过MEL+VAE获得。既然是连续的latents，使用扩散模型来建模也合情合理。解码过程也相当简单：VAE decoder获得梅尔谱，然后用声码器转换为音频波形。该系列工作的核心创新点是利用多模态模型统一了扩散模型条件输入侧的信息：AudioLDM 1用CLAP统一了文本模态和音频模态，用单模态的音频数据就能完成模型的训练；AudioLDM 2则包含了图像、文本、转录文本等更多模态，模型泛用性也更强，既能做语音合成，也能做音乐生成、音频事件生成。

图21：AudioLDM 1的模型架构

图22：AudioLDM2的模型架构

StyleTTS 1&2[31, 32]。StyleTTS系列的模型一众zero-shot TTS模型显得比较老派，整体结构基本上沿袭了非自回归的FastSpeech 2，不同之处在于增加了基于参考音频抽取的风格信息。说是风格，其实跟megatts的音色很像。StyleTTS 2的工作则将风格进一步拆分成声学风格和韵律风格。训练时的风格信息由音频提供，推断时的风格信息则由扩散模型提供。StyleTTS 2通过一个扩散模型桥接了文本韵律和语音风格之间的联系，摆脱推断时对参考音频的依赖。不用参考音频其实对产品的意义还挺大的，要都用现实世界中真人尤其是名人的声音作为参考音频，那这势必会引起版权纠纷。这种纠纷在国内国外都有相关的事件。最近寡姐投诉OpenAI的事件就是一例。

图23：StyleTTS 1的模型架构

图24：StyleTTS 2的模型架构

TTS对指令的遵循

SLM不仅要合成合乎上下文语义的高表现力语音，合成的语音还要符合用户的即时要求。一些text-guided zero-shot TTS的工作值得参考。这些工作一般都是在已有的zero-shot TTS模型或者text-to-audio模型上改造而来，同时吸收transcription和description两路条件。其中的重点还是在于数据集的构建。这方面的工作有：PromptTTS[33]、InstructTTS[34]、ParlerTTS[19]、VoiceLDM[18]和Audiobox[35]。我们主要谈谈ParlerTTS和VoiceLDM。

ParlerTTS[19]。VALL-E/VoiceCraft的增强版，通过T5编码器和cross-attention旁路引入了描述性文本的信息。该工作的目的是想使用自然语言prompt来指定说话风格和环境信息，摆脱对参考音频的依赖。描述性标签文本的收集过程也显得相当朴素：通过定制化的监督式模型获取语音数据的口音特征、录音质量特征、音高语速特征。然后用LLM将这些特征转换为自然语言的描述。在我看来，这个工作有这么几点局限性吧：其一，缺乏情绪标签；其二，语音描述性标签的收集并不具备通用性，较为繁琐，远不如一个强大的多模态语音理解模型来得实在。文章demo虽然达到了预期的效果，但场景似乎局限在朗读的情景中。

图25：ParlerTTS的模型架构

VoiceLDM[18]。在VoiceLDM1的基础上增加了转录文本的输入。这个工作和AudioLDM 1很像，同样使用CLAP注入语音的描述性信息。不同地是，为了做TTS任务，该工作通过cross-attention旁路增加了transcription的信息。

图26：VoiceLDM的模型架构

TTS总结

林林总总说了这么多zero-shot的TTS方法，我想说明的结论有这么几点：

在LLM大行其道、scaling law大显神威的时代，TTS模型的训练数据规模已经突破了万小时，甚至达到了数十万小时的级别。在大数据的加持下，TTS任务上也涌现出了in-context learning能力。
语音信息的解码通常都要层次化或者多步进行，不能一步到位。自回归、扩散模型和流匹配都能在TTS中发挥作用；
借鉴NLP instruction fine-tuning和文生图的经验，TTS模型同样可以遵循文本指令或者语音指令，合成符合用户即时要求的语音，摆脱对参考音频的依赖，这或许也能规避一些知识产权的困扰(比如最近有名的寡姐投诉OpenAI事件)。同时，用户也能在对话过程中随时切换语音回复的风格，这一点在OpenAI的demo中有很明确的体现。另外，不知道大家有没有注意，GPT-4o合成的语音是可以是放映所处的声学环境的：有一段语音背后似乎是有钢琴声的。
text-guided zero-shot TTS在模型架构上和zero-shot TTS有非常大的相似性。但训练数据可能较为缺乏。先开发zero-shot TTS，再用类似SALMONN那样的多模态理解模型来打标签(类似DALLE3的做法)，这样数据集构造方式，可能会是更好的选择。

另外，对于语音的解码方案，我倾向于是这样的：

如果要做流式推理，外接类似HIFIGAN这样的声码器的方式可能不是好的选择。HIFIGAN并不天然支持流式解码。相反地，诸如SoundStream和Encodec这样的方法，同时有流式变体和非流式变体；
先做语义token的解码，这个解码大概率是自回归解码。语义token毕竟是建模上下文依赖关系，自回归方法已经在NLP上证明了这一点；
然后做声学token的解码，扩散或者flow-matching可能是更好的选择。扩散模型或者流匹配可以很好地修补语音的细节；

当然，除了上面讲到的，zero-shot TTS还有很多值得研究的方法。限于篇幅，仅列举于此，不再详述：HierSpeech++[36]、base TTS[30]、Voicebox/Audiobox[35]、UniAudio[37]、Make-a-Voice[38]等等。

其他问题

对于GPT-4o模型，如果仅仅聚焦于语音多模态，还有下面的问题值得关注：

语音交互如何做到低延迟？大概率要求流式切片处理，主要工作在于工程优化，用C++重写算子。推理框架的话，用tensorrt、mnn这些都行。上下文所述的音频离散化方法，诸如SoundStream和Encodec，其实也支持流式处理。
语音对话中的打断如何实现？个人认为有两种可能的方案：turn-based和流式处理。所谓的turn-based方案，是比较工程化的，简答概括一下就是：检测是否有停顿，如果一段时间内没有声音，模型就开始返回语音回复。另一种流式方案，则是：模型一直在接受用户的流式语音输入，判断是否应该输出语音回复，一个充分训练的模型应该是能够准确预测出语音词表中的[START]和[END]的。

对游戏配音业务的思考

text/prompt-guided zero-shot TTS方法对游戏的AI配音意义重大。主要体现在：

用自然语言提示去合成音色稳定的语音，摆脱对参考音频的依赖，在业务中能够更加灵活，至少比克隆已有人物/角色的语音的方式更加方便，更不容易出戏。举个例子，在开放世界剧情类游戏的研发阶段，我们会设定一些profile赋予NPC，让玩家跟NPC聊天。我们曾经用克隆《原神》、《崩坏：星穹铁道》已有角色的方式赋予这些NPC角色语音，但放在那些欧美背景的NPC中，就是很有违和感，没有现实世界中的accent，不够decent。
剧情任务中的配音会更加真人化、更有沉浸感。过年期间过《崩坏：星穹铁道》花火和黑天鹅的同行任务的时候，部分NPC角色会有六公主的翻译腔，这是花火行于欢愉命途的恶趣味，空气中顿时充满了快活的味道。如果走bv2、gsv的语音克隆方案，应该是很难有这种效果的。而且，玩家在剧情任务中势必会经过不同的地势地貌，至少室内、室外的声音听起来是有不同的。室内的声音至少会有回响、混响的吧。这种感觉语音克隆方案也是无法做到的。

全文总结

总结一下本文说谈的内容，我认为GPT-4o语音多模态的实现可能是走了以下的技术路线：

audio & text tokenizer的实现应该是语音离散化部分所用的技术，例如SoundStream、Encodec、SpeechTokenizer，或者是MEL+VQ最后配合声码器来解码；参考zero-shot TTS、AudioLM/AudioPaLM、SpeechGPT-Gen等工作的结果，LLM中语音token的解码应该是要走层次化或者多步的方法，先解码语义特征，再解码声学特征，或者是先解码MEL，再加一个HIFIGAN这样的声码器。另外，如果做audio/speech/music这样的通用声合成的话，可能也能通过prompt来控制。AudioLDM2虽然做了这方面的工作，但audio/music和speech的参数其实是不一样的，说到底还不是同一个模型。
对于指令微调，数据集的构造非常重要，大概率要用到合成数据。其一，网络上高质量语音数据的量级远远不及文本，直接拿ASR数据来做肯定会影响模型合成语音的音质；其二，大语言模型合成的instruction往往触及不到语音的细粒度特征，这样的instruction其实无法准确详尽地描述text和speech之间的关系。因而，需要引入强大的zero-shot TTS模型合成高质量语音，然后用多模态语音理解模型来为合成语音打标签，当然也可以评分做筛选什么的。
最后是要让大模型的输出对齐人类的偏好。这方面的方法有很多，有DPO、PPO什么的，都可以用。

图27：全文总结，可能的roadmap

参考文献

[1] Baevski A, Zhou Y, Mohamed A, et al. wav2vec 2.0: A framework for self-supervised learning of speech representations[J]. Advances in neural information processing systems, 2020, 33: 12449-12460.

[2] Hsu W N, Bolte B, Tsai Y H H, et al. Hubert: Self-supervised speech representation learning by masked prediction of hidden units[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 3451-3460.

[3] Chung Y A, Zhang Y, Han W, et al. W2v-bert: Combining contrastive learning and masked language modeling for self-supervised speech pre-training[C]//2021 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2021: 244-250.

[4] Van Den Oord A, Vinyals O. Neural discrete representation learning[J]. Advances in neural information processing systems, 2017, 30.

[5] Zeghidour N, Luebs A, Omran A, et al. Soundstream: An end-to-end neural audio codec[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 30: 495-507.

[6] Défossez A, Copet J, Synnaeve G, et al. High fidelity neural audio compression[J]. arXiv preprint arXiv:2210.13438, 2022.

[7] Zhang X, Zhang D, Li S, et al. Speechtokenizer: Unified speech tokenizer for speech large language models[J]. arXiv preprint arXiv:2308.16692, 2023.

[8] Borsos Z, Marinier R, Vincent D, et al. Audiolm: a language modeling approach to audio generation[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2023.

[9] Rubenstein P K, Asawaroengchai C, Nguyen D D, et al. Audiopalm: A large language model that can speak and listen[J]. arXiv preprint arXiv:2306.12925, 2023.

[10] Changli Tang, Wenyi Yu, Guangzhi Sun, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Chao Zhang. SALMONN: Towards Generic Hearing Abilities for Large Language Models

[11] Zhang D, Li S, Zhang X, et al. Speechgpt: Empowering large language models with intrinsic cross-modal conversational abilities[J]. arXiv preprint arXiv:2305.11000, 2023.

[12] Zhang D, Zhang X, Zhan J, et al. SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation[J]. arXiv preprint arXiv:2401.13527, 2024.

[13] Zhang D, Li Z, Li S, et al. SpeechAlign: Aligning Speech Generation to Human Preferences[J]. arXiv preprint arXiv:2404.05600, 2024.

[14] Chen Q, Chu Y, Gao Z, et al. Lauragpt: Listen, attend, understand, and regenerate audio with gpt[J]. arXiv preprint arXiv:2310.04673, 2023.

[15] Wu S, Fei H, Qu L, et al. Next-gpt: Any-to-any multimodal llm[J]. arXiv preprint arXiv:2309.05519, 2023.

[16] Wang C, Chen S, Wu Y, et al. Neural codec language models are zero-shot text to speech synthesizers[J]. arXiv preprint arXiv:2301.02111, 2023.

[17] Anil R, Dai A M, Firat O, et al. Palm 2 technical report[J]. arXiv preprint arXiv:2305.10403, 2023.

[18] Lee Y, Yeon I, Nam J, et al. VoiceLDM: Text-to-Speech with Environmental Context[C]//ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2024: 12566-12571.

[19] Lyth D, King S. Natural language guidance of high-fidelity text-to-speech with synthetic annotations[J]. arXiv preprint arXiv:2402.01912, 2024.

[20] Betker J. Better speech synthesis through scaling[J]. arXiv preprint arXiv:2305.07243, 2023.

[21] Xin D, Tan X, Shen K, et al. RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis[J]. arXiv preprint arXiv:2404.03204, 2024.

[22] Wang C, Zeng C, Zhang B, et al. HAM-TTS: Hierarchical Acoustic Modeling for Token-Based Zero-Shot Text-to-Speech with Model and Data Scaling[J]. arXiv preprint arXiv:2403.05989, 2024.

[23] Ren Y, Hu C, Tan X, et al. Fastspeech 2: Fast and high-quality end-to-end text to speech[J]. arXiv preprint arXiv:2006.04558, 2020.

[24] Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 10684-10695.

[25] Shen K, Ju Z, Tan X, et al. Naturalspeech 2: Latent diffusion models are natural and zero-shot speech and singing synthesizers[J]. arXiv preprint arXiv:2304.09116, 2023.

[26] Ju Z, Wang Y, Shen K, et al. NaturalSpeech 3: Zero-shot speech synthesis with factorized codec and diffusion models[J]. arXiv preprint arXiv:2403.03100, 2024.

[27] Liu H, Tian Q, Yuan Y, et al. AudioLDM 2: Learning holistic audio generation with self-supervised pretraining[J]. arXiv preprint arXiv:2308.05734, 2023.

[28] Jiang Z, Ren Y, Ye Z, et al. Mega-tts: Zero-shot text-to-speech at scale with intrinsic inductive bias[J]. arXiv preprint arXiv:2306.03509, 2023.

[29] Jiang Z, Liu J, Ren Y, et al. Mega-tts 2: Zero-shot text-to-speech with arbitrary length speech prompts[J]. arXiv preprint arXiv:2307.07218, 2023.

[30] Łajszczak M, Cámbara G, Li Y, et al. BASE TTS: Lessons from building a billion-parameter text-to-speech model on 100K hours of data[J]. arXiv preprint arXiv:2402.08093, 2024.

[31] Li Y A, Han C, Mesgarani N. Styletts: A style-based generative model for natural and diverse text-to-speech synthesis[J]. arXiv preprint arXiv:2205.15439, 2022.

[32] Li Y A, Han C, Raghavan V, et al. Styletts 2: Towards human-level text-to-speech through style diffusion and adversarial training with large speech language models[J]. Advances in Neural Information Processing Systems, 2024, 36.

[33] Guo Z, Leng Y, Wu Y, et al. Prompttts: Controllable text-to-speech with text descriptions[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023: 1-5.

[34] Yang D, Liu S, Huang R, et al. Instructtts: Modelling expressive TTS in discrete latent space with natural language style prompt[J]. arXiv preprint arXiv:2301.13662, 2023.

[35] Vyas A, Shi B, Le M, et al. Audiobox: Unified audio generation with natural language prompts[J]. arXiv preprint arXiv:2312.15821, 2023.

[36] Lee S H, Choi H Y, Kim S B, et al. HierSpeech++: Bridging the Gap between Semantic and Acoustic Representation of Speech by Hierarchical Variational Inference for Zero-shot Speech Synthesis[J]. arXiv preprint arXiv:2311.12454, 2023.

[37] Yang D, Tian J, Tan X, et al. Uniaudio: An audio foundation model toward universal audio generation[J]. arXiv preprint arXiv:2310.00704, 2023.

[38] Huang R, Zhang C, Wang Y, et al. Make-a-voice: Unified voice synthesis with discrete representation[J]. arXiv preprint arXiv:2305.19269, 2023.