zero-shot-tts – 第 5 页

CleanS2S-语音到语音 (S2S) 的原型智能体

CleanS2S 是一个语音到语音 (S2S) 的原型智能体，提供高质量的流式交互，并采用单文件实现。其设计简洁明了，旨在提供类似 GPT-4o 风格的中文交互原型智能体。该项目希望让用户直接体验语言用户界面 (LUI) 的强大功能，并帮助研究人员快速探索和验证 S2S pipeline 的潜力。

功能

📜 单文件实现

每个智能体管道的细节都放在一个独立的文件中。无需额外配置依赖项或理解项目文件结构。这对于那些想快速了解 S2S 管道并直接验证新想法的人来说，是一个很好的参考实现。所有管道实现都易于修改和扩展，用户可以快速更换喜欢的模型（例如 LLM）、添加新组件或自定义管道。

实时流式接口

整个 S2S 管道主要由 ASR（自动语音识别）、LLM（大型语言模型）和 TTS（文本转语音）组成，配合两个 WebSockets 组件接收器（包含 VAD）和发送器。管道设计为实时流模式，用户可以像人与人对话一样实时与智能体互动。所有音频和文本信息通过 WebSocket 流式发送和接收。为此，我们利用多线程和队列机制确保流过程顺畅，避免阻塞问题。所有组件都设计为异步和非阻塞，处理输入队列的数据并将结果输出到另一个队列。

🧫 全双工交互与打断机制

基于 WebSockets 提供的强大机制，管道支持全双工交互，这意味着用户可以同时与智能体对话和听取回复。此外，管道支持中断，用户可以在对话中随时通过新语音输入打断智能体。智能体将停止当前处理，开始处理新输入，并结合之前的对话和中断内容进行处理。此外，我们发现聊天机器人常用的“助理风格”和“轮流式”回应是人类对话的主要缺点之一。我们为智能体添加了更有趣的策略，以使对话更具互动性和吸引力。

🌍 网络搜索和 RAG

通过集成网络搜索功能和检索增强生成（RAG）模型，管道得到了进一步增强。这些功能使智能体不仅能实时处理和响应用户输入，还能从网络中获取和整合外部信息到响应中。这为回答用户提出的各种实际问题提供了扩展和灵活性。

WebSearchHelper 类负责根据用户查询进行在线搜索或收集与对话相关的附加信息。这使智能体能够参考最新或外部数据，增强响应的丰富性和准确性。
RAG 类实现了检索增强生成方法，首先从数据库中检索相关信息，然后使用这些信息生成响应。这一两步过程确保智能体的回复基于相关的事实数据，使互动更加知情和符合上下文。

快速上手

后端

安装

## clone the repository
git clone https://github.com/opendilab/CleanS2S.git
cd CleanS2S/backend
pip install -r requirements.txt

根据此处的说明安装 funasr 以支持 paraformer-zh
根据此处的说明安装 cosyvoice 以支持 CosyVoice-300M

下载模型

您需要下载以下四个必要的模型（3个 ASR 模型 + 1个 TTS 模型），可以通过以下链接下载，并放置在合适的目录中。

ASR: paraformer-zh, ct-punc, fsmn-vad
TTS: CosyVoice-300M

对于 LLM，我们默认使用 LLM API，您也可以按照下方的说明定制自己的本地 LLM（如 DeepSeek-V2.5、Qwen2.5 等）。

删除 --enable_llm_api 和 --lm_model_url 参数，修改 --lm_model_name 参数为您的本地 LLM 模型路径（例如 --lm_model_name /home/users/deepseek-v2.5）。

您还需要准备一个参考音频目录，其中包含用于韵律和音色转换的参考音频。我们在此仓库中准备了一个示例参考音频目录

如果您想使用自己的参考音频，需要保持与示例参考音频目录相同的格式。音频应为 10~20 秒长，发音清晰。

运行服务器

以下是使用默认设置运行服务器的示例：

export LLM_API_KEY=<your-deepseek-api-key>
python3 -u s2s_server_pipeline.py \
        --recv_host 0.0.0.0 \
        --send_host 0.0.0.0 \
        --stt_model_name <your-asr-path> \
        --enable_llm_api \
        --lm_model_name "deepseek-chat" \
        --lm_model_url "https://api.deepseek.com" \
        --tts_model_name <your-tts-path> \
        --ref_dir <ref-audio-path> \
        --enable_interruption

ℹ️ 支持自定义LLM：在这里，我们使用 deepseek-chat 作为默认 LLM API ，您也可以根据 OpenAI 接口更改为其他 LLM API。（修改--lm_model_name和--lm_model_url，设置您自己的 API 密钥）

ℹ️ 支持其他自定义：您可以参考后端管道文件（例如s2s_server_pipeline.py）中由argparse库实现的参数列表，根据自己的需求进行自定义。所有参数在其帮助属性中都有详细文档，易于理解。

使用 Websearch+RAG 运行服务器

您首先需要安装 Websearch 和 RAG 所需的依赖。

pip install -r backend/requirements-rag.txt

其次，为 RAG 中嵌入 Websearch 结果选择一个嵌入模型，例如以下嵌入模型：

git lfs install
git clone https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2

然后，为 Websearch 和 RAG 模块提供令牌，在s2s_server_pipeline_rag.py中，我们使用Serper作为 Websearch 工具，使用Deepseek进行 RAG 。

export LLM_API_KEY=''
export SERPER_API_KEY=''

最后，在运行服务器的示例代码中，将s2s_server_pipeline.py替换为s2s_server_pipeline_rag.py，并添加参数--embedding_model_name。

这是使用默认设置和 Websearch+RAG 运行服务器的示例：

python3 -u s2s_server_pipeline_rag.py \
        --recv_host 0.0.0.0 \
        --send_host 0.0.0.0 \
        --stt_model_name <your-asr-path> \
        --enable_llm_api \
        --lm_model_name "deepseek-chat" \
        --lm_model_url "https://api.deepseek.com" \
        --tts_model_name <your-tts-path> \
        --embedding_model_name <embedding-model-path> \
        --ref_dir <ref-audio-path> \
        --enable_interruption

前端

我们建议使用Docker镜像来安装和运行客户端。以下是具体步骤：

## 运行基本的Docker镜像
docker run -it -p 3001:3001 amazonlinux:2023.2.20231011.0 sh

## 安装必要的包
dnf install vim git nodejs -y
npm install -g pnpm
git clone https://github.com/opendilab/CleanS2S.git
cd CleanS2S/frontend_nextjs
pnpm install

在frontend_nextjs目录中准备适当的.env.local文件，您可以参考.env.example文件以获取所需的环境变量。

## 运行客户端
pnpm dev --port 3001

然后您可以在浏览器中访问客户端，地址为http://localhost:3001（推荐使用 Chrome 浏览器）。

附注：如果您想在本地运行客户端，请首先安装 node.js 和 pnpm ，然后使用 pnpm 安装必要的包并运行客户端。

MaskGCT-国产最强TTS语音大模型

论文链接：https://arxiv.org/abs/2409.00750
样例展示：https://maskgct.github.io
模型下载：https://huggingface.co/amphion/maskgct
Demo 展示：https://huggingface.co/spaces/amphion/maskgct
项目地址：https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct
公测应用：voice.funnycp.com

近期，港中大（深圳）联手趣丸科技联合推出了新一代大规模声音克隆 TTS 模型 ——MaskGCT。该模型在包含 10 万小时多语言数据的 Emilia 数据集上进行训练，展现出超自然的语音克隆、风格迁移以及跨语言生成能力，同时保持了较强的稳定性。MaskGCT 已在香港中文大学（深圳）与上海人工智能实验室联合开发的开源系统 Amphion 发布。

本文介绍了一种名为 Masked Generative Codec Transformer（MaskGCT）的全非自回归 TTS 模型。

现有大规模文本到语音（TTS）系统通常分为自回归和非自回归系统。自回归系统隐式地建模持续时间，但在鲁棒性和持续时间可控性方面存在一定缺陷。非自回归系统在训练过程中需要显式的文本与语音对齐信息，并预测语言单元（如音素）的持续时间，这可能会影响其自然度。

该模型消除了文本与语音监督之间的显式对齐需求，以及音素级持续时间预测。MaskGCT 是一个两阶段模型：在第一阶段，模型使用文本预测从语音自监督学习（SSL）模型中提取的语义标记；在第二阶段，模型基于这些语义标记预测声学标记。MaskGCT 遵循掩码预测学习范式。在训练过程中，MaskGCT 学习根据给定的条件和提示预测掩码的语义或声学标记。在推理过程中，模型以并行方式生成指定长度的标记。通过对 10 万小时的自然语音进行实验，结果表明 MaskGCT 在质量、相似度和可理解性方面优于当前最先进的零样本 TTS 系统。

一、方法

MaskGCT 模型由四个主要组件组成：

1. 语音语义表示编解码器：将语音转换为语义标记。

2. 语音声学编解码器：从声学标记重建波形。

3. 文本到语义模型【非自回归Tranformer 】：使用文本和提示语义标记预测语义标记。

4. 语义到声学模型【非自回归Tranformer】：基于语义标记预测声学标记。

所提出的两阶段 MaskGCT 框架的概述。它由四个主要部分组成：（1）语音语义表示编解码器将语音转换为语义标记； (2)文本到语义模型用文本和提示语义标记来预测语义标记； (3) 语义到声学模型预测以语义标记为条件的声学标记； (4) 语音声学编解码器根据声学标记重建波形

语音语义表示编解码器用于将语音转换为离散的语义标记，这些标记通常通过离散化来自语音自监督学习（SSL）模型的特征获得。与以往使用 k-means 方法离散化语义特征相比，这种方法可能导致信息损失，从而影响高质量语音的重建或声学标记的精确预测，尤其是在音调丰富的语言中。为了最小化信息损失，本文训练了一个 VQ-VAE 模型来学习一个向量量化码本，该码本能够从语音 SSL 模型中重建语音语义表示。具体来说，使用 W2v-BERT 2.0 模型的第 17 层隐藏状态作为语音编码器的语义特征，编码器和解码器由多个 ConvNext 块组成。通过改进的 VQ-GAN 和 DAC 方法，使用因子分解码将编码器输出投影到低维潜在变量空间。

图 5：语义编解码器（左）和声学编解码器（右）概述。语义编解码器被训练为**使用单个码本量化语义特征并重建语义特征**。**声学编解码器经过训练，使用 RVQ 量化和重建语音波形，并使用时间和频谱鉴别器进一步提高重建质量**

语音声学编解码器旨在将语音波形量化为多层离散标记，同时尽可能保留语音的所有信息。本文采用残差向量量化（Residual Vector Quantization, RVQ）方法，将 24K 采样率的语音波形压缩为 12 层的离散标记。此外，模型使用 Vocos 架构作为解码器，以提高训练和推理效率。

文本到语义模型采用非自回归掩码生成 Transformer，而不使用自回归模型或任何文本到语音的对齐信息。在训练过程中，我们随机提取语义标记序列的前缀部分作为提示，以利用语言模型的上下文学习能力。我们使用 Llama 风格的 Transformer 作为模型的主干，结合门控线性单元（GLU）和 GELU 激活函数、旋转位置编码等，但将因果注意力替换为双向注意力。还使用了接受时间步 t 作为条件的自适应 RMSNorm。在推理过程中，我们生成任意指定长度的目标语义标记序列，条件是文本和提示语义标记序列。本文还训练了一个基于流匹配的持续时间预测模型，以预测基于文本和提示语音持续时间的总持续时间，利用上下文学习。

语义到声学模型同样采用非自回归掩码生成 Transformer，【基于 SoundStorm】，该模型以语义标记为条件，生成多层声学标记序列以重建高质量语音波形。对于 S2A 模型的输入，由于语义令牌序列中的帧数等于提示声学序列和目标声学序列中帧数的总和，我们简单地将语义令牌的嵌入和从层 1 到层 j的声学令牌的嵌入相加。在推理过程中，我们从粗到细为每层生成令牌，在每层内使用迭代并行解码。

图 2：T2S（左）和 S2A（右）模型的训练图概述。 **T2S 模型经过训练，可以预测以文本和提示语义标记为前缀的屏蔽语义标记。** S2A 模型经过训练，可以根据提示**声学标记、语义标记和前一层的声学标记来预测随机层的屏蔽声学标记**。

二、支持的功能

MaskGCT 能超自然地模拟参考音频音色与风格，并跨语言生成音频

Zero-shot In-context Learning 根据提示音频自动生成下文

MaskGCT 可以模仿名人或动画节目中角色的声音。

MaskGCT 可以学习提示语音的韵律、风格和情感。

MaskGCT 可以从提示语音中学习如何说话，包括情感和口音等风格。

MaskGCT 具有控制生成音频的总持续时间的能力，从而使我们能够将生成的语音的速度调节在合理的范围内。

与 AR 模型相比，MaskGCT 表现出更高的稳健性（更低的 WER），在一些具有挑战性的情况下（例如绕口令和 AR 模型容易产生幻觉的其他样本）表现出增强的稳定性。

Speech Editing 语音编辑。

基于掩码和预测机制，我们的文本到语义模型支持在文本-语音对齐器的帮助下进行零镜头语音内容编辑。通过使用对齐器，我们可以识别原始语义标记序列的编辑边界，屏蔽需要编辑的部分，然后使用编辑后的文本和未屏蔽的语义标记来预测被屏蔽的语义标记。

语音对话。MaskGCT 通过使用改进的训练策略微调 S2A （语义到声学）模型来支持零镜头语音转换。我们仍在努力提高语音转换的有效性。源和提示示例来自 Seed-TTS 的 demo 页面。

跨语言视频翻译。

三、实验结果

SOTA 的语音合成效果：MaskGCT 在三个 TTS 基准数据集上都达到了 SOTA 效果，在某些指标上甚至超过了人类水平。

此外，MaskGCT 在风格迁移（口音、情感）也达到了 SOTA 的水准：

我们还研究了 MaskGCT 在中、英外其它语言的能力：

四、应用场景

目前，MaskGCT 在短剧出海、智能助手、有声读物、辅助教育等领域拥有丰富的应用场景。为了加快落地应用，在安全合规下，趣丸科技打造了多语种速译智能视听平台 “趣丸千音”。一键上传视频即可快速翻译成多语种版本，并实现音话同步、口型同步、去字幕等功能。该产品进一步革新视频翻译制作流程，大幅降低过往昂贵的人工翻译成本和冗长的制作周期，成为影视、游戏、短剧等内容出海的理想选择平台。
《2024 年短剧出海白皮书》显示，短剧出海成为蓝海新赛道，2023 年海外市场规模高达 650 亿美元，约为国内市场的 12 倍，短剧出海成为蓝海新赛道。以 “趣丸千音” 为代表的产品的出现，将加速国产短剧 “走出去”，进一步推动中华文化在全球不同语境下的传播。

五、总结

MaskGCT 是一个大规模的零样本 TTS 系统，利用全非自回归掩码生成编解码器 Transformer，无需文本与语音的对齐监督和音素级持续时间预测。MaskGCT 通过文本预测从语音自监督学习（SSL）模型中提取的语义标记，然后基于这些语义标记预测声学标记，实现了高质量的文本到语音合成。实验表明，MaskGCT 在语音质量、相似度和可理解性方面优于最先进的 TTS 系统，并且在模型规模和训练数据量增加时表现更佳，同时能够控制生成语音的总时长。此外，我们还探索了 MaskGCT 在语音翻译、语音转换、情感控制和语音内容编辑等任务中的可扩展性，展示了 MaskGCT 作为语音生成基础模型的潜力。

Emilia：用于大规模语音生成的广泛、多语言和多样化的20wh+语音数据集

ArXiv: https://arxiv.org/abs/2407.05361
GitHub: https://github.com/open-mmlab/Amphion/tree/main/preprocessors/Emilia
Homepage: https://emilia-dataset.github.io/Emilia-Demo-Page/
HuggingFace: https://huggingface.co/datasets/amphion/Emilia

Emilia-Large数据集是一个全面的多语言数据集，具有以下特点：

其中Emilia包含超过101,000小时的语音数据， Emilia-YODAS包含超过114,000小时的语音数据；
涵盖六种不同的语言：英语 (En)、中文 (Zh)、德语 (De)、法语 (Fr)、日语 (Ja) 和韩语 (Ko) ；
包含来自互联网上不同视频平台和播客的各种说话风格的多样化语音数据，涵盖脱口秀、访谈、辩论、体育评论和有声读物等各种内容类型。

下表提供了数据集中每种语言的持续时间统计数据。

Emilia 数据集结构:

|-- openemilia_all.tar.gz (all .JSONL files are gzipped with directory structure in this file)
|-- EN (114 batches)
|   |-- EN_B00000.jsonl
|   |-- EN_B00000 (= EN_B00000.tar.gz)
|   |   |-- EN_B00000_S00000
|   |   |   `-- mp3
|   |   |       |-- EN_B00000_S00000_W000000.mp3
|   |   |       `-- EN_B00000_S00000_W000001.mp3
|   |   |-- ...
|   |-- ...
|   |-- EN_B00113.jsonl
|   `-- EN_B00113
|-- ZH (92 batches)
|-- DE (9 batches)
|-- FR (10 batches)
|-- JA (7 batches)
|-- KO (4 batches)

JSONL 文件示例：

{"id": "EN_B00000_S00000_W000000", "wav": "EN_B00000/EN_B00000_S00000/mp3/EN_B00000_S00000_W000000.mp3", "text": " You can help my mother and you- No. You didn't leave a bad situation back home to get caught up in another one here. What happened to you, Los Angeles?", "duration": 6.264, "speaker": "EN_B00000_S00000", "language": "en", "dnsmos": 3.2927}
{"id": "EN_B00000_S00000_W000001", "wav": "EN_B00000/EN_B00000_S00000/mp3/EN_B00000_S00000_W000001.mp3", "text": " Honda's gone, 20 squads done. X is gonna split us up and put us on different squads. The team's come and go, but 20 squad, can't believe it's ending.", "duration": 8.031, "speaker": "EN_B00000_S00000", "language": "en", "dnsmos": 3.0442}

Emilia-Pipe 概述 👀

Emilia-Pipe 是第一个开源预处理管道，旨在将原始的野生语音数据转换为高质量的训练数据，并带有用于语音生成的注释。此管道可以在几分钟内将一小时的原始音频处理为模型就绪数据，只需要原始语音数据。
Emilia 和 Emilia-Pipe 的详细说明可以在我们的论文中找到。

The Emilia-Pipe includes the following major steps:
Emilia-Pipe 包括以下主要步骤：

Standardization：Audio normalization
标准化：音频标准化
Source Separation: Long audio -> Long audio without BGM
源分离：长音频 -> 无 BGM 的长音频
Speaker Diarization: Get medium-length single-speaker speech data
说话人分类：获取中等长度的单个说话人语音数据
Fine-grained Segmentation by VAD: Get 3-30s single-speaker speech segments
按 VAD 进行精细分割：获取 3-30 秒的单说话人语音片段
ASR: Get transcriptions of the speech segments
ASR：获取语音段的听录
Filtering: Obtain the final processed dataset
筛选：获取最终处理后的数据集

具体使用的模型:

Source Separation: UVR-MDX-NET-Inst_HQ_3
VAD: snakers4/silero-vad
说话人分类： pyannote/speaker-diarization-3.1
ASR: m-bain/whisperX, using faster-whisper and CTranslate2 backend.
DNSMOS 预测：DNSMOS P.835

关于ASR：

缺乏文本转录限制了 Emilia 数据集在 TTS 任务中的直接使用。为了解决这个问题，我们应用 ASR 技术对分段的语音数据进行转录。为了平衡速度和准确性，我们使用了最先进的多语言 ASR 模型 Whisper-Medium。为了进一步提高效率，我们使用了 WhisperX ，它基于更快的 Whisper 后端和 CTranslate2 8 推理引擎。该设置的速度是官方 Whisper 实现的四倍，同时几乎保持相同的准确性。为了避免重复处理，我们绕过了 WhisperX 的 VAD 组件，直接使用VAD的结果。此外，我们还实现了基于更快 Whisper 后端的批处理推理，以并行转录语音数据。这些优化显著提高了整个流程的效率。

关于筛选：

在实际场景中，一些噪声可能无法通过源分离完全处理，Whisper 模型可能会出现幻觉，某些原始语音数据可能质量较低。为了确保生成数据集的质量，我们应用以下过滤标准。首先，我们使用 Whisper 模型的语言识别结果，丢弃任何未被预测为我们目标语言（英语、法语、德语、中文、日语、韩语）或模型语言置信度低于 80% 的语音数据。其次，我们使用 DNSMOS P.835 OVRL 评分来评估整体语音质量，仅保留评分高于 3.0 的语音数据。最后，对于每个原始语音样本，我们计算其对应片段的平均字符持续时间。平均音素持续时间超出第三四分位数上方 1.5 倍四分位距（IQR）或低于第一四分位数的片段被视为异常值，相关的语音片段将被丢弃。经过过滤后，生成的数据集将用于训练语音生成模型。

DNSMOS：评估噪声抑制效果的非侵入性客观语音质量指标。人类主观评估语音质量时音频质量的“黄金标准”。传统音频评估指标需要参考干净的语音信号，这无法对真实的应用环境中的音频作出准确评估。因为真实应用中干净的语音信号难以获得。然而，传统的无参考方法与人类主观评估质量相关性很差，没有被广泛采用。本文介绍了来自微软的深度学习多阶段噪声抑制评估方法

Emilia-Large 数据集

推出全新升级的 Emilia-Large 数据集，带来以下三大核心提升：

1️⃣ 数据总量大幅提升：在原有 Emilia 101k 小时数据的基础上，新增 Emilia-YODAS 114k 小时的全新数据，开源总量突破 200k 小时，再次刷新开源 TTS 数据集的规模上限！

2️⃣ 小语种数据显著扩充：增加更多德语、法语、韩语等低资源语言数据，TTS 技术不再局限于中英文，助力全球多语言应用！

3️⃣ 商业化限制放宽：原 Emilia 数据集基于 CC-BY-NC 协议，而新增的 Emilia-YODAS 数据基于 CC-BY 协议，全面支持各类商业化应用，赋能更多创新场景！

除了数据本身的升级，我们在相关论文中深入探讨了以下研究问题：

👉 In-the-wild 数据与传统有声书数据的优势对比

👉 数据规模与TTS性能之间的关系

👉 多语言（multilingual）与跨语言（crosslingual）TTS的效果比较
Emilia-Large 数据集的发布，标志着我们在 TTS 领域的技术开放与共享迈出了重要一步。我们期待与全球开发者携手，共同推动语音技术的进步与普及，赋能更多创新应用场景！

📌 Emilia-Dataset: https://huggingface.co/datasets/amphion/Emilia-Dataset
📌 Emilia-Pipe GitHub：https://github.com/open-mmlab/Amphion/tree/main/preprocessors/Emilia
📌 论文：https://arxiv.org/abs/2501.15907

OpenMusic：音乐生成更高质量，更有乐感

中科大&科大讯飞重磅开源OpenMusic

文章链接：https://arxiv.org/pdf/2405.15863
代码链接：https://github.com/ivcylc/qa-mdt
Huggingface链接：https://huggingface.co/spaces/jadechoghari/OpenMusic
Demo链接：https://qa-mdt.github.io/ （chatgpt * 30， musiccaps * 30）

提出了一种质量感知训练范式，使模型在训练过程中能够感知数据集的质量，从而在音乐性（美学角度）和音频质量方面实现卓越的音乐生成效果。
创新性地将masked扩散Transformer引入到音乐信号中，展示了其在建模音乐潜在空间上的独特效果，以及其在质量控制感知方面的卓越能力，从而进一步提升了生成音乐的质量和音乐性。
解决了大型音乐数据集中文本与音频低相关性的问题，有效提高了文本对齐度和生成的多样性。

背景

近年来，基于扩散的文本到音乐（TTM）生成方法逐渐受到重视，提供了一种创新的方法，将文本描述合成音乐内容。要在这一生成过程中实现高准确性和多样性，必须依赖大量高质量的数据，包括高保真音频波形和详细的文本描述，但这些通常仅占现有数据集中的一小部分。在开源数据集中，低质量音乐波形、标签错误、弱标签和无标签数据等问题显著阻碍了音乐生成模型的发展。为了解决这些挑战，今天和大家分享一种全新的高质量音乐生成范式，该范式结合了质量感知训练策略，使生成模型能够在训练过程中辨别输入音乐波形的质量。利用音乐信号的独特特性，首先针对TTM任务调整并实现了一个掩码扩散Transformer（MDT）模型，展现出其在质量控制和音乐性增强方面的独特能力。此外，还通过字幕优化数据处理方法解决了TTM中低质量字幕的问题。实验结果表明，在MusicCaps和Song-Describer数据集上取得了当前最先进的（SOTA）性能。

当前音乐生成（音效生成）领域的问题为质量低，具体来说分为三个方面：

大部分的开源数据集音质低（FMA，AudioSet，MSD），旋律杂乱
音乐性（美学角度）差
文本对齐度低，大多数的音频处于少标签，弱标签，错标签。其中，第1点可以由下图蓝色分布CLAP分数表征，2，3点可以由数据集的平均MOS分布表征（颜色由 μ +α * σ 分割）

图 1：大规模开源音乐数据库 AudioSet 和 FMA 的 CLAP 相似性和伪 MOS 的分布曲线，其中较暗的区域代表较高的文本音频对齐或音频质量。

创新方法及思路

质量信息注入

解决： 引入质量感知训练策略。采用主观数据集中的MOS分训练出的质量评分模型，在训练过程中注入（伪MOS分）音频质量信息。

两种注入方法：

利用 text encoder 对分级后的 low quality, medium quality, high quality 质量文本进行cross attn嵌入【粗粒度，适配unet架构和transformer类架构】
参考U-ViT内时间信息和label信息的融入方式，以量化（阈值由决定）后转换为quality embedding，以token 形式进行控制注入,【细粒度，并且只适配transformer类架构】

结论：质量感知策略允许了在推理阶段以高质量文本和质量token进行引导，从而生成显著高于训练集平均质量的音频。

以类似解耦的方式在训练中感知音频的质量（类似TTS中分离出音色训练），从而更好地促进了模型的训练（大幅降低FAD，KL，并提升IS，REL，CLAP等指标）。

我们还发现，粗粒度文本控制和细粒度token控制相结合，更有助于模型训练中解耦，感知，并控制更高质量音频的生成，从而解决训练数据集影响的问题

质量感知型 masked扩散Transformer

解决：从音乐性建模角度，我们发现 U-ViT/DiT 类架构对频谱隐空间建模也具有图像上表达的scale ability，并能更好建模谐波，音色等方面（反应在主观评分）

优化：

对频谱切片而言，此类结构的收敛速度慢。消融数据集中，20w步时依然不能很好控制收敛，推测来源于时域/频域相关性弱。故在预训练阶段加入掩码，加速训练速度和频谱关联性。微调阶段以高质量数据进一步强化模型（5W步就有收敛迹象）。
相比于U-Net，transformer based架构对text encoder的质量信息感知能力增强，并且U-ViT 式 token 质量融入策略显著有效进一步提升质量并降低客观指标
图像中切块未考虑 overlap，探究了overlap策略在合成中的作用（大幅降低FAD，但在主观听感上有trade off）

优化音乐标注描述

解决：首次在音乐生成领域使用预训练标注模型（LP-Musiccaps）进行大规模标注优化：

考虑到标注模型的不充分训练导致错标，以CLAP文本-音频分数+阈值筛选低分数据
考虑到原始标注中有些词（例如说American，R&B等标注器不一定能标注出的词）。使用CLAP分数过滤出生成的与原始的文本相似度低低数据，利用语言模型融合原始标注中有用信息。

实验

总体对比与，对比U-net架构和transformer based架构

对比overlap策略和patch size:

质量感知消融

此图证明了相比于无质量感知，大幅提升了生成质量和客观指标。并且，MDT（我们的架构）比 U-Net 在文本质量控制感知上的独特优势（生成质量更高，总体客观指标更好）

左图展示了 token as control 的准确感知控制生成能力，生成的高质量数据（黄色区域）显著高于训练集MOS分。

右图展示了文本质量控制和token质量控制的结合效果与单纯token和文本控制的对比。

主观评测结果

PO：产品运营
PMP：专业音乐制作人
VE：视频编辑人
BEGINNERS：不懂音乐的小白

各个人的评分下，均有优势。

结论与展望

本研究识别出大规模音频质量不均和文本标注未对齐所带来的挑战，这些挑战阻碍了基于扩散的文本到音乐（TTM）生成的发展。通过采用基于p-MOS的新型质量感知学习方法，以及以masked扩散Transformer作为扩散过程的主干，在音乐生成中实现了更高的生成质量和音乐性。

基于MEL谱+VAE的latents的TTS相关工作

Zero-Shot TTS目前有不少工作用了MEL谱作为中间特征，然后在梅尔谱的基础上，或是用VQ提供离散token，或是用CNN来提取连续latent。对于MEL+latents的工作，有：AudioLDM 1&2、StyleTTS 1&2。我们来简单看看是它们是怎么做的。

AudioLDM 1&2

AudioLDM: Text-to-Audio Generation with Latent Diffusion Models

[Paper on ArXiv][Code on GitHub][Hugging Face Space]

AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining

[Paper on ArXiv][Code on GitHub][HuggingFace Demo][Discord Community]

AudioLDM 1&2使用的语音latents是一致的，均通过MEL+VAE获得。既然是连续的latents，使用扩散模型来建模也合情合理。解码过程也相当简单：VAE decoder获得梅尔谱，然后用声码器转换为音频波形。该系列工作的核心创新点是利用多模态模型统一了扩散模型条件输入侧的信息：AudioLDM 1用CLAP统一了文本模态和音频模态，用单模态的音频数据就能完成模型的训练；AudioLDM 2则包含了图像、文本、转录文本等更多模态，模型泛用性也更强，既能做语音合成，也能做音乐生成、音频事件生成。

StyleTTS 1&2

StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis

StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models

StyleTTS系列的模型一众zero-shot TTS模型显得比较老派，整体结构基本上沿袭了非自回归的FastSpeech 2，不同之处在于增加了基于参考音频抽取的风格信息。说是风格，其实跟megatts的音色很像。StyleTTS 2的工作则将风格进一步拆分成声学风格和韵律风格。训练时的风格信息由音频提供，推断时的风格信息则由扩散模型提供。StyleTTS 2通过一个扩散模型桥接了文本韵律和语音风格之间的联系，摆脱推断时对参考音频的依赖。不用参考音频其实对产品的意义还挺大的，要都用现实世界中真人尤其是名人的声音作为参考音频，那这势必会引起版权纠纷。这种纠纷在国内国外都有相关的事件。最近寡姐投诉OpenAI的事件就是一例。

在 StyleTTS 中，我们提出了“全局风格迁移”（GST），这是一个在Tacotron（最先进的端到端语音合成系统）中联合训练的嵌入库。嵌入在没有明确标签的情况下进行训练，但学会了对大范围的声学表现力进行建模。商品及服务税会带来一系列丰富的重要结果。它们生成的软可解释“标签”可用于以新颖的方式控制合成，例如改变速度和说话风格 – 独立于文本内容。它们还可用于风格转换，在整个长格式文本语料库中复制单个音频剪辑的说话风格。当对嘈杂的、未标记的发现数据进行训练时，GST 学会分解噪声和说话人身份，为高度可扩展但强大的语音合成提供了一条途径。

StyleTTS 2的不同之处在于，通过扩散模型将风格建模为潜在随机变量，以生成最适合文本的风格，而无需参考语音，实现高效的潜在扩散，同时受益于扩散模型提供的多样化语音合成。此外采用大型预训练SLM（如WavLM）作为鉴别器，并使用新颖的可微分持续时间建模进行端到端训练，从而提高了语音自然度。

TTS+指令prompt的遵循系列工作

SLM(speech language model, SLM)不仅要合成合乎上下文语义的高表现力语音，合成的语音还要符合用户的即时要求。一些text-guided zero-shot TTS的工作值得参考。这些工作一般都是在已有的zero-shot TTS模型或者text-to-audio模型上改造而来，同时吸收transcription和description两路条件。其中的重点还是在于数据集的构建。这方面的工作有：PromptTTS、InstructTTS、ParlerTTS、VoiceLDM和Audiobox。

TTS模型同样可以遵循文本指令或者语音指令，合成符合用户即时要求的语音，摆脱对参考音频的依赖。text-guided zero-shot TTS在模型架构上和zero-shot TTS有非常大的相似性，但训练数据可能较为缺乏。因此，先开发zero-shot TTS，再用类似SALMONN 或者 Qwen2-audio那样的多模态理解模型来打标签(类似DALLE3的做法)，这样数据集构造方式，可能会是更好的选择。

ParlerTTS

Natural language guidance of high-fidelity text-to-speech with synthetic annotations

训练代码开源：https://github.com/huggingface/parler-tts

ParlerTTS。VALL-E/VoiceCraft的增强版，通过T5编码器和cross-attention旁路引入了描述性文本的信息。该工作的目的是想使用自然语言prompt来指定说话风格和环境信息，摆脱对参考音频的依赖。描述性标签文本的收集过程也显得相当朴素：通过定制化的监督式模型获取语音数据的口音特征、录音质量特征、音高语速特征。然后用LLM将这些特征转换为自然语言的描述。在我看来，这个工作有这么几点局限性吧：其一，缺乏情绪标签；其二，语音描述性标签的收集并不具备通用性，较为繁琐，远不如一个强大的多模态语音理解模型来得实在。文章demo虽然达到了预期的效果，但场景似乎局限在朗读的情景中。

VoiceLDM

VoiceLDM: Text-to-Speech with Environmental Context

VoiceLDM。在VoiceLDM1的基础上增加了转录文本的输入。这个工作和AudioLDM 1很像，同样使用CLAP注入语音的描述性信息。不同地是，为了做TTS任务，该工作通过cross-attention旁路增加了transcription的信息。

基于MEL谱+VQ的TTS相关工作

Zero-shot TTS中有不少工作用了MEL谱作为中间特征，然后在梅尔谱的基础上，或是用VQ提供离散token，或是用CNN来提取连续latent。对于MEL+VQ的工作，有tortoise-tts、xtts 1&2、megatts1&2、base TTS。

Tortoise-tts

论文：https://arxiv.org/abs/2305.07243

该工作是著名的开源英文TTS模型。其作者目前在OpenAI就职，同时也是GPT-4o的重要Contributor(他自个儿在博客中说的)。Tortoise-tts使用MEL+VQVAE的方法得到语音的MEL token，然后对MEL token以及text token做GPT自回归建模。对于语音的解码，自然也是分为两步：先是用扩散模型将MEL token转换为MEL谱，这一步和文生图很像，用扩散模型是很自然的选择；然后用声码器将MEL谱转换为音频波形。tortoise-tts和VALL-E的主体都是自回归建模，二者的不同主要在于token的不同。

MegaTTS 1&2

Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias

Mega-TTS 2: Boosting Prompting Mechanisms for Zero-Shot Speech Synthesis

字节跳动的MegaTTS系列对语音token编码信息做了显式的信息压缩处理，让语音token仅编码上下文依赖强的韵律信息，然后用GPT自回归来建模语音的韵律。对于其他方面的信息，模型的处理显得较为常规：音色一般具有全局性，使用单一的音色编码器从参考音频中提取就性；对于文本语义内容的处理，模型在很大程度上参考了非自回归的FastSpeech 2。

对于语音的解码，也是分为两步：先通过MEL decoder还原为MEL谱，然后通过声码器解码为音频波形。MegaTTS 2和1总体上类似，在音色编码(音素级编码、多条参考音频)、语音提示长度(扩展同speaker语音上下文长度硬train，音频prompt长度更长)和时长建模(也用GPT自回归)上做了改进，同时堆了更大规模的数据。剪映的后端TTS模型用的就是megatts2。该工作在各论文的评测中表现也都不错。

认为语音可以分解为几个属性（例如，内容、音色、韵律和相位），每个属性都应该使用具有适当归纳偏差的模块进行建模。从这个角度出发，我们精心设计了一个新颖的大型零样本 TTS 系统，称为 Mega-TTS，该系统使用大规模的野生数据进行训练，并以不同的方式对不同的属性进行建模：1）我们没有使用音频编解码器编码的潜在作为中间特征，而是仍然选择频谱图，因为它很好地分离了相位和其他属性。Phase 可以由基于 GAN 的声码器适当构建，不需要由语言模型建模。2）我们使用全局向量对音色进行建模，因为音色是一个随时间缓慢变化的全局属性。3）我们进一步使用基于 VQGAN 的声学模型来生成频谱图，并使用潜在代码语言模型来拟合韵律的分布，因为句子中的韵律会随着时间的推移而快速变化，并且语言模型可以捕获局部和长期依赖关系。

本文介绍了一种通用的零样本 TTS 提示机制 Mega-TTS 2，以应对上述挑战。具体而言，我们设计了一个强大的声学自动编码器，将韵律和音色信息分别编码到压缩的潜在空间中，同时提供高质量的重建。然后，我们提出了一个多参考音色编码器和一个韵律潜在语言模型 (P-LLM)，用于从多句提示中提取有用信息。我们进一步利用从多个 P-LLM 输出得出的概率来产生可转移和可控制的韵律。实验结果表明，Mega-TTS 2 不仅可以使用来自任意来源的看不见的说话者的简短提示来合成身份保留语音，而且当数据量从 10 秒到 5 分钟不等时，其表现始终优于微调方法。

Zero-shot TTS技术路线汇总

参考：

1、OpenAI的生肉博客：https://openai.com/index/hello-gpt-4o/

2、别慌！一文教你看懂GPT-4o背后的语音技术

Zero-shot TTS模型通常会将低信息密度、长序列的连续语音数据压缩为高信息密度的tokens 或者 latents (其实就是码本中具体的 token embedding )。这些模型本质上做的事情就是：如何高效实现语音tokens / latents 到音频波形的映射。这些模型给出的解决方案基本上都遵循一个准则：语义token和声学token层次化解码，先语义后声学，或者先解码成Mel再后接声码器，并且非必要不做自回归(毕竟自回归上线虽高，但太吃数据了)！

1、语义token的解码：语义解码大概率是自回归解码。语义token毕竟是建模上下文依赖关系，自回归方法已经在NLP上证明了这一点。

2、声学token的解码：使用扩散模型或者flow-matching可能是更好的选择。扩散模型或者流匹配可以很好地修补语音的细节；

3、要做流式推理，外接类似HIFIGAN这样的声码器的方式可能不是好的选择。HIFIGAN并不天然支持流式解码。相反地，诸如SoundStream和Encodec这样的方法，同时有流式变体和非流式变体；

上面说到，要实现语音的合成，需要对语义token和声学token同时进行建模，语义token保证生成语音与对话上下文的连贯性，声学token保证了合成语音的质量和表现力。要想做到合成上下文连贯的高自然度语音，有两个问题必须要解决：

1、语音既有语义token，又有声学token，应该要如何解码成语音？
2、在合成语音的过程中是否能够遵循多轮对话中的文本指令和语音指令？这个很重要！这允许模型根据用户的即时要求来生成语音回复。比如说，OpenAI演示视频中出现的：“将语速提高两倍”、“采用更加机械化的语气”这样的要求。

对于第一个问题，以VALL-E为代表的诸多zero-shot TTS模型给出了不同的解决方案，这些方案虽有不同，但也有不可忽视的共同点；对于第二个问题，以VoiceLDM和ParlerTTS为代表的text/prompt-guided zero-shot TTS工作给出了肯定的答案。简单解释一下text/prompt-guided zero-shot TTS是怎么回事，通常的语音合成就是将文本(transcription)转换成声音，该任务在transcription之外，又增加了description的输入，来描述合成语音的情感情绪、口音、语气、语速、音高、说话环境、氛围等等信息。我们逐个来看这些工作。

基于声学token或语义token的工作

先是微软的VALL-E[16]。这是zero-shot TTS的开山之作，首次在TTS任务上采用了上万小时的数据。它采用Encodec将语音转换为离散的token，然后用GPT 【only 解码器】在token上做语言模型的任务。但是，语音毕竟不是文本，如果直接在语音的所有特征上都做自回归的话，那训练的成本会相当高。考虑到Encodec RVQ特征的层次性，低层特征表示语义内容这样的重要特征，高层特征则表征声学细节。前者具有比较强的上下文依赖关系，适合用自回归来建模，后者诸如音色这样的特征，具有全局性，用非自回归特征也可以搞定，所以就有了VALLE中自回归+非自回归的层次建模方式。

尽管VALL-E[16]在用GPT 【only 解码器】建模token的上下文关系的时候，基于token的层次化特性做了分治处理，可能是限于当前语音数据集的规模(几万小时可能不够)，这种GPT 【only 解码器】自回归的难度还是相当大的，解码过程存在常见的错误传播现象，鲁棒性非常差，极其不稳定。根据Ilya Sutskever此前对于自回归的论述，GPT 【only 解码器】自回归相比于BERT这种双向结构是非常data-hungry的，万小时的数据可能不够。根据本人以及一些同行的经验，VALL-E模型这一类的自回归模型，也包括tortoise-tts[20]和xtts v2，要想显出威力，至少要有十几万小时的数据才行。

既然GPT【only 解码器】自回归的难度这么大，就有不少人想方设法地来降低GPT学习的难度了。他们的解决方案也非常类似：给GPT提供额外的条件信息不就行了。比较典型的工作就是微软的RALL-E[21]和吉利的HAM-TTS[22]。RALL-E先生成了时长信息和音高信息，作为GPT自回归的先验，之所以会补充时长和音高，这大概是受到FastSpeech2[23]这样的非自回归模型的启发，这两个指标的引入，有助于提升合成的鲁棒性；HAM-TTS则是补充了基于HuBERT的语义信息。值得注意地是，HAM-TTS将模型的训练数据扩充到了65万小时，其中有50万小时的数据是合成数据。合成数据也能大幅度提升合成语音的音质。

说到VALL-E的后续改进，VoiceCraft不得不提。我愿意称之为“优雅的VALL-E”。它的优雅主要体现在两个方面：casual masking和delayed stacking。所谓的causal masking，是为了用自回归GPT架构来做语音编辑任务，就是把被mask的部分移动到序列末尾去预测，一套架构同时做合成和编辑任务；所谓的delay stacking，是为了适配自回归和RVQ，通过delay错位让当前码本的token预测正好可以利用前面那些token的预测结果，比起VALL-E那样自回归和非自回归缝合在一起的结构要优雅不少。

基于声学/语义latents的工作

我们通常所说的语音token是离散的。如果使用对应码本中的embedding来表示语音的话，它也可以是连续的低维度的latent变量。既然是低维度的连续latent变量，那图像合成领域中大火的LDM(latent diffusion model，其实就是stable diffsion 1&2采用的模型)模型自然也可以用到语音的合成上。这方面的经典工作有很多，比如说：NaturalSpeech 2&3[25, 26]、AudioLDM 2[27]、VoiceLDM[18]。但这里面只有NaturalSpeech2用到了语音离散化部分提及的声学/语义token，NaturalSpeech3的属性分解形式的VQ更像是另一种形式的RVQ。我们先来看NaturalSpeech 2&3，其他的工作后面再来看。

首先是NaturalSpeech 2[26]，利用带有残差向量量化器的神经音频编解码器来获得量化的潜在向量，并使用扩散模型来生成这些以文本输入为条件的潜在向量。它基本上就是VALL-E的连续版本。它用的latent也是来自Encodec，对其中不同层次的latent做了求和，然后将其作为扩散模型的训练目标。值得注意地是，扩散模型和FastSpeech2一样也用了时长和音高作为合成的先验条件。这一点也被后来的RALL-E采用。该工作中的扩散模型采用WaveNet实现，同时预测不加噪的latent和后验均值，和图像合成领域的扩散模型在实现方式上还是有所不同的。

此图片的alt属性为空；文件名为image-82-1024x537.png — **NaturalSpeech2的模型架构**

然后是NaturalSpeech 3，还是非自回归的，而且非自回归的正统性味道更加浓厚，借用了不少FastSpeech2和megatts1&2的设计思想。像megatts 1&2一样，同样采用(自)监督信号对语音token编码的内容做了限制，而不再像是VALL-E/NaturalSpeech2那样一把抓。相应地，语音token化的方法也用VQ就行。具体而言，文章将语音信号分解为时长、内容、韵律和细节四个部分，然后每个部分用离散化的扩散模型来建模。不过，原文使用GRL来促进语音属性的分解，这一点的靠谱程度存疑。我也尝试过文章的FACodec，但效果很差。三级扩散模型级联的结构，预测起来似乎也非常麻烦。

基于MEL谱+VQ的TOKEN的工作

当然，也有不少工作用了MEL谱作为中间特征，然后在梅尔谱的基础上，或是用VQ提供离散token，或是用CNN来提取连续latent。对于MEL+VQ的工作，有tortoise-tts[20]、xtts 1&2、megatts1&2[28, 29]、base TTS[30]。对于MEL+latents的工作，有：AudioLDM 1&2[27]、StyleTTS 1&2[31, 32]。我们来简单看看是它们是怎么做的。

Tortoise-tts[20]。该工作是著名的开源英文TTS模型。其作者目前在OpenAI就职，同时也是GPT-4o的重要Contributor(他自个儿在博客中说的)。

Tortoise-tts使用MEL+VQVAE的方法得到语音的MEL token，然后对MEL token以及text token做GPT自回归建模。对于语音的解码，自然也是分为两步：先是用扩散模型将MEL token转换为MEL谱，这一步和文生图很像，用扩散模型是很自然的选择；然后用声码器将MEL谱转换为音频波形。tortoise-tts和VALL-E的主体都是自回归建模，二者的不同主要在于token的不同。

MegaTTS 1&2[28, 29]。字节跳动的MegaTTS系列对语音token编码信息做了显式的信息压缩处理，让语音token仅编码上下文依赖强的韵律信息，然后用GPT自回归来建模语音的韵律。对于其他方面的信息，模型的处理显得较为常规：音色一般具有全局性，使用单一的音色编码器从参考音频中提取就性；对于文本语义内容的处理，模型在很大程度上参考了非自回归的FastSpeech 2。

基于MEL谱+VAE的latents的工作

AudioLDM 1&2[27]。AudioLDM 1&2使用的语音latents是一致的，均通过MEL+VAE获得。既然是连续的latents，使用扩散模型来建模也合情合理。解码过程也相当简单：VAE decoder获得梅尔谱，然后用声码器转换为音频波形。该系列工作的核心创新点是利用多模态模型统一了扩散模型条件输入侧的信息：AudioLDM 1用CLAP统一了文本模态和音频模态，用单模态的音频数据就能完成模型的训练；AudioLDM 2则包含了图像、文本、转录文本等更多模态，模型泛用性也更强，既能做语音合成，也能做音乐生成、音频事件生成。

StyleTTS 1&2[31, 32]。StyleTTS系列的模型一众zero-shot TTS模型显得比较老派，整体结构基本上沿袭了非自回归的FastSpeech 2，不同之处在于增加了基于参考音频抽取的风格信息。说是风格，其实跟megatts的音色很像。StyleTTS 2的工作则将风格进一步拆分成声学风格和韵律风格。训练时的风格信息由音频提供，推断时的风格信息则由扩散模型提供。StyleTTS 2通过一个扩散模型桥接了文本韵律和语音风格之间的联系，摆脱推断时对参考音频的依赖。不用参考音频其实对产品的意义还挺大的，要都用现实世界中真人尤其是名人的声音作为参考音频，那这势必会引起版权纠纷。这种纠纷在国内国外都有相关的事件。最近寡姐投诉OpenAI的事件就是一例。

TTS对指令的遵循

SLM不仅要合成合乎上下文语义的高表现力语音，合成的语音还要符合用户的即时要求。一些text-guided zero-shot TTS的工作值得参考。这些工作一般都是在已有的zero-shot TTS模型或者text-to-audio模型上改造而来，同时吸收transcription和description两路条件。其中的重点还是在于数据集的构建。这方面的工作有：PromptTTS[33]、InstructTTS[34]、ParlerTTS[19]、VoiceLDM[18]和Audiobox[35]。我们主要谈谈ParlerTTS和VoiceLDM。

ParlerTTS[19]。VALL-E/VoiceCraft的增强版，通过T5编码器和cross-attention旁路引入了描述性文本的信息。该工作的目的是想使用自然语言prompt来指定说话风格和环境信息，摆脱对参考音频的依赖。描述性标签文本的收集过程也显得相当朴素：通过定制化的监督式模型获取语音数据的口音特征、录音质量特征、音高语速特征。然后用LLM将这些特征转换为自然语言的描述。在我看来，这个工作有这么几点局限性吧：其一，缺乏情绪标签；其二，语音描述性标签的收集并不具备通用性，较为繁琐，远不如一个强大的多模态语音理解模型来得实在。文章demo虽然达到了预期的效果，但场景似乎局限在朗读的情景中。

VoiceLDM[18]。在VoiceLDM1的基础上增加了转录文本的输入。这个工作和AudioLDM 1很像，同样使用CLAP注入语音的描述性信息。不同地是，为了做TTS任务，该工作通过cross-attention旁路增加了transcription的信息。

TTS总结

林林总总说了这么多zero-shot的TTS方法，想说明的结论有这么几点：

在LLM大行其道、scaling law大显神威的时代，TTS模型的训练数据规模已经突破了万小时，甚至达到了数十万小时的级别。在大数据的加持下，TTS任务上也涌现出了in-context learning能力。
语音信息的解码通常都要层次化或者多步进行，不能一步到位。自回归、扩散模型和流匹配都能在TTS中发挥作用；
借鉴NLP instruction fine-tuning和文生图的经验，TTS模型同样可以遵循文本指令或者语音指令，合成符合用户即时要求的语音，摆脱对参考音频的依赖，这或许也能规避一些知识产权的困扰(比如最近有名的寡姐投诉OpenAI事件)。同时，用户也能在对话过程中随时切换语音回复的风格，这一点在OpenAI的demo中有很明确的体现。另外，不知道大家有没有注意，GPT-4o合成的语音是可以是放映所处的声学环境的：有一段语音背后似乎是有钢琴声的。
text-guided zero-shot TTS在模型架构上和zero-shot TTS有非常大的相似性。但训练数据可能较为缺乏。先开发zero-shot TTS，再用类似SALMONN那样的多模态理解模型来打标签(类似DALLE3的做法)，这样数据集构造方式，可能会是更好的选择。

Zreo-TTS — 基于声学/语义 latents 的扩散模型工作

我们通常所说的语音token是离散的。如果使用对应码本中的embedding来表示语音的话，它也可以是连续的低维度的latent变量。既然是低维度的连续latent变量，那图像合成领域中大火的LDM(latent diffusion model，其实就是stable diffsion 1&2采用的模型)模型自然也可以用到语音的合成上。这方面的经典工作有很多，比如说：NaturalSpeech 2&3、AudioLDM 2、VoiceLDM。但这里面只有NaturalSpeech2用到了语音离散化部分提及的声学/语义token，NaturalSpeech3的属性分解形式的VQ更像是另一种形式的RVQ。

AudioLDM2 ：https://arxiv.org/abs/2308.05734
NaturalSpeech 2：https://arxiv.org/abs/2304.09116
NaturalSpeech 3： https://arxiv.org/abs/2403.03100
VoiceLDM： https://arxiv.org/abs/2309.13664

NaturalSpeech 2

NaturalSpeech 2基本上就是VALL-E的连续版本。它用的latent也是来自Encodec，对其中不同层次的latent做了求和，然后将其作为扩散模型的训练目标。值得注意地是，扩散模型和FastSpeech2一样也用了时长和音高作为合成的先验条件。这一点也被后来的RALL-E采用。该工作中的扩散模型采用WaveNet实现，同时预测不加噪的latent和后验均值，和图像合成领域的扩散模型在实现方式上还是有所不同的。

NaturalSpeech 3

NaturalSpeech 3，还是非自回归的，而且非自回归的正统性味道更加浓厚，借用了不少FastSpeech2和megatts1&2的设计思想。像megatts 1&2一样，同样采用(自)监督信号对语音token编码的内容做了限制，而不再像是VALL-E/NaturalSpeech2那样一把抓。相应地，语音token化的方法也用VQ就行。具体而言，文章将语音信号分解为时长、内容、韵律和细节四个部分，然后每个部分用离散化的扩散模型来建模。不过，原文使用GRL来促进语音属性的分解，这一点的靠谱程度存疑。尝试过文章的FACodec，但效果很差。三级扩散模型级联的结构，预测起来似乎也非常麻烦。

AudioLDM 2

AudioLDM2 ：https://arxiv.org/abs/2308.05734
Code：https://audioldm.github.io/audioldm2/
核心思想是引入一种新的“音频语言”（LOA），它是表示音频剪辑语义信息的向量序列。这种方法使我们能够将人类可理解的信息转换为 LOA，并合成以 LOA 为条件的音频表示。具体来说，我们利用基于 GPT 的语言模型（Radford等人，2019）将调节信息转换为 AudioMAE 特征。 GPT的输入条件很灵活，包括文本、音频、图像、视频等的表示。然后，我们使用潜在扩散模型（Rombach等人，2022）基于AudioMAE 功能。潜在扩散模型可以以自监督的方式进行优化，从而允许使用大规模未标记的音频数据进行预训练。我们的语言建模方法使我们能够利用语言模型的最新进展（Zhao等人，2023），同时缓解先前音频自回归模型中出现的高推理计算成本和错误累积等挑战（Zeghidour 等人，2021；Agostinelli 等人，2023）。这是由于连续 AudioMAE 特征的长度较短，它也比以前使用的离散标记提供了更丰富的表示能力（Lam 等人，2023；Borsos 等人，2023；Agostinelli 等人，2023）。

VoiceLDM

VoiceLDM，这是一种旨在生成准确遵循两种不同自然语言文本提示的音频的模型：描述提示和内容提示。前者提供有关音频的整体环境上下文的信息，而后者则传达语言内容。为了实现这一目标，我们采用了基于潜在扩散模型的文本到音频（TTA）模型，并扩展了其功能以将额外的内容提示作为条件输入。通过利用预先训练的对比语言音频预训练（CLAP）和 Whisper，VoiceLDM 可以在大量真实音频上进行训练，而无需手动注释或转录。此外，我们采用双无分类器指导来进一步增强 VoiceLDM 的可控性。

基于声学token或语义token的TTS-VoiceCraft—VALL-E的后续改进

论文：VOICECRAFT: Zero-Shot Speech Editing and Text-to-Speech in the Wild
code：https://github.com/jasonppy/VoiceCraft
demo：https://jasonppy.github.io/VoiceCraft_web/
特点: 一套架构支持语音克隆和音频编辑

作为Zero shot-TTS VALL-E的后续改进，VoiceCraft不得不提。可以称之为“优雅的VALL-E”。它的优雅主要体现在两个方面：casual masking和delayed stacking。所谓的causal masking，是为了用自回归GPT架构来做语音编辑任务，就是把被mask的部分移动到序列末尾去预测，一套架构同时做合成和编辑任务；所谓的delay stacking，是为了适配自回归和RVQ，通过delay错位让当前码本的token预测正好可以利用前面那些token的预测结果，比起VALL-E那样自回归和非自回归缝合在一起的结构要优雅不少。

**VoiceCraft的建模流程**，标记重排过程和建模框架的示例。重排过程包括两个步骤：（1） *因果掩码*，其中掩码的跨度被掩码标记替换并移动到末尾，以及（2） *延迟堆叠*，其中标记根据其码簿索引在时间维度上移动。

VoiceCraft 通过重新排列神经编解码器的输出标记，将序列填充（用于语音编辑）和延续（用于零样本 TTS）转换为简单的从左到右的语言建模。重排包括两个步骤：（1）因果掩码以实现双向上下文的自回归延续/填充，以及（2）延迟堆叠以确保高效的多码簿建模。VoiceCraft 采用仅限解码器的 Transformer，并使用自回归序列预测进行训练。

重排步骤 1：因果掩码：

给定一个连续的语音波形作为输入，我们首先使用 Encodec将其量化成一个 T by K codec 矩阵 X ，其中 T 是时间帧的数量，是 K RVQ 码本的数量。 X 可以写成 (X1,⋯,XT) ，其中 Xt 是一个长度 K 向量，表示在时间步 t 中来自不同码本的代码，我们假设 Codebook k 中的代码对 Codebook k−1 中的残差进行建模。在训练过程中，我们的目标是随机屏蔽一些 span 的标记 (Xt0,…,Xt1) ，然后以所有未屏蔽的标记为条件自动回归预测这些被屏蔽的标记。这在时 t1<T 是个问题，因为在执行自回归生成时，我们无法以未来的输出为条件。我们需要修改掩码， X 使其具有因果关系，方法是将要掩码的跨度移动到序列的末尾，以便在填充这些标记时，模型可以针对过去和未来未掩码的标记。

只需将所有被屏蔽的 span 移动到序列的末尾，即可轻松地将上述过程扩展到多个被屏蔽的 span。要屏蔽 n 的 span 数从 Poison⁢(λ) 中采样，然后对于每个 span，我们采样一个 span length l∼Uniform⁢(1,L) 。最后，我们在约束 X 下随机选择 span 的位置，确保它们彼此不重叠。然后，选定的 n 范围将替换为掩码标记 ⟨M₁⟩,⋯,⟨M_n⟩ 。这些掩码 span 中的原始标记将移动到 sequence X 的末尾，每个 span 前面都有其相应的掩码标记。

重排步骤 2：延迟堆叠

在因果掩码标记重新排列之后，重新排列矩阵 Y 的每个时间步都是标记向量 K 。Copet et al. （ 2023）观察到，当对堆叠的 RVQ 令牌进行自回归生成时，应用延迟模式是有利的，这样时间对码簿 k 的预测 t 就可以以同一时间步长对码簿 k−1 的预测为条件。我们采用与本文类似的方法。假设 span Ys 的形状为 Ls×K .应用延迟模式会将其重新排列到 Zs=(Zs,0,Zs,1,⋯,Zs,Ls+K−1) 中，其中 Zs,t,t∈[Ls+K−1] 定义为

其中 Ys,t−k+1,k 表示位于 matrix Ys 中 coordinate (t−k+1,k) 处的标记，即 (t−k+1) 第个时间步的 k 第个 Codebook 条目。为了确保 ∀t∈[Ls+K−1] ， Zs,t 包含 K 有效的标记，我们引入了一个特殊的可学习 [空] 标记并定义 Ys,t−k+1,k≜[empty],∀t∈{s:s⁢<k∪s−k+1>⁢Ls} 。请注意，掩码标记不是任何 span 的一部分，并且在延迟堆叠期间不会更改。我们定义延迟堆叠的结果矩阵 Z=(Z1,⟨M₁⟩,Z2,⟨M₁⟩,⋯,⟨MS−12⟩,ZS)

推理：

语音编辑。语音编辑的设置如下：我们有语音记录 R 及其转录 W ，我们希望模型仅修改的 R 相关跨度，以便它与目标转录 W′ 匹配。我们假设是 W′ 的编辑版本 W ，其中插入、替换或删除了一些单词。这个任务和训练任务几乎一模一样，有两个区别： 1）在训练过程中，输入的成绩单只是原始录音 W 的成绩单，而在推理过程中，它是一个修改后的成绩单 W′ 2）在训练过程中，要屏蔽的跨度（即编辑）是随机选择的。在推理过程中，我们通过比较原始转录本和目标转录本来识别应该屏蔽掉的单词来选择它们，然后使用原始转录本的单词级强制对齐来识别与这些要屏蔽的单词相对应的编解码器标记跨度。为了确保已编辑的语音和未编辑的语音之间的平滑过渡，还需要对要编辑的 span 周围的相邻单词进行轻微修改，以便对协同发音效果进行建模。因此，我们指定了一个小的 margin 超参数 ϵ ，并在左侧和右侧将掩码跨度长度 ϵ 延长.

在自回归生成过程中，我们将所有未屏蔽的跨度的目标转录本提供给模型，并在应进行编辑的位置插入掩码标记。然后，我们让模型自回归地继续这个序列，从而填充被掩盖的 span。然后，生成的编解码器令牌被拼接回它们在话语中的正确位置，我们使用 Encodec 解码器网络将完整的编解码器令牌序列映射回波形。

Zero-shot TTS。正如我们之前提到的，我们模型的零样本 TTS 很简单，因为它只对应于在原始话语的末尾执行插入编辑。在这种情况下，会为模型提供语音提示及其转录，以及要生成的语音的目标转录。这三个输入连接在一起并馈送到模型，然后它自动回归地生成目标转录本的编解码器序列。