Zero-shot TTS技术路线汇总

参考：

1、OpenAI的生肉博客：https://openai.com/index/hello-gpt-4o/

2、别慌！一文教你看懂GPT-4o背后的语音技术

内容隐藏

1 基于声学token或语义token的工作

2 基于声学/语义latents的工作

3 基于MEL谱+VQ的TOKEN的工作

4 基于MEL谱+VAE的latents的工作

5 TTS对指令的遵循

6 相关文章：

Zero-shot TTS模型通常会将低信息密度、长序列的连续语音数据压缩为高信息密度的tokens 或者 latents (其实就是码本中具体的 token embedding )。这些模型本质上做的事情就是：如何高效实现语音tokens / latents 到音频波形的映射。这些模型给出的解决方案基本上都遵循一个准则：语义token和声学token层次化解码，先语义后声学，或者先解码成Mel再后接声码器，并且非必要不做自回归(毕竟自回归上线虽高，但太吃数据了)！

1、语义token的解码：语义解码大概率是自回归解码。语义token毕竟是建模上下文依赖关系，自回归方法已经在NLP上证明了这一点。

2、声学token的解码：使用扩散模型或者flow-matching可能是更好的选择。扩散模型或者流匹配可以很好地修补语音的细节；

3、要做流式推理，外接类似HIFIGAN这样的声码器的方式可能不是好的选择。HIFIGAN并不天然支持流式解码。相反地，诸如SoundStream和Encodec这样的方法，同时有流式变体和非流式变体；

上面说到，要实现语音的合成，需要对语义token和声学token同时进行建模，语义token保证生成语音与对话上下文的连贯性，声学token保证了合成语音的质量和表现力。要想做到合成上下文连贯的高自然度语音，有两个问题必须要解决：

1、语音既有语义token，又有声学token，应该要如何解码成语音？
2、在合成语音的过程中是否能够遵循多轮对话中的文本指令和语音指令？这个很重要！这允许模型根据用户的即时要求来生成语音回复。比如说，OpenAI演示视频中出现的：“将语速提高两倍”、“采用更加机械化的语气”这样的要求。

对于第一个问题，以VALL-E为代表的诸多zero-shot TTS模型给出了不同的解决方案，这些方案虽有不同，但也有不可忽视的共同点；对于第二个问题，以VoiceLDM和ParlerTTS为代表的text/prompt-guided zero-shot TTS工作给出了肯定的答案。简单解释一下text/prompt-guided zero-shot TTS是怎么回事，通常的语音合成就是将文本(transcription)转换成声音，该任务在transcription之外，又增加了description的输入，来描述合成语音的情感情绪、口音、语气、语速、音高、说话环境、氛围等等信息。我们逐个来看这些工作。

基于声学token或语义token的工作

先是微软的VALL-E[16]。这是zero-shot TTS的开山之作，首次在TTS任务上采用了上万小时的数据。它采用Encodec将语音转换为离散的token，然后用GPT 【only 解码器】在token上做语言模型的任务。但是，语音毕竟不是文本，如果直接在语音的所有特征上都做自回归的话，那训练的成本会相当高。考虑到Encodec RVQ特征的层次性，低层特征表示语义内容这样的重要特征，高层特征则表征声学细节。前者具有比较强的上下文依赖关系，适合用自回归来建模，后者诸如音色这样的特征，具有全局性，用非自回归特征也可以搞定，所以就有了VALLE中自回归+非自回归的层次建模方式。

尽管VALL-E[16]在用GPT 【only 解码器】建模token的上下文关系的时候，基于token的层次化特性做了分治处理，可能是限于当前语音数据集的规模(几万小时可能不够)，这种GPT 【only 解码器】自回归的难度还是相当大的，解码过程存在常见的错误传播现象，鲁棒性非常差，极其不稳定。根据Ilya Sutskever此前对于自回归的论述，GPT 【only 解码器】自回归相比于BERT这种双向结构是非常data-hungry的，万小时的数据可能不够。根据本人以及一些同行的经验，VALL-E模型这一类的自回归模型，也包括tortoise-tts[20]和xtts v2，要想显出威力，至少要有十几万小时的数据才行。

既然GPT【only 解码器】自回归的难度这么大，就有不少人想方设法地来降低GPT学习的难度了。他们的解决方案也非常类似：给GPT提供额外的条件信息不就行了。比较典型的工作就是微软的RALL-E[21]和吉利的HAM-TTS[22]。RALL-E先生成了时长信息和音高信息，作为GPT自回归的先验，之所以会补充时长和音高，这大概是受到FastSpeech2[23]这样的非自回归模型的启发，这两个指标的引入，有助于提升合成的鲁棒性；HAM-TTS则是补充了基于HuBERT的语义信息。值得注意地是，HAM-TTS将模型的训练数据扩充到了65万小时，其中有50万小时的数据是合成数据。合成数据也能大幅度提升合成语音的音质。

说到VALL-E的后续改进，VoiceCraft不得不提。我愿意称之为“优雅的VALL-E”。它的优雅主要体现在两个方面：casual masking和delayed stacking。所谓的causal masking，是为了用自回归GPT架构来做语音编辑任务，就是把被mask的部分移动到序列末尾去预测，一套架构同时做合成和编辑任务；所谓的delay stacking，是为了适配自回归和RVQ，通过delay错位让当前码本的token预测正好可以利用前面那些token的预测结果，比起VALL-E那样自回归和非自回归缝合在一起的结构要优雅不少。

基于声学/语义latents的工作

我们通常所说的语音token是离散的。如果使用对应码本中的embedding来表示语音的话，它也可以是连续的低维度的latent变量。既然是低维度的连续latent变量，那图像合成领域中大火的LDM(latent diffusion model，其实就是stable diffsion 1&2采用的模型)模型自然也可以用到语音的合成上。这方面的经典工作有很多，比如说：NaturalSpeech 2&3[25, 26]、AudioLDM 2[27]、VoiceLDM[18]。但这里面只有NaturalSpeech2用到了语音离散化部分提及的声学/语义token，NaturalSpeech3的属性分解形式的VQ更像是另一种形式的RVQ。我们先来看NaturalSpeech 2&3，其他的工作后面再来看。

首先是NaturalSpeech 2[26]，利用带有残差向量量化器的神经音频编解码器来获得量化的潜在向量，并使用扩散模型来生成这些以文本输入为条件的潜在向量。它基本上就是VALL-E的连续版本。它用的latent也是来自Encodec，对其中不同层次的latent做了求和，然后将其作为扩散模型的训练目标。值得注意地是，扩散模型和FastSpeech2一样也用了时长和音高作为合成的先验条件。这一点也被后来的RALL-E采用。该工作中的扩散模型采用WaveNet实现，同时预测不加噪的latent和后验均值，和图像合成领域的扩散模型在实现方式上还是有所不同的。

此图片的alt属性为空；文件名为image-82-1024x537.png — **NaturalSpeech2的模型架构**

然后是NaturalSpeech 3，还是非自回归的，而且非自回归的正统性味道更加浓厚，借用了不少FastSpeech2和megatts1&2的设计思想。像megatts 1&2一样，同样采用(自)监督信号对语音token编码的内容做了限制，而不再像是VALL-E/NaturalSpeech2那样一把抓。相应地，语音token化的方法也用VQ就行。具体而言，文章将语音信号分解为时长、内容、韵律和细节四个部分，然后每个部分用离散化的扩散模型来建模。不过，原文使用GRL来促进语音属性的分解，这一点的靠谱程度存疑。我也尝试过文章的FACodec，但效果很差。三级扩散模型级联的结构，预测起来似乎也非常麻烦。

基于MEL谱+VQ的TOKEN的工作

当然，也有不少工作用了MEL谱作为中间特征，然后在梅尔谱的基础上，或是用VQ提供离散token，或是用CNN来提取连续latent。对于MEL+VQ的工作，有tortoise-tts[20]、xtts 1&2、megatts1&2[28, 29]、base TTS[30]。对于MEL+latents的工作，有：AudioLDM 1&2[27]、StyleTTS 1&2[31, 32]。我们来简单看看是它们是怎么做的。

Tortoise-tts[20]。该工作是著名的开源英文TTS模型。其作者目前在OpenAI就职，同时也是GPT-4o的重要Contributor(他自个儿在博客中说的)。

Tortoise-tts使用MEL+VQVAE的方法得到语音的MEL token，然后对MEL token以及text token做GPT自回归建模。对于语音的解码，自然也是分为两步：先是用扩散模型将MEL token转换为MEL谱，这一步和文生图很像，用扩散模型是很自然的选择；然后用声码器将MEL谱转换为音频波形。tortoise-tts和VALL-E的主体都是自回归建模，二者的不同主要在于token的不同。

MegaTTS 1&2[28, 29]。字节跳动的MegaTTS系列对语音token编码信息做了显式的信息压缩处理，让语音token仅编码上下文依赖强的韵律信息，然后用GPT自回归来建模语音的韵律。对于其他方面的信息，模型的处理显得较为常规：音色一般具有全局性，使用单一的音色编码器从参考音频中提取就性；对于文本语义内容的处理，模型在很大程度上参考了非自回归的FastSpeech 2。

对于语音的解码，也是分为两步：先通过MEL decoder还原为MEL谱，然后通过声码器解码为音频波形。MegaTTS 2和1总体上类似，在音色编码(音素级编码、多条参考音频)、语音提示长度(扩展同speaker语音上下文长度硬train，音频prompt长度更长)和时长建模(也用GPT自回归)上做了改进，同时堆了更大规模的数据。剪映的后端TTS模型用的就是megatts2。该工作在各论文的评测中表现也都不错。

基于MEL谱+VAE的latents的工作

AudioLDM 1&2[27]。AudioLDM 1&2使用的语音latents是一致的，均通过MEL+VAE获得。既然是连续的latents，使用扩散模型来建模也合情合理。解码过程也相当简单：VAE decoder获得梅尔谱，然后用声码器转换为音频波形。该系列工作的核心创新点是利用多模态模型统一了扩散模型条件输入侧的信息：AudioLDM 1用CLAP统一了文本模态和音频模态，用单模态的音频数据就能完成模型的训练；AudioLDM 2则包含了图像、文本、转录文本等更多模态，模型泛用性也更强，既能做语音合成，也能做音乐生成、音频事件生成。

StyleTTS 1&2[31, 32]。StyleTTS系列的模型一众zero-shot TTS模型显得比较老派，整体结构基本上沿袭了非自回归的FastSpeech 2，不同之处在于增加了基于参考音频抽取的风格信息。说是风格，其实跟megatts的音色很像。StyleTTS 2的工作则将风格进一步拆分成声学风格和韵律风格。训练时的风格信息由音频提供，推断时的风格信息则由扩散模型提供。StyleTTS 2通过一个扩散模型桥接了文本韵律和语音风格之间的联系，摆脱推断时对参考音频的依赖。不用参考音频其实对产品的意义还挺大的，要都用现实世界中真人尤其是名人的声音作为参考音频，那这势必会引起版权纠纷。这种纠纷在国内国外都有相关的事件。最近寡姐投诉OpenAI的事件就是一例。

TTS对指令的遵循

SLM不仅要合成合乎上下文语义的高表现力语音，合成的语音还要符合用户的即时要求。一些text-guided zero-shot TTS的工作值得参考。这些工作一般都是在已有的zero-shot TTS模型或者text-to-audio模型上改造而来，同时吸收transcription和description两路条件。其中的重点还是在于数据集的构建。这方面的工作有：PromptTTS[33]、InstructTTS[34]、ParlerTTS[19]、VoiceLDM[18]和Audiobox[35]。我们主要谈谈ParlerTTS和VoiceLDM。

ParlerTTS[19]。VALL-E/VoiceCraft的增强版，通过T5编码器和cross-attention旁路引入了描述性文本的信息。该工作的目的是想使用自然语言prompt来指定说话风格和环境信息，摆脱对参考音频的依赖。描述性标签文本的收集过程也显得相当朴素：通过定制化的监督式模型获取语音数据的口音特征、录音质量特征、音高语速特征。然后用LLM将这些特征转换为自然语言的描述。在我看来，这个工作有这么几点局限性吧：其一，缺乏情绪标签；其二，语音描述性标签的收集并不具备通用性，较为繁琐，远不如一个强大的多模态语音理解模型来得实在。文章demo虽然达到了预期的效果，但场景似乎局限在朗读的情景中。

VoiceLDM[18]。在VoiceLDM1的基础上增加了转录文本的输入。这个工作和AudioLDM 1很像，同样使用CLAP注入语音的描述性信息。不同地是，为了做TTS任务，该工作通过cross-attention旁路增加了transcription的信息。

TTS总结

林林总总说了这么多zero-shot的TTS方法，想说明的结论有这么几点：

在LLM大行其道、scaling law大显神威的时代，TTS模型的训练数据规模已经突破了万小时，甚至达到了数十万小时的级别。在大数据的加持下，TTS任务上也涌现出了in-context learning能力。
语音信息的解码通常都要层次化或者多步进行，不能一步到位。自回归、扩散模型和流匹配都能在TTS中发挥作用；
借鉴NLP instruction fine-tuning和文生图的经验，TTS模型同样可以遵循文本指令或者语音指令，合成符合用户即时要求的语音，摆脱对参考音频的依赖，这或许也能规避一些知识产权的困扰(比如最近有名的寡姐投诉OpenAI事件)。同时，用户也能在对话过程中随时切换语音回复的风格，这一点在OpenAI的demo中有很明确的体现。另外，不知道大家有没有注意，GPT-4o合成的语音是可以是放映所处的声学环境的：有一段语音背后似乎是有钢琴声的。
text-guided zero-shot TTS在模型架构上和zero-shot TTS有非常大的相似性。但训练数据可能较为缺乏。先开发zero-shot TTS，再用类似SALMONN那样的多模态理解模型来打标签(类似DALLE3的做法)，这样数据集构造方式，可能会是更好的选择。

基于声学token或语义token的工作

基于声学/语义latents的工作

基于MEL谱+VQ的TOKEN的工作

基于MEL谱+VAE的latents的工作

TTS对指令的遵循

相关文章：

发表评论 取消回复

发表评论取消回复