TTS语音克隆开源模型-Fish、F5、GPT、CosyVoice、MaskGCT

内容隐藏

1 GPT-SoVITS

2 MaskGCT

GPT-SoVITS

https://github.com/RVC-Boss/GPT-SoVITS

GPT-SoVITS项目是TTS克隆领域内效果常年霸榜的模型之一，具有以下功能:

零样本文本到语音（TTS）: 输入 5 秒的声音样本，即刻体验文本到语音转换。
少样本 TTS：仅需 1 分钟的训练数据即可微调模型，提升声音相似度和真实感。
跨语言支持：支持与训练数据集不同语言的推理，目前支持英语、日语、韩语、粤语和中文。
WebUI 工具：集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注，协助初学者创建训练数据集和 GPT/SoVITS 模型。

部署和使用教程：【34.8k点赞量!】TTS领域内明星模型GPT-SoVITS实操教程来啦；2秒语音就能克隆，效果过于惊艳，请谨慎使用！

https://github.com/RVC-Boss/GPT-SoVITS
https://huggingface.co/lj1995/GPT-SoVITS

MaskGCT

https://github.com/open-mmlab/Amphion/blob/main/models/tts/maskgct/README.md

文本转语音TTS系统通常被分为自回归和非自回归系统。自回归系统隐式地建模持续时间，但在鲁棒性方面存在一定的缺陷，并且缺乏持续时间的可控性。非自回归系统在训练期间需要显式的文本和语音之间的对齐信息，并预测语言单位（例如音素）的持续时间，这可能会影响其自然性。在10月24日，趣丸科技&香港中文大学提出一种完全非自回归的TTS模型——掩码生成编解码器变换器（MaskGCT），它消除了对文本和语音监督之间显式对齐信息的需求，以及对音素级别持续时间预测的需求。

MaskGCT模型框架如下：

语音语义表示编解码器：这部分将语音转换为semantic tokens，这是将语音信号的声学特征抽象成更高层次的语义信息的过程。
文本到语义模型：这个模型使用文本和提示semantic tokens来预测语义标记。它的作用是理解文本内容并将其映射到相应的语义空间。
语义到声学模型：在得到语义标记后，这个模型会基于这些语义标记来预测声学标记，即将语义信息进一步转换为声学特征，这些声学特征更接近于实际的语音波形。
语音声学编解码器：最后，这个部分负责从声学标记重建语音波形，即将预测的声学特征转换成可以被听到的语音信号。

在训练期间，MaskGCT学习基于给定条件和提示预测掩码的语义或声学标记。在推理期间，模型以并行方式生成指定长度的标记。MaskGCT模型是基于10万小时数据集Emilia训练而来的，精通中英日韩法德6种语言的跨语种合成。数据集Emilia是全球最大且最为多样的高质量多语种语音数据集之一。

MaskGCT模型实验性能

可以看出 MaskGCT模型整体性能超了CosyVoice,XTTS-v2模型性能。

MaskGCT模型运行占用显存(大约10G左右)

部署和使用教程：【又又一款王炸级别TTS模型】趣丸科技&港中大开源MaskGCT语音大模型,性能超过CosyVoice，XTTS-v2！

https://arxiv.org/pdf/2409.00750
https://hf-mirror.com/amphion/MaskGCT
https://maskgct.github.io/
github: https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct
在线体验: https://huggingface.co/spaces/amphion/maskgct

F5-TTS语音模型

https://github.com/SWivid/F5-TTS

E2-TTS 语音模型介绍：

E2-TTS是由微软公司（Microsoft Corporation, USA）的研究团队开发的,具有以下特点:

简单架构：E2-TTS具有非常简单的架构，仅由填充标记的文本序列和基于流匹配的mel频谱图生成器组成。
无需额外组件：E2-TTS不需要额外的组件，例如持续时间模型（duration model）、字素到音素转换器（grapheme-to-phoneme converter）或复杂的对齐搜索技术（如单调对齐搜索）。
高性能：尽管架构简单，E2-TTS在零样本（zero-shot）TTS能力上达到了与之前工作相当或更好的性能，包括Voicebox和NaturalSpeech 3。
灵活性：E2-TTS在输入表示上具有灵活性，允许在推理期间提高可用性。

F5-TTS 语音模型介绍：

F5-TTS是一款基于流匹配的全非自回归文本到语音转换模型，由上海交通大学（Shanghai Jiao Tong University）、剑桥大学（University of Cambridge）、以及极氪汽车研究院（Geely Automobile Research Institute (Ningbo) Company Ltd.）的研究团队联合开发的。具有以下特点:

改进的文本表示：F5-TTS使用ConvNeXt对输入文本进行细化，以改善与语音的对齐，解决了E2-TTS中存在的鲁棒性问题。
Sway Sampling策略：F5-TTS提出了一种新的推理时采样策略，称为Sway Sampling，它显著提高了模型的性能和效率。这种采样策略可以轻松地应用于现有的基于流匹配的模型，而无需重新训练。
更快的训练与推理：F5-TTS的设计允许更快的训练，并且在推理时实现了0.15的实时因子（Real-Time Factor, RTF），与现有的基于扩散的TTS模型相比，这是一个显著的改进。
零样本能力：F5-TTS在公共100K小时多语言数据集上训练，展示了高度自然和富有表现力的零样本能力，以及无缝的代码切换能力。
开源：F5-TTS的代码和检查点被开源，以促进社区发展。

F5-TTS在E2-TTS的基础上进行了改进，特别是在文本表示的细化和推理时采样策略上。这些改进使得F5-TTS在保持简单架构的同时，提供了更好的性能和更快的推理速度。此外，F5-TTS的零样本能力更强，且完全开源。开源协议MIT。

F5-TTS模型性能介绍

这是F5-TTS和E2-TTS在测试集上的结果；

可以看出F5-TTS模型的整体效果是超过CosySense效果的；

部署和使用教程：【克隆TTS领域又更新啦】上海交大开源F5-TTS: 只需要2秒就能克隆语音，可商用，合成语音效果让我震惊不已！

https://github.com/SWivid/F5-TTS
F5-TTS: https://arxiv.org/pdf/2410.06885
E2-TTS:https://arxiv.org/pdf/2406.18009
https://hf-mirror.com/SWivid/F5-TTS
https://hf-mirror.com/SWivid/E2-TTS

FishSpeech1.4模型

https://hf-mirror.com/fishaudio/fish-speech-1.4

https://github.com/fishaudio/fish-speech

fish.audio团队最新开源的FishSpeech1.4;支持中文、英文等8种语音，具有以下特点:

零样本和少样本文本转语音（TTS）：输入一个10到30秒的语音样本，即可生成高质量的TTS输出。有关详细指南，请参见语音克隆最佳实践。
多语言和跨语言支持：只需将多语言文本复制粘贴到输入框中——无需担心语言问题。目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。
无需音素依赖：该模型具有强大的泛化能力，不依赖于音素进行TTS。它可以处理任何语言脚本的文本。
高度准确：对于5分钟的英文文本，实现了约2%的低CER（字符错误率）和WER（词错误率）。
快速：借助fish-tech加速技术，在Nvidia RTX 4060笔记本电脑上实时因子约为1:5，在Nvidia RTX 4090上为1:15。
WebUI推理：功能强大，基于Gradio的Web UI，兼容Chrome、Firefox、Edge等浏览器。
GUI推理：提供与API服务器无缝协作的PyQt6图形界面。支持Linux、Windows和macOS。见GUI。
部署友好：可以轻松设置推理服务器，原生支持Linux、Windows和MacOS，最小化速度损失。目前在huggingface社区下载量高达5.1K!

部署和使用教程： 【又一款王炸级别语音克隆TTS模型】FishSpeech重磅开源1.4版本！语音合成更逼真！跟最近爆火F5-TTS相比如何呢？

https://hf-mirror.com/fishaudio/fish-speech-1.4
https://speech.fish.audio/zh/inference/#_2
https://github.com/fishaudio/fish-speech
https://hf-mirror.com/SWivid/F5-TTS
https://github.com/SWivid/F5-TTS

CosyVoice模型

https://github.com/FunAudioLLM/CosyVoice

CosyVoice 是一个语音生成模型，能够合成自然声音，适用于多种应用。模型支持五种语言：中文、英语、日语、粤语和韩语。CosyVoice 包含三个开源模型：

CosyVoice-base-300M：擅长准确代表说话者身份，无需微调即可适应不同上下文，能够跨语言克隆声音。
CosyVoice-instruct-300M：能够生成富有情感表现力的语音，允许通过指令文本进行精细调整。
CosyVoice-sft-300M：已针对七位多语言说话者进行了微调，适合立即部署使用。

语音合成模型 CosyVoice 功能特点：

多语言支持：CosyVoice 支持包括中文、英文、日语、粤语和韩语在内的五种语言。
零样本学习：能够无需训练即可适应新说话者（zero-shot in-context learning），能够在不同语言之间复制声音。
情感共鸣：能够创建情感共鸣的声音， CosyVoice-instruct 版本通过情感指令显著提高了情感控制的准确性。
高质量语音合成：生成的样本在词错误率（WER）和说话者相似性方面达到人类水平。
语音定制化：能够根据特定说话者生成多语言语音，适应新说话者而无需训练。
语音克隆与风格迁移：支持在不同语言之间进行语音克隆和情感风格迁移。

部署和使用教程：【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

CosyVoice: https://github.com/FunAudioLLM/CosyVoice
SenseVoice: https://github.com/FunAudioLLM/SenseVoice
FunAudioLLM论文报告: https://fun-audio-llm.github.io/pdf/FunAudioLLM.pdf
CosyVoice论文报告: https://fun-audio-llm.github.io/pdf/CosyVoice_v1.pdf
https://fun-audio-llm.github.io/
https://www.modelscope.cn/studios/iic/SenseVoice
https://www.modelscope.cn/studios/iic/CosyVoice-300M

参考链接

https://github.com/SWivid/F5-TTS
https://hf-mirror.com/amphion/MaskGCT
https://hf-mirror.com/fishaudio/fish-speech-1.4
https://github.com/RVC-Boss/GPT-SoVITS
https://github.com/FunAudioLLM/CosyVoice

GPT-SoVITS

MaskGCT

F5-TTS语音模型

FishSpeech1.4模型

CosyVoice模型

参考链接

相关文章：

发表评论 取消回复

发表评论取消回复