ChatTTS

https://github.com/2noise/ChatTTS/blob/main/docs/cn/README.md
https://2noise.com/
https://github.com/libukai/Awesome-ChatTTS

对话式 TTS: ChatTTS 针对对话式任务进行了优化，能够实现自然且富有表现力的合成语音。它支持多个说话者，便于生成互动式对话。
精细的控制: 该模型可以预测和控制精细的韵律特征，包括笑声、停顿和插入语。
更好的韵律: ChatTTS 在韵律方面超越了大多数开源 TTS 模型。我们提供预训练模型以支持进一步的研究和开发。

数据集和模型

主模型使用了 100,000+ 小时的中文和英文音频数据进行训练。
HuggingFace 上的开源版本是一个在 40,000 小时数据上进行无监督微调的预训练模型。

###################################
# Sample a speaker from Gaussian.

rand_spk = chat.sample_random_speaker()
print(rand_spk) # save it for later timbre recovery

params_infer_code = ChatTTS.Chat.InferCodeParams(
    spk_emb = rand_spk, # add sampled speaker 
    temperature = .3,   # using custom temperature
    top_P = 0.7,        # top P decode
    top_K = 20,         # top K decode
)

###################################
# For sentence level manual control.

# use oral_(0-9), laugh_(0-2), break_(0-7) 
# to generate special token in text to synthesize.
params_refine_text = ChatTTS.Chat.RefineTextParams(
    prompt='[oral_2][laugh_0][break_6]',
)

wavs = chat.infer(
    texts,
    params_refine_text=params_refine_text,
    params_infer_code=params_infer_code,
)

###################################
# For word level manual control.

text = 'What is [uv_break]your favorite english food?[laugh][lbreak]'
wavs = chat.infer(text, skip_refine_text=True, params_refine_text=params_refine_text,  params_infer_code=params_infer_code)
torchaudio.save("output2.wav", torch.from_numpy(wavs[0]), 24000)

模型组成：LlamaModel、DVAE（VQVAE）、VOCOS声码器

文本控制

1. Input Text : 需要转换的文本，支持中文和英文混杂
2. Refine text : 是否对文本进行口语化处理
3. Text Seed : 配置文本种子值，不同种子对应不同口语化风格
4. 🎲 : 随机产生文本种子值
5. Output Text : 口语化处理后生成的文本

音色控制

6. Timbre : 预设的音色种子值
7. Audio Seed : 配置音色种子值，不同种子对应不同音色
8. 🎲 : 随机产生音色种子值
9. Speaker Embedding : 音色码，详见音色控制

情感控制

10. temperate : 控制音频情感波动性，范围为 0-1，数字越大，波动性越大
11. top_P ：控制音频的情感相关性，范围为 0.1-0.9，数字越大，相关性越高
12. top_K ：控制音频的情感相似性，范围为 1-20，数字越小，相似性越高

系数控制

13. DVAE Coefficient : 模型系数码
14. Reload : 重新加载模型系数

播放控制

15. Auto Play : 是否在生成音频后自动播放
16. Stream Mode : 是否启用流式输出
17. Generate : 点击生成音频文件
18. Output Audio : 音频生成结果
19. ↓ : 点击下载音频文件
20. ▶️ : 点击播放音频文件

示例控制

21. Example : 点击切换示例配置

快速体验

网址	类型
Original Web	原版网页版体验
Forge Web	Forge 增强版体验
Linux	Python 安装包
Samples	音色种子示例
Cloning	音色克隆体验

项目	Star	亮点
jianchang512/ChatTTS-ui		提供 API 接口，可在第三方应用中调用
6drf21e/ChatTTS_colab		提供流式输出，支持长音频生成和分角色阅读
lenML/ChatTTS-Forge		提供人声增强和背景降噪，可使用附加提示词
CCmahua/ChatTTS-Enhanced		支持文件批量处理，以及导出 SRT 文件
HKoon/ChatTTS-OpenVoice		配合 OpenVoice 进行声音克隆

项目	Star	亮点
6drf21e/ChatTTS_Speaker		音色角色打标与稳定性评估
AIFSH/ComfyUI-ChatTTS		ComfyUi 版本，可作为工作流节点引入
MaterialShadow/ChatTTS-manager		提供了音色管理系统和 WebUI 界面

数据集和模型

文本控制

音色控制

情感控制

系数控制

播放控制

示例控制

快速体验

热门分支

功能增强

功能扩展

发表评论取消回复

数据集和模型

文本控制

音色控制

情感控制

系数控制

播放控制

示例控制

快速体验

热门分支

功能增强

功能扩展

相关文章：

发表评论 取消回复

发表评论取消回复