2024年11月 – 第 2 页

Hertz-dev：首个开源的超低延迟的实时交互语音对话模型

一个革命性的开源音频模型——Hertz-dev 横空出世，凭借其惊人的性能指标，让全球开发者为之震撼。这款拥有 85 亿参数的 AI 语音巨兽，通过 2000 万小时高质量音频数据的训练，成功实现了人类梦寐以求的全双工实时对话。最令人惊叹的是其 120 毫秒的超低延迟表现，较现有公开模型足足提升了一倍，让人机对话体验提升到了一个全新境界。想象一下，当你在和 AI 对话时，不必再等待对方说完就能自然插话，就像真实的人类对话一样流畅自然。

Hertz-dev 的核心突破包括：

–突破性全双工技术： 彻底颠覆传统轮流发言模式，实现真正的双向实时交流。

– 卓越音频压缩： 在保证高音质的同时，大幅降低带宽占用。

– 超长对话能力： 轻松理解和生成持续性对话内容。

– 革命性低延迟： 120 毫秒的响应速度，开创实时互动新纪元。

官方介绍：Hertz-dev 在 RTX 4090 上的理论延迟为 65 毫秒，实际平均延迟为 120 毫秒。这比世界上任何公共模型的延迟都低约 2 倍——这是模型能够以类似人类的方式与您互动的先决条件，而不是感觉像延迟、断断续续的电话通话。作者目前正在训练更大、更先进的 Hertz 版本，它将使用缩放的基础模型配方和 RL 调整来大幅提高模型的原始功能和最终一致性。Hertz-dev 是实时语音交互未来的一瞥，也是世界上最容易让研究人员进行微调和构建的对话音频模型。

代码地址：https://github.com/Standard-Intelligence/hertz-dev

体验地址：https://si.inc/hertz-dev/

在过去的几个月里，Standard Intelligence 团队一直在进行跨模态学习研究。我们很高兴地宣布，我们将开源这项研究的早期产品，即 8.5B、全双工、纯音频基础模型：hertz-dev。

音频模态对于创建感觉自然的交互式代理至关重要。目前，利用音频与生成式 AI 的两种方法是基于扩散的方法或自回归方法。虽然基于扩散的音频模型被证明擅长音乐生成和小样本，但真正的交互式音频生成需要是自回归的。

该领域最大的问题是 1) 获得听起来像人类的音频生成（即非合成的以及很好地处理中断）和 2) 使用两个实时频道处理实时生成，这两个频道都在产生信息，就像正常的人类对话一样。

我们的模型处于这两者的最前沿，原生适应双扬声器格式，具有比人类更快的反应时间，并且完全能够解析和生成重叠的双扬声器音频。我们通过在潜在空间中操作以及使用量化语音位来实现这一点，从而允许 80ms 的理论平均延迟，每个时间步长只有一个采样的延迟。目前，我们在单个 RTX 4090 上对 120ms 的实际延迟进行了基准测试，比之前最先进的延迟低 2 倍。

模型架构：

Figure 1: **`hertz-codec` architecture diagram for our VAE. The input is 6s 16kHz mono audio and the output is a 32-dim latent.**

图 2：我们模型的自回归部分的 `hertz-ar` 架构图。（2a）是单通道自回归潜在预测，（2b）是双工自回归潜在预测。

hertz-dev 由两部分组成 – 产生音频latents的 hertz-codec 和根据过去音频latents未来音频latents的 hertz-ar。音频latents是极其丰富的先验数据，可用于许多下游任务。

hertz-codec：卷积音频 VAE，采用单声道、16kHz 语音，并使用 KL 正则化的 1kbps 比特率编码 8Hz latents数据。我们利用因果卷积（功能上在序列左侧添加填充）来实现流式推理。

编解码器输出高斯参数（均值和方差），这些参数每 125ms 帧仅被采样为单层 32 维latent数据。在主观评估中，Hertz-codec 在 6kbps 时优于 Soundstream 和 Encodec，在 8kbps 时与 DAC 相当，同时每秒的标记数低于任何流行的标记器，这对于语言建模至关重要。 Hertz-codec 有 500 万个编码器参数和 9500 万个解码器参数。

inference_apatosaurus_95000.pt — 在混合重建、对抗和 KL 正则化损失上训练的 hertz-codec 权重。
inference_volcano_3.pt — hertz-codec 量化器，一种学习投影，可提取每个潜在语音中最相关的 15 位。

hertz-ar：40 层 84 亿参数解码器专用转换器，上下文为 2048 个输入token（约 4.5 分钟）。输出是可以传递到 hertz-codec 的latent数据。前 32 层接收潜在历史作为输入，并预测下一个latent音频token的 15 位量化投影。我们称之为 hertz-lm，因为它可以独立训练或从语言模型权重初始化。

最后 8 层网络利用潜在历史和 15 位量化latent来预测未来的潜在音频标记。

双工音频作为后训练任务处理，两个投影头连接在一起，然后分成两个量化投影管道，以各自的残差为条件。

inference_caraway_112000.pt — 从在 2T 标记上训练的语言模型初始化的hertz-lm 权重。
inference_syrup_110000.pt — 随机初始化的hertz-lm 权重，并完全在音频潜在上进行训练。
inference_whip_72000.pt — 最后 8 层的hertz-ar 权重
inference_care_50000.pt & inference_scion_54000.pt — hertz-ar 的双工检查点

Hertz-dev 是第一个公开发布的对话音频基础模型。基础模型可以准确预测训练数据的分布，而那些经过大量强化学习调优以压缩生成分布的模型则不同。这使得这些模型成为大量不同任务的下游微调的最佳起点。我们目前正在训练更大、更先进的 Hertz 版本，它将使用缩放的基础模型配方和强化学习调优来大幅提高模型的原始能力和最终一致性。Hertz-dev 是实时语音交互未来的一瞥，也是世界上最容易让研究人员进行微调和构建的对话音频模型。

训练选择

因果卷积网络：
在 hertz-codec 中使用了因果卷积网络进行并行解码，同时实现对潜在变量生成的更细粒度控制。
15位量化潜变量：
- 潜变量最初被训练用于包含语音的音素信息，从而帮助模型生成语法正确的语音。
- 量化过程通过一个多层感知机（MLP）投射到有限标量量化（Finite Scalar Quantization）层中完成。
初始化策略对比：
- 对 hertz-lm 测试了两种不同的初始化策略。
- 实验结果表明，模型配方在有或没有文本模型初始化的情况下，都能有效学习语言学特征。

性能表现

实时推理：
- 在实时推理中，模型需要每秒进行 8次前向传播，并持续执行自回归生成。
- 输入包含两个独立的信道，但在对话中仅返回其中一个信道的结果。
- 每一步操作中，模型接收用户的音频，将其标记为潜变量，并将其与模型上一步生成的潜变量结合，一起输入到 hertz-ar。
延迟：
- 延迟由以下部分组成：
  - 用户语音和模型响应之间的平均时间（62.5毫秒），即从任何给定语音片段到一个标记生成完成的时间。
  - 前向传播的计算时间。
  - 网络往返的延迟。
- 在本地 RTX 4090 上运行时，实际测得的平均延迟为 120毫秒。
对比表现：
- 这种延迟是其他音频模型的 2倍低，极大地提升了实时交互的流畅性。
- 它能够以类似人类的方式进行互动，而不会让用户感受到像延迟、断续电话一样的不自然体验。

类似的端到端的音频模型：

2、mini-omni2

https://github.com/gpt-omni/mini-omni2…

3、GLM-4-Voice

https://github.com/THUDM/GLM-4-Voice…

4、moshi

https://moshi.chat

5、Spiritlm

https://github.com/facebookresearch/spiritlm

声学模型和语言模型融合的N种方式

作者：Ryuk
来源：语音算法组
链接：https://mp.weixin.qq.com/s/PMKFQvPNLJH7qXqp8fWjkA

语音识别算法目的是从声学特征x中找到最有可能生成的词序列y，即

完整的语音识别算法包括特征提取、声学模型、语言模型和解码，其中语言模型（Langulage Model, LM）负责计算词序列W={w1,…,wn} 的概率估计P(W)。并且语言模型在识别过程中可以帮助引导和限制备选词假设之间的搜索结果。

语言模型是通过学习大量文本数据来预测或生成语言内容的模型。语言模型的核心目标是学习词语或字符序列的分布，以便在给定上下文的情况下，预测下一词（或字符）的可能性，或生成合理的句子和段落。根据现有的工作，语言模型大致可以分为两大类：

基于统计的语言模型，如ngram；
基于神经网络的语言模型，如rnnlm；

无论哪种形态的语言模型最终都是要和声学模型一起使用，但是可以选择在不同的位置加入语言模型以达到不同的效果，今天本文就介绍下声学模型和语言模型融合几种方式。

🌒 Shallow Fusion（浅层融合）首先很容易想到，声学模型有个得分，语言模型也有个得分，加权求和不就好了，这就是最传统的shallow fusion方法。声学模型和语言模型分开训练，然后在声学模型beam-search时做得分的加权，即

其中λ为语言模型的权重，在shallow fusion 中，声学模型和语言模型完全独立的，可以随意地更换语言模型，比如从ngram切换到Transformerlm，只需要重新调整语言模型权重λ即可。

💯 LM Rescoring

由于shallow fusion是在token级别进行的融合，计算量随着句子的长度而增加，那么有没有开销比较小的方法呢？答案是肯定的，可以在整个句子解码后，对句子级别的n-best结果使用语言模型打分，然后与声学模型得分加权，即

虽然相比shallow fusion逐token计算语言模型得分，rescoring方法减少了计算量，但是其搜索空间减少为句子级别的n-best，因此精度相对于shallow fusion有所下降。

🎴Density Ratio

目前端到端的方案已经成为了语音识别的主流，研究者们普遍认为像RNNT之类的模型，在训练过程中模型也学到了一些语言的信息，称其为内部语言模型(Internal Language Model, ILM)。这个内部语言模型是基于声学模型训练集内容训练的，当遇到跨域问题时，内部语言模型和外部的语言模型存在冲突，对最终的识别结果有影响。一个可行的解决方案是在声学模型的源域再训练一个语言模型，然后在shallow fusion后减去这个语言模型。假设源域为ψ，目标域是τ，那么density ratio方法可以通过贝叶斯定理推导得到端到端模型的后验概率：

在推理过程中，内部语言模型的对数概率应该由端到端模型和外部语言模型分数的对数线性组合中减去，即：

其中β是非blank的奖励。显然，这种方法在跨域的场景下比shallow fusion更好。此外，这种方法和shallow fusion一样，只在解码时需要介入，不影响声学模型的训练过程，最后只需要微调下不同语言模型的权重即可。

⁉️ Internal Language Model Estimation

density ratio方法假设源域端到端模型的后验可以分解为具有独立参数的声学模型和语言模型，类似于混合系统。然而严格来说，根据贝叶斯定理，端到端模型的后验概率应该都条件分布于模型的参数：

同样的，在推理过程中，内部语言模型的对数概率应该由端到端模型和外部语言模型分数的对数线性组合中减去，即

对比公式（4）和公式（6）可以发现与density ratio方法不同的是，这里的内部语言模型和声学模型基于同一组参数条件化，这种方法称为内部语言模型估计（Internal Language Model Estimation, ILME）。那么剩下的问题就是如何估计这个内部语言模型了。

内部语言模型定义为端到端模型从音频-转录数据对中隐式学习到的令牌序列概率分布，然而直接整个声学空间中计算在实际中是不可行的。这里需要使用一种称作联合软最大近似（Joint Softmax Approximation，JSA）的方法，该方法用于通过消除编码器激活的影响来近似混合自回归传输器(hybrid autoregressive transducer, HAT)模型的内部语言模型。简单来说，在RNNT模型中，直接将encoder的输出置零，只让decoder的输出通过joint network，便可以得到ILM的分数；在AED模型中，屏蔽掉encoder的encoder的输出，解码器仅根据文本输入计算ILM的分数。

🎰 Weighted Finite-State Transducers 重要！！！

WFST（加权有限状态转换器）是一种扩展了有限状态机（Finite-State Machine, FSM）的模型，能够处理带权重的符号转换问题。简单来说，WFST是一种在两个符号集之间进行映射的工具，并为每个转换赋予一个权重或代价。它是一个有向图，图中的每条边表示符号的转换，同时伴随一个权重。在端到端语音识别中，T 是以建模单元来构图的，IH 为声学模型神经网络的建模单元英文音素。下图就是 ‘is’ 中 /i/ 的发音表示：

L 是发音词典，包含了字到词的映射，下图为’is’的发音/iz/的表示：

G是语言模型，用于识别how are you，how is it的语言模型构图如下：

通过TLG的Compose，把声学建模单元，词典，语言模型糅合在一起，产生一个静态的解码网络。在解码过程中采用搜索策略，得到输入语音的最优解码结果。

参考文献：

[1]. https://zh-v1.d2l.ai/chapter_recurrent-neural-networks/lang-model.html

[2]. https://live.ocw.mit.edu/courses/6-345-automatic-speech-recognition-spring-2003/6f59dcd153cc92b4d565ca4b45b2bc83_lecture1112.pdf

[3]. https://k2-fsa.github.io/icefall/decoding-with-langugage-models/index.html

[4]. https://zhuanlan.zhihu.com/p/585196572

[5]. https://arxiv.org/pdf/2002.11268

[6]. https://arxiv.org/pdf/2011.01991

[7]. https://aistudio.baidu.com/projectdetail/5001356?channelType=0&channel=0

TTS语音克隆开源模型-Fish、F5、GPT、CosyVoice、MaskGCT

GPT-SoVITS

https://github.com/RVC-Boss/GPT-SoVITS

GPT-SoVITS项目是TTS克隆领域内效果常年霸榜的模型之一，具有以下功能:

零样本文本到语音（TTS）: 输入 5 秒的声音样本，即刻体验文本到语音转换。
少样本 TTS：仅需 1 分钟的训练数据即可微调模型，提升声音相似度和真实感。
跨语言支持：支持与训练数据集不同语言的推理，目前支持英语、日语、韩语、粤语和中文。
WebUI 工具：集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注，协助初学者创建训练数据集和 GPT/SoVITS 模型。

部署和使用教程：【34.8k点赞量!】TTS领域内明星模型GPT-SoVITS实操教程来啦；2秒语音就能克隆，效果过于惊艳，请谨慎使用！

https://github.com/RVC-Boss/GPT-SoVITS
https://huggingface.co/lj1995/GPT-SoVITS

MaskGCT

https://github.com/open-mmlab/Amphion/blob/main/models/tts/maskgct/README.md

文本转语音TTS系统通常被分为自回归和非自回归系统。自回归系统隐式地建模持续时间，但在鲁棒性方面存在一定的缺陷，并且缺乏持续时间的可控性。非自回归系统在训练期间需要显式的文本和语音之间的对齐信息，并预测语言单位（例如音素）的持续时间，这可能会影响其自然性。在10月24日，趣丸科技&香港中文大学提出一种完全非自回归的TTS模型——掩码生成编解码器变换器（MaskGCT），它消除了对文本和语音监督之间显式对齐信息的需求，以及对音素级别持续时间预测的需求。

MaskGCT模型框架如下：

语音语义表示编解码器：这部分将语音转换为semantic tokens，这是将语音信号的声学特征抽象成更高层次的语义信息的过程。
文本到语义模型：这个模型使用文本和提示semantic tokens来预测语义标记。它的作用是理解文本内容并将其映射到相应的语义空间。
语义到声学模型：在得到语义标记后，这个模型会基于这些语义标记来预测声学标记，即将语义信息进一步转换为声学特征，这些声学特征更接近于实际的语音波形。
语音声学编解码器：最后，这个部分负责从声学标记重建语音波形，即将预测的声学特征转换成可以被听到的语音信号。

在训练期间，MaskGCT学习基于给定条件和提示预测掩码的语义或声学标记。在推理期间，模型以并行方式生成指定长度的标记。MaskGCT模型是基于10万小时数据集Emilia训练而来的，精通中英日韩法德6种语言的跨语种合成。数据集Emilia是全球最大且最为多样的高质量多语种语音数据集之一。

MaskGCT模型实验性能

可以看出 MaskGCT模型整体性能超了CosyVoice,XTTS-v2模型性能。

MaskGCT模型运行占用显存(大约10G左右)

部署和使用教程：【又又一款王炸级别TTS模型】趣丸科技&港中大开源MaskGCT语音大模型,性能超过CosyVoice，XTTS-v2！

https://arxiv.org/pdf/2409.00750
https://hf-mirror.com/amphion/MaskGCT
https://maskgct.github.io/
github: https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct
在线体验: https://huggingface.co/spaces/amphion/maskgct

F5-TTS语音模型

https://github.com/SWivid/F5-TTS

E2-TTS 语音模型介绍：

E2-TTS是由微软公司（Microsoft Corporation, USA）的研究团队开发的,具有以下特点:

简单架构：E2-TTS具有非常简单的架构，仅由填充标记的文本序列和基于流匹配的mel频谱图生成器组成。
无需额外组件：E2-TTS不需要额外的组件，例如持续时间模型（duration model）、字素到音素转换器（grapheme-to-phoneme converter）或复杂的对齐搜索技术（如单调对齐搜索）。
高性能：尽管架构简单，E2-TTS在零样本（zero-shot）TTS能力上达到了与之前工作相当或更好的性能，包括Voicebox和NaturalSpeech 3。
灵活性：E2-TTS在输入表示上具有灵活性，允许在推理期间提高可用性。

F5-TTS 语音模型介绍：

F5-TTS是一款基于流匹配的全非自回归文本到语音转换模型，由上海交通大学（Shanghai Jiao Tong University）、剑桥大学（University of Cambridge）、以及极氪汽车研究院（Geely Automobile Research Institute (Ningbo) Company Ltd.）的研究团队联合开发的。具有以下特点:

改进的文本表示：F5-TTS使用ConvNeXt对输入文本进行细化，以改善与语音的对齐，解决了E2-TTS中存在的鲁棒性问题。
Sway Sampling策略：F5-TTS提出了一种新的推理时采样策略，称为Sway Sampling，它显著提高了模型的性能和效率。这种采样策略可以轻松地应用于现有的基于流匹配的模型，而无需重新训练。
更快的训练与推理：F5-TTS的设计允许更快的训练，并且在推理时实现了0.15的实时因子（Real-Time Factor, RTF），与现有的基于扩散的TTS模型相比，这是一个显著的改进。
零样本能力：F5-TTS在公共100K小时多语言数据集上训练，展示了高度自然和富有表现力的零样本能力，以及无缝的代码切换能力。
开源：F5-TTS的代码和检查点被开源，以促进社区发展。

F5-TTS在E2-TTS的基础上进行了改进，特别是在文本表示的细化和推理时采样策略上。这些改进使得F5-TTS在保持简单架构的同时，提供了更好的性能和更快的推理速度。此外，F5-TTS的零样本能力更强，且完全开源。开源协议MIT。

F5-TTS模型性能介绍

这是F5-TTS和E2-TTS在测试集上的结果；

可以看出F5-TTS模型的整体效果是超过CosySense效果的；

部署和使用教程：【克隆TTS领域又更新啦】上海交大开源F5-TTS: 只需要2秒就能克隆语音，可商用，合成语音效果让我震惊不已！

https://github.com/SWivid/F5-TTS
F5-TTS: https://arxiv.org/pdf/2410.06885
E2-TTS:https://arxiv.org/pdf/2406.18009
https://hf-mirror.com/SWivid/F5-TTS
https://hf-mirror.com/SWivid/E2-TTS

FishSpeech1.4模型

https://hf-mirror.com/fishaudio/fish-speech-1.4

https://github.com/fishaudio/fish-speech

fish.audio团队最新开源的FishSpeech1.4;支持中文、英文等8种语音，具有以下特点:

零样本和少样本文本转语音（TTS）：输入一个10到30秒的语音样本，即可生成高质量的TTS输出。有关详细指南，请参见语音克隆最佳实践。
多语言和跨语言支持：只需将多语言文本复制粘贴到输入框中——无需担心语言问题。目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。
无需音素依赖：该模型具有强大的泛化能力，不依赖于音素进行TTS。它可以处理任何语言脚本的文本。
高度准确：对于5分钟的英文文本，实现了约2%的低CER（字符错误率）和WER（词错误率）。
快速：借助fish-tech加速技术，在Nvidia RTX 4060笔记本电脑上实时因子约为1:5，在Nvidia RTX 4090上为1:15。
WebUI推理：功能强大，基于Gradio的Web UI，兼容Chrome、Firefox、Edge等浏览器。
GUI推理：提供与API服务器无缝协作的PyQt6图形界面。支持Linux、Windows和macOS。见GUI。
部署友好：可以轻松设置推理服务器，原生支持Linux、Windows和MacOS，最小化速度损失。目前在huggingface社区下载量高达5.1K!

部署和使用教程： 【又一款王炸级别语音克隆TTS模型】FishSpeech重磅开源1.4版本！语音合成更逼真！跟最近爆火F5-TTS相比如何呢？

https://hf-mirror.com/fishaudio/fish-speech-1.4
https://speech.fish.audio/zh/inference/#_2
https://github.com/fishaudio/fish-speech
https://hf-mirror.com/SWivid/F5-TTS
https://github.com/SWivid/F5-TTS

CosyVoice模型

https://github.com/FunAudioLLM/CosyVoice

CosyVoice 是一个语音生成模型，能够合成自然声音，适用于多种应用。模型支持五种语言：中文、英语、日语、粤语和韩语。CosyVoice 包含三个开源模型：

CosyVoice-base-300M：擅长准确代表说话者身份，无需微调即可适应不同上下文，能够跨语言克隆声音。
CosyVoice-instruct-300M：能够生成富有情感表现力的语音，允许通过指令文本进行精细调整。
CosyVoice-sft-300M：已针对七位多语言说话者进行了微调，适合立即部署使用。

语音合成模型 CosyVoice 功能特点：

多语言支持：CosyVoice 支持包括中文、英文、日语、粤语和韩语在内的五种语言。
零样本学习：能够无需训练即可适应新说话者（zero-shot in-context learning），能够在不同语言之间复制声音。
情感共鸣：能够创建情感共鸣的声音， CosyVoice-instruct 版本通过情感指令显著提高了情感控制的准确性。
高质量语音合成：生成的样本在词错误率（WER）和说话者相似性方面达到人类水平。
语音定制化：能够根据特定说话者生成多语言语音，适应新说话者而无需训练。
语音克隆与风格迁移：支持在不同语言之间进行语音克隆和情感风格迁移。

部署和使用教程：【语音领域-又双叒更新】阿里开源FunAudioLLM: 2大核心模型、5大亮点功能！效果炸裂！手把手带你理论+实战部署推理!

CosyVoice: https://github.com/FunAudioLLM/CosyVoice
SenseVoice: https://github.com/FunAudioLLM/SenseVoice
FunAudioLLM论文报告: https://fun-audio-llm.github.io/pdf/FunAudioLLM.pdf
CosyVoice论文报告: https://fun-audio-llm.github.io/pdf/CosyVoice_v1.pdf
https://fun-audio-llm.github.io/
https://www.modelscope.cn/studios/iic/SenseVoice
https://www.modelscope.cn/studios/iic/CosyVoice-300M

参考链接

https://github.com/SWivid/F5-TTS
https://hf-mirror.com/amphion/MaskGCT
https://hf-mirror.com/fishaudio/fish-speech-1.4
https://github.com/RVC-Boss/GPT-SoVITS
https://github.com/FunAudioLLM/CosyVoice

CleanS2S-语音到语音 (S2S) 的原型智能体

https://github.com/opendilab/CleanS2S

CleanS2S 是一个语音到语音 (S2S) 的原型智能体，提供高质量的流式交互，并采用单文件实现。其设计简洁明了，旨在提供类似 GPT-4o 风格的中文交互原型智能体。该项目希望让用户直接体验语言用户界面 (LUI) 的强大功能，并帮助研究人员快速探索和验证 S2S pipeline 的潜力。

功能

📜 单文件实现

每个智能体管道的细节都放在一个独立的文件中。无需额外配置依赖项或理解项目文件结构。这对于那些想快速了解 S2S 管道并直接验证新想法的人来说，是一个很好的参考实现。所有管道实现都易于修改和扩展，用户可以快速更换喜欢的模型（例如 LLM）、添加新组件或自定义管道。

实时流式接口

整个 S2S 管道主要由 ASR（自动语音识别）、LLM（大型语言模型）和 TTS（文本转语音）组成，配合两个 WebSockets 组件接收器（包含 VAD）和发送器。管道设计为实时流模式，用户可以像人与人对话一样实时与智能体互动。所有音频和文本信息通过 WebSocket 流式发送和接收。为此，我们利用多线程和队列机制确保流过程顺畅，避免阻塞问题。所有组件都设计为异步和非阻塞，处理输入队列的数据并将结果输出到另一个队列。

🧫 全双工交互与打断机制

基于 WebSockets 提供的强大机制，管道支持全双工交互，这意味着用户可以同时与智能体对话和听取回复。此外，管道支持中断，用户可以在对话中随时通过新语音输入打断智能体。智能体将停止当前处理，开始处理新输入，并结合之前的对话和中断内容进行处理。此外，我们发现聊天机器人常用的“助理风格”和“轮流式”回应是人类对话的主要缺点之一。我们为智能体添加了更有趣的策略，以使对话更具互动性和吸引力。

🌍 网络搜索和 RAG

通过集成网络搜索功能和检索增强生成（RAG）模型，管道得到了进一步增强。这些功能使智能体不仅能实时处理和响应用户输入，还能从网络中获取和整合外部信息到响应中。这为回答用户提出的各种实际问题提供了扩展和灵活性。

WebSearchHelper 类负责根据用户查询进行在线搜索或收集与对话相关的附加信息。这使智能体能够参考最新或外部数据，增强响应的丰富性和准确性。
RAG 类实现了检索增强生成方法，首先从数据库中检索相关信息，然后使用这些信息生成响应。这一两步过程确保智能体的回复基于相关的事实数据，使互动更加知情和符合上下文。

快速上手

后端

安装

## clone the repository
git clone https://github.com/opendilab/CleanS2S.git
cd CleanS2S/backend
pip install -r requirements.txt

根据此处的说明安装 funasr 以支持 paraformer-zh
根据此处的说明安装 cosyvoice 以支持 CosyVoice-300M

下载模型

您需要下载以下四个必要的模型（3个 ASR 模型 + 1个 TTS 模型），可以通过以下链接下载，并放置在合适的目录中。

ASR: paraformer-zh, ct-punc, fsmn-vad
TTS: CosyVoice-300M

对于 LLM，我们默认使用 LLM API，您也可以按照下方的说明定制自己的本地 LLM（如 DeepSeek-V2.5、Qwen2.5 等）。

删除 --enable_llm_api 和 --lm_model_url 参数，修改 --lm_model_name 参数为您的本地 LLM 模型路径（例如 --lm_model_name /home/users/deepseek-v2.5）。

您还需要准备一个参考音频目录，其中包含用于韵律和音色转换的参考音频。我们在此仓库中准备了一个示例参考音频目录

如果您想使用自己的参考音频，需要保持与示例参考音频目录相同的格式。音频应为 10~20 秒长，发音清晰。

运行服务器

以下是使用默认设置运行服务器的示例：

export LLM_API_KEY=<your-deepseek-api-key>
python3 -u s2s_server_pipeline.py \
        --recv_host 0.0.0.0 \
        --send_host 0.0.0.0 \
        --stt_model_name <your-asr-path> \
        --enable_llm_api \
        --lm_model_name "deepseek-chat" \
        --lm_model_url "https://api.deepseek.com" \
        --tts_model_name <your-tts-path> \
        --ref_dir <ref-audio-path> \
        --enable_interruption

ℹ️ 支持自定义LLM：在这里，我们使用 deepseek-chat 作为默认 LLM API ，您也可以根据 OpenAI 接口更改为其他 LLM API。（修改--lm_model_name和--lm_model_url，设置您自己的 API 密钥）

ℹ️ 支持其他自定义：您可以参考后端管道文件（例如s2s_server_pipeline.py）中由argparse库实现的参数列表，根据自己的需求进行自定义。所有参数在其帮助属性中都有详细文档，易于理解。

使用 Websearch+RAG 运行服务器

您首先需要安装 Websearch 和 RAG 所需的依赖。

pip install -r backend/requirements-rag.txt

其次，为 RAG 中嵌入 Websearch 结果选择一个嵌入模型，例如以下嵌入模型：

git lfs install
git clone https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2

然后，为 Websearch 和 RAG 模块提供令牌，在s2s_server_pipeline_rag.py中，我们使用Serper作为 Websearch 工具，使用Deepseek进行 RAG 。

export LLM_API_KEY=''
export SERPER_API_KEY=''

最后，在运行服务器的示例代码中，将s2s_server_pipeline.py替换为s2s_server_pipeline_rag.py，并添加参数--embedding_model_name。

这是使用默认设置和 Websearch+RAG 运行服务器的示例：

python3 -u s2s_server_pipeline_rag.py \
        --recv_host 0.0.0.0 \
        --send_host 0.0.0.0 \
        --stt_model_name <your-asr-path> \
        --enable_llm_api \
        --lm_model_name "deepseek-chat" \
        --lm_model_url "https://api.deepseek.com" \
        --tts_model_name <your-tts-path> \
        --embedding_model_name <embedding-model-path> \
        --ref_dir <ref-audio-path> \
        --enable_interruption

前端

我们建议使用Docker镜像来安装和运行客户端。以下是具体步骤：

## 运行基本的Docker镜像
docker run -it -p 3001:3001 amazonlinux:2023.2.20231011.0 sh

## 安装必要的包
dnf install vim git nodejs -y
npm install -g pnpm
git clone https://github.com/opendilab/CleanS2S.git
cd CleanS2S/frontend_nextjs
pnpm install

在frontend_nextjs目录中准备适当的.env.local文件，您可以参考.env.example文件以获取所需的环境变量。

## 运行客户端
pnpm dev --port 3001

然后您可以在浏览器中访问客户端，地址为http://localhost:3001（推荐使用 Chrome 浏览器）。

附注：如果您想在本地运行客户端，请首先安装 node.js 和 pnpm ，然后使用 pnpm 安装必要的包并运行客户端。

MooER (摩尔): 基于8万小时训练数据的开源音频理解大模型

MooER: LLM-based Speech Recognition and Translation Models from Moore Threads

Github: https://github.com/MooreThreads/MooER
ModelScope: https://modelscope.cn/models/MooreThreadsSpeech/MooER-MTL-5K
Huggingface: https://huggingface.co/mtspeech/MooER-MTL-5K

paper：https://arxiv.org/abs/2408.05101

🎉🎉🎉我们发布了支持普通话输入的新 Omni （MooER-omni-v1）和语音转语音翻译 （MooER-S2ST-v1）模型。Omni 模型可以听到、思考和与您交谈！请在此处查看我们的演示。

在本工作中，我们推出了摩耳大模型（英文名：MooER）—— 一个由摩尔线程开发的、基于大语言模型（Large Language Model，LLM）的语音识别和语音翻译系统。通过摩尔框架，您可以基于大语言模型，以端到端的方式，将输入语音自动转录为文本（即语音识别），并将其翻译为其它语言（即语音翻译）。关于MooER的具体效果，您可以查阅下文中有关评测结果的部分。在我们公布的技术报告中，我们提供了更详细的实验结果，并分享了我们对模型配置、训练策略等方面的理解。

MooER是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型。依托摩尔线程夸娥（KUAE）智算平台，MooER大模型仅用38小时便完成了5000小时音频数据和伪标签的训练，这一成就得益于自研的创新算法和高效计算资源的结合。

MooER不仅支持中文和英文的语音识别，还具备中译英的语音翻译能力。在多个语音识别领域的测试集中，MooER展现出领先或至少持平的优异表现。特别值得一提的是，在Covost2中译英测试集中，MooER-5K取得了25.2的BLEU分数，接近工业级效果。摩尔线程AI团队在该工作中开源了推理代码和5000小时数据训练的模型，并计划进一步开源训练代码和基于8万小时数据训练的模型，希望该工作能够在语音大模型的方法演进和技术落地方面为社区做出贡献。

MooER主要功能：

语音识别：支持中文和英文的语音到文本的转换
语音翻译：具备中文语音翻译成英文文本的能力
高效率训练：在摩尔线程的智算平台上，快速完成大量数据的训练
开源模型：推理代码和部分训练模型已经开源，便于社区使用和进一步研究。

MooER 模型、实验：

深度学习架构:MoOER采用了深度学习技术，特别是神经网络来处理和理解语音信号端到端训练:模型从原始语音信号直接到文本输出，无需传统语音识别系统中的多个独立模块。
Encoder-Adapter-Decoder结构:
- Encoder:负责将输入的语音信号转换成一系列高级特征表示。
- Adapter:用于调整和优化模型对特定任务的适应性，提高型的泛化能力。
- Decoder(Large Language Model，LLM):基于这些特征生成最终的文本输出。
LoRA技术:使用LoRA(Low-Rank Adaptation)技术，一种参数高效的模型微调方法，通过只更新模型中一小部分参数来提高训练效率和效果。
伪标签训练:在训练过程中使用伪标签技术，即用模型自身的预测作为训练数据，以增强模型的学习能力。
多语言支持:MOOER支持中文和英文的语音识别，以及中译英的语音翻译，显示出其多语言处理能

MooER的模型结构

包括Encoder、Adapter和Decoder（Large Language Model，LLM）三个部分。其中，由Encoder对输入的原始音频进行建模，提取特征并获取表征向量。Encoder的输出会送到Adapter进一步下采样，使得每120ms音频输出一组音频Embedding。音频Embedding和文本的Prompt Embedding拼接后，再送进LLM进行对应的下游任务，如语音识别（Automatic Speech Recognition，ASR）、语音翻译（Automatic Speech Translation，AST）等。在模型训练阶段，融合了语音模态和文本模态的数据会按以下形式输入到LLM：

MooER的训练

我们使用开源的Paraformer语音编码器、Qwen2-7B-instruct大语言模型来初始化Encoder和LLM模块，并随机初始化Adapter模块。训练过程中，Encoder始终固定参数，Adapter和LLM会参与训练和梯度更新。利用自研的夸娥智算平台，我们使用DeepSpeed框架和Zero2策略，基于BF16精度进行训练和推理。经实验发现，训练过程中更新LLM参数能够提升最终音频理解任务的效果。为了提升训练效率，我们采用了LoRA技术，仅更新2%的LLM参数。具体的模型参数规模如下：

MooER 数据集：

该模型的训练数据MT5K（MT 5000h）由部分开源数据和内部数据构成，内部数据的语音识别标签均是由第三方云服务得到的伪标签。语音识别的伪标签经过一个文本翻译模型后，得到语音翻译的伪标签。我们没有对这些伪标签数据做任何的人工筛选。具体数据来源和对应的规模如下：

MooER实验结果：

我们将MooER与多个开源的音频理解大模型进行了对比，包括Paraformer、SenseVoice、Qwen-audio、Whisper-large-v3和SeamlessM4T-v2等。这些模型的训练规模从几万小时到上百万小时不等。对比结果显示，我们的开源模型MooER-5K在六个中文测试集上的CER（字错误率）达到4.21%，在六个英文测试集的WER（词错误率）为17.98%，与其它开源模型相比，MooER-5K的效果更优或几乎持平。特别是在Covost2 zh2en中译英测试集上，MooER的BLEU分数达到了25.2，显著优于其他开源模型，取得了可与工业水平相媲美的效果。基于内部8万小时数据训练的MooER-80k模型，在上述中文测试集上的CER达到了3.50%，在英文测试集上的WER到达了12.66%。

• Paraformer-large: 60,000 hours ASR data
• SenseVoice small: 300,000 hours ASR data
• Qwen-audio: 53,000 hours ASR data + 3700 hours S2TT data + …
• WhisperV3: 1000,000 hours weakly labels, 4000,000 hours pseudo labels
• SeamlessM4T2: 351,000 hours S2TT data, 145,000 hours S2ST data
• MooER-5K: 5,000 hours pseudo labels【伪标签】
• MooER-80K: 80,000 hours pseudo labels【伪标签】

建议：

与此同时，我们还得到一些有趣的结论，可以为数据资源和计算资源有限的开发者提供一些建议：

▼Encoder的选择。我们分别对比了无监督（Self-Supervised Learning）训练的W2v-bert 2.0、半监督（Semi-Supervised Learning）训练的Whisper v3和有监督（Supervised Learning）训练的Paraformer。我们发现，采用无监督训练得到的Encoder必须参与到训练过程中，否则模型很难收敛。综合考虑模型效果、参数量以及训练和推理的效率，我们选择Paraformer作为Encoder。

▼音频建模粒度很关键。我们尝试使用240ms、180ms和120ms的粒度进行建模，并发现这一参数对音频与文本的融合效果具有重要影响，同时会影响模型的最终效果和训练的收敛速度。经过评估，我们最终选择每120ms输出一个音频Embedding。

▼快速适应到目标垂类。我们仅使用了140h~150h的英文数据进行训练，可以在6个不同来源的英文的测试集上取得一定效果。同时我们尝试将任务迁移到语音翻译（AST）领域，取得了很好的效果。我们相信这个方法同样也适用于小语种、方言或其它低资源的音频理解任务。

▼LLM对音频理解任务的影响。我们发现，在模型训练过程中采用LoRA技术对LLM参数进行更新，可以使训练更快收敛，并且最终取得更好的效果。同时，音频理解任务上的效果也会随着基础LLM效果提升而提升。【LLM模型越大，效果越好。训练参数越多，效果越好】

加速训练：

优化了数据加载器部分，在相同配置下可以将训练速度提高4到5倍。同时，我们基于5000小时的训练优化了DeepSpeed的训练策略，并将其重新用于我们8wh内部数据的训练。对于需要解冻编码器的训练，我们使用梯度检查点技术以减少内存使用。我们使用基于Moore Threads的KUAE平台加速大型模型的训练。

训练参数：

应用场景：

实时语音转写:在会议、讲座、课堂等场合，MOOER可以实时将语音转换为文字，便于记录和回顾。
多语言翻译:支持中英文之间的语音翻译，适用于跨国会议、国际交流等场景。
智能客服:在客户服务领域，MOOER可以通过语音识别和翻译功能，提高客服的响应效率和服务质量。
语音助手:集成到智能手机、智能音箱等设备中，提供语音交互服务。
教育辅助:在语言学习中，MOOER可以帮助学习者进行发音校正和语言翻译,

📝 路线图

Technical report 技术报告
Inference code and pretrained ASR/AST models using 5k hours of data
使用 5k 小时数据的推理代码和预训练的 ASR/AST 模型
Pretrained ASR model using 80k hours of data
使用 80k 小时数据的预训练 ASR 模型
Traning code for MooER MooER 的训练代码
LLM-based speech-to-speech translation (S2ST, Mandrin Chinese to English)
LLM 基于语音的语音转语音翻译（S2ST，Mandrin 中文到英文）
GPT-4o-like audio-LLM supporting chat using speech
类似 GPT-4o 的音频LLM 支持使用语音聊天
Training code and technical report about our new Omni model
有关我们新 Omni 模型的培训代码和技术报告
Omni audio-LLM that supports multi-turn conversation
Omni audio-LLM，支持多轮次对话
Pretrained AST and multi-task models using 80k hours of data
使用 80k 小时数据的预训练 AST 和多任务模型
LLM-based timbre-preserving Speech-to-speech translation
LLM 基于音色保留的语音到语音翻译