zero-shot-tts – chenpaopao

ASR语音识别-MOE架构论文

MOE- Conformer :

Mixture-of-Expert Conformer for Streaming Multilingual ASR:https://arxiv.org/abs/2305.15663
Parameter-Efficient Conformers: https://arxiv.org/pdf/2209.08326

MoE Adapter: https://arxiv.org/pdf/2601.02967

论文：Mixture-of-Expert Conformer for Streaming Multilingual ASR

这篇论文 Mixture-of-Expert Conformer for Streaming Multilingual ASR 讨论的是一个更偏工业部署的问题：如何让一个流式端到端 ASR 模型同时支持多种语言，又不把推理成本推到端侧设备难以承受的程度。作者选择的路线是把 Mixture-of-Experts 放进 Conformer，把模型总容量做大，但每次推理只激活一小部分参数。

摘要：容量变大，激活参数不线性变大

论文提出的模型是在流式多语种 Conformer 中加入 MoE 层。MoE 层由多个 FFN 专家和一个 softmax gate 组成，每个输入帧只选择权重最高的两个专家参与计算。这样，专家总数可以增加，模型总容量也可以增加，但推理时激活的专家数固定，因此计算和激活参数不会随专家数量线性增长。

论文中的 gate 先对第 l 层输入 x 做线性映射，再通过 softmax 得到专家权重：

\( g_l=\mathrm{Softmax}(W_l\cdot x) \)

随后只取 top-2 expert，并把两个 expert 的输出按 gate 权重加权求和：

\( y=\sum_{i=1}^{2}g_{l,i}\cdot e_{l,i} \)

实验覆盖 12 个语言 locale。相对于 180M 参数的多语种 cascaded Conformer baseline，MoE-End 模型把平均 WER 从 11.33 降到 9.98，约 11.9% 相对改善。与同等总规模的 dense baseline 相比，MoE 达到类似 WER，但推理激活参数约为 211M，对比 dense 的 400M 更省。再结合多语种 neural LM 做 shallow fusion，平均 WER 还能进一步相对降低约 3%。

引言：多语种统一模型的容量问题

多语种端到端 ASR 的吸引力很直接：用一个模型识别多种语言，降低维护和部署复杂度。过去几年，CTC、LSTM、attention-based 模型以及流式 RNN-T 都在多语种 ASR 上取得了进展。尤其是端侧流式场景，模型既要有识别质量，又要满足低延迟和低计算。

经验上，模型容量越大，多语种 ASR 越容易受益。Whisper、USM 等大型模型也说明了大数据和大模型对语音识别质量的推动作用。但大模型的代价是训练和推理成本。对端侧应用来说，不能简单把模型扩大到数十亿参数。

已有一些效率方案依赖语言相关组件，比如按语言选择 adapter 或二阶段模型。但流式场景里，稳定预测语言信息本身就不容易，还可能引入错误传播。本文的 MoE 路线更直接：由输入表示动态选择专家，不需要显式语言标签，也不需要 ground-truth language information。

MoE Conformer：把专家放在 FFN 位置

基础模块是 Conformer。一个 Conformer layer 通常包含两个 FFN、中间的 self-attention 和 convolution。作者把 MoE 主要用于替换 Conformer 里的 FFN，尤其是 end FFN。每个 MoE 层包含多个 FFN 专家和一个 router。

对每一帧表示，router 通过 softmax 计算各专家权重，然后选出 top-2 专家。两个专家的输出按路由权重加权求和，得到该 MoE 层输出。训练和推理都使用 top-2。为了防止专家使用不均衡，论文加入辅助负载均衡损失，让不同专家都有机会被训练到。

这个设计的关键是稀疏激活。比如总共有 8 个、16 个或 24 个专家时，每帧仍只走两个专家。总参数代表模型潜在容量，激活参数代表推理成本；MoE 的优势就在于让这两者不再完全绑定。

实验设置

模型训练使用 RNN-T loss，并额外加入专家负载均衡项。论文中的 auxiliary loss 写成：

\( l_{\mathrm{aux}}=\frac{1}{N}\sum_{i=1}^{N}c_i\cdot m_i \)

其中 m_i 是第 i 个 expert 的平均 gate，c_i 是 top-2 路由中该 expert 被选择的计数。

数据

实验使用 12 个语言 locale：美式英语、中文、法语、德语、日语、美式西班牙语、西班牙西班牙语、阿拉伯语、意大利语、印地语、葡萄牙语和俄语。训练数据来自 Voice Search、YouTube 等多个域，总计约 139.4M 条人工转写匿名语音。不同语言数据量差异很大，从 0.5M 到 25.2M utterances 不等。

测试集来自 Voice Search 流量，每个语言大约 1.4K 到 10K 条 utterances，与训练集不重叠。评价指标是 WER；对中文等语言，论文按字符计算错误率。

模型细节

baseline 是一个语言无关的多语种 transducer 模型，包含 7 层 causal Conformer encoder 和 10 层 non-causal cascaded encoder。causal 部分保证流式，non-causal cascaded 部分提供约 0.9 秒右上下文。模型使用 separate decoders 分别服务 causal 和 non-causal encoder，以获得更好质量。baseline 总参数约 180M。

MoE 改造主要发生在 cascaded encoder。作者尝试替换 start FFN、end FFN 或两者都替换。最多使用 24 个专家，但每次训练和推理只选 top-2。输入特征为 128 维 log-Mel filterbank，经连续帧堆叠形成 512 维输入，并下采样到 30ms 帧率；训练中使用 SpecAug 增强鲁棒性。

结果与比较

消融实验

首先看 MoE 放在哪里。baseline 平均 WER 为 11.33。把 MoE 放在 start FFN，平均 WER 为 10.10；放在 end FFN，平均 WER 为 9.98；两处都放，平均 WER 最好，为 9.54。不过两处都放会增加推理激活参数。作者最终更多采用 MoE-End，因为它在质量和效率之间更均衡。

专家数量方面，8 experts 的 MoE-End 平均 WER 为 9.98；减少到 4 experts 后为 10.40；减少到 2 experts 后为 10.58。由于推理始终激活 top-2，专家总数减少主要影响总容量而不是激活参数。结果说明，额外专家确实被模型利用了。

MoE 层数也很重要。只在隔层使用 MoE，平均 WER 退到 10.50；只在第一个 Conformer 层使用 MoE，为 10.88。即便只加一个 MoE 层也比 baseline 好，但完整地在 end FFN 位置加入 MoE 才能发挥主要效果。

与 dense baseline 和 adapter 比较

与 180M baseline 相比，MoE-End 模型总参数约 400M，推理激活约 211M，平均 WER 从 11.33 降到 9.98。为了排除“只是模型变大”的因素，作者构造了一个同为 400M 的大 dense baseline。这个 dense 模型平均 WER 也是 9.98，但推理需要激活 400M 参数；MoE 只激活 211M，约为 dense 的 53%。

与基于 ground-truth language information 的 adapter 模型相比，MoE 的意义更明显。Adapter 模型依赖真实语言信息选择对应模块；MoE 不需要语言标签，只根据输入动态路由。把 FFN multiplier 调小并增加专家数后，16 或 24 experts 的 MoE 在平均 WER 上接近 adapter，但部署上少了语言信息依赖。

Shallow Fusion 进一步提升

作者还训练了一个 128M 左右的多语种 neural LM，并在解码时做 shallow fusion。文本数据来自 12 种语言的监督训练文本和额外 text-only 数据。加入 LM 后，MoE 模型平均 WER 从 9.98 进一步降到 9.68，约 3% 相对改善。

不过改善并非所有语言都一致。法语收益最大，中文和印地语出现退化。作者推测，中文退化可能与 text-only 数据里混入粤语转写有关；印地语则可能因为 text-only 数据规模很大但与 Search 域不完全匹配，需要更好的过滤策略。

结论：MoE 的部署价值在于“不需要语言标签”

这篇论文展示了 MoE 在流式多语种 ASR 中的一个清晰用途：用更大的总容量提升多语种识别质量，同时通过 top-2 稀疏激活控制推理成本。最重要的是，模型不依赖语言标签完成专家选择，这比 adapter 或 per-language expert 在真实部署中更省心。

从结果看，MoE-End 相对于 baseline 有 11.9% 平均相对 WER 改善；与同规模 dense 模型相比，达到类似质量但只激活约 53% 参数；与语言标签 adapter 相比，质量接近但路由更自动。对端侧、流式、多语种这三个约束同时存在的场景，这种“动态容量”思路很值得继续跟进。

快手论文：Parameter-Efficient Conformers，利用MOE进行模型裁剪

这篇论文 Parameter-Efficient Conformers via Sharing Sparsely-Gated Experts for End-to-End Speech Recognition 关注一个非常实际的问题：Conformer 在端到端语音识别里效果很好，但模型层数和参数量上来之后，训练、部署、端侧运行都会变重。作者的思路不是简单砍层，也不是只做普通的参数共享，而是把“共享 Conformer 块”和“稀疏门控专家”结合起来，让少量参数被重复使用，同时用 MoE 保住表示容量。

摘要：少参数，不想少能力

论文的核心目标是构造一个参数高效的 Conformer 编码器。传统跨层权重共享可以减少参数，但也会压缩模型容量，导致识别性能下降。作者提出的方案是在共享的 Conformer 块中加入 sparsely-gated MoE：第二个前馈网络不再是单一路径，而是一组专家，由路由器选择其中一个专家参与计算。这样总参数增加了一些，但每次前向只激活一个专家，计算量基本保持在非 MoE 模型的水平。

为了让共享块在不同深度位置仍能适配不同层级的表示，论文还让路由器和归一化层保持独立，而不是所有内容都共享。最后，作者用全参数模型作为 teacher，通过隐藏层表示的知识蒸馏进一步弥补共享模型的能力损失。实验显示，在 AISHELL-1 上，最终模型用约三分之一的编码器参数取得了接近全参数模型的 CER。

引言：Conformer 很强，但部署不轻

端到端 ASR 中，Transformer 和 Conformer 已经是很常见的编码器选择。Conformer 在 Transformer 的全局建模基础上加入卷积模块，更适合语音这种既有长程依赖、又有局部结构的序列。相对位置编码、Macaron 风格 FFN、卷积增强等设计，都让它在语音识别中表现稳定。

问题在于，这类模型往往参数冗余。直接堆很多层可以换来更强表达，但也带来显存、存储和推理成本。已有工作会通过跨层共享参数降低模型规模，类似让同一个 block 被重复调用多次。这个办法省参数，但副作用也明显：自由参数少了，模型容量下降，性能容易掉。

作者的切入点是：既然共享会损失容量，那就在共享块内部引入 MoE 来补容量；既然 MoE 可以稀疏激活，那就只让少数专家参与一次前向，避免计算量跟着总参数线性增长。这个组合特别适合“参数少、计算不能太贵”的场景。

背景：Conformer Seq2Seq ASR

论文使用的是 attention-based encoder-decoder 框架。编码器把声学特征序列变成高层表示，解码器按 token 逐步生成文本序列，训练时优化负对数似然，推理时用 beam search 找更可能的输出。

论文中先把 AED 的逐 token 预测概率写成下面这个形式，其中 y_<s 表示当前位置之前的 token 前缀：

\( P(y_s \mid y_{<s}, x)=\mathrm{Trfm}(y_{<s},x) \)

对应的最大似然训练目标，也就是负对数似然损失为：

\( L_{\mathrm{nll}}(\theta)=-\frac{1}{S}\sum_{s=1}^{S}\log P(y_s\mid y_{<s},x) \)

Conformer 块由两个 FFN、一个多头自注意力模块和一个卷积模块组成。两个 FFN 采用半步残差风格，注意力负责长程依赖，卷积负责局部模式。本文的 MoE 改造发生在第二个 FFN：作者把它替换成一个稀疏门控的专家集合，也就是 MoE-Conformer block。

论文把一个 MoE-Conformer block 的计算写成四步。最后一步中，第二个 FFN 被替换成 MoE 版本：

\( \begin{aligned} z_t^{(1)} &= z_t + \frac{1}{2}\mathrm{FFN}(z_t),\\ z_t^{(2)} &= z_t^{(1)} + \mathrm{MHSA}(z_t^{(1)}),\\ z_t^{(3)} &= z_t^{(2)} + \mathrm{Conv}(z_t^{(2)}),\\ \hat{z}_t &= \mathrm{LayerNorm}\left(z_t^{(3)}+\frac{1}{2}\mathrm{FFN}^{(\mathrm{MoE})}(z_t^{(3)})\right). \end{aligned} \)

方法：共享稀疏门控专家

Conformer 参数共享

作者把连续的 C 个 Conformer 块看作一组，再堆叠 G 组。不同组中相同位置的块共享参数，相当于一组块被递归调用 G 次。这样做的好处很直接：如果想要 12 次变换，不一定真的保存 12 套编码器参数，可以用更少的块反复计算。

但是共享不是白来的。共享块在浅层和深层面对的表示分布不一样，如果完全用同一套参数、同一套路由、同一套归一化统计，模型会很难同时适配不同深度的表示。因此后面两个设计，也就是独立路由器和独立归一化，就变得很关键。

MoE 动态路由

MoE 模块由 E 个并行 FFN 专家和一个 router 组成。对每个时间步的表示，router 输出各专家的概率，论文采用 top-1 选择，只激活得分最高的专家。也就是说，虽然模型里存着多个专家参数，但每次计算只走其中一个 FFN。

top-1 MoE 的路由过程如下。router 先产生各 expert 的 gate 分数，再选择最大分数对应的 expert：

\( \begin{aligned} g &= [g_0,\cdots,g_{E-1}]=\mathrm{softmax}(\mathrm{router}(z_t^{(3)})),\\ i^* &= \arg\max_{0\le i\le E-1} g_i,\\ \mathrm{FFN}^{(\mathrm{MoE})}(z_t^{(3)}) &= g_{i^*}\mathrm{FFN}_{i^*}(z_t^{(3)}). \end{aligned} \)

这个设计把“容量”和“计算”部分解耦：总参数更多，潜在表达空间更大；但激活参数不增加太多，推理计算仍接近普通 FFN。为了避免所有样本都挤向同一个专家，作者加入 load balancing loss，同时在训练时给 router 加高斯噪声，让专家选择更分散。

负载均衡损失用于鼓励 expert 被更均匀地使用：

\( L_{\mathrm{balance}}=E\sum_{i=0}^{E-1}f_i\bar{g}_i \)

独立路由器与归一化

论文没有把所有 MoE router 都一起共享，而是让每个 MoE 模块拥有自己的 router。直觉上，同一个共享块在第 1 次、第 6 次、第 12 次递归调用时，输入表示已经处在不同层级；如果路由路径完全一致，就会限制专家选择的灵活性。

归一化层也类似。LayerNorm、BatchNorm 的统计和缩放偏移参数对表示分布很敏感。作者让归一化模块保持独立，使不同层级的表示能够维持各自合适的统计状态。论文还把归一化中的 scale 和 offset 看作一种轻量 adapter，用很少参数增强共享块的适配能力。

隐藏层知识蒸馏

共享模型再聪明，毕竟参数少。作者用全参数 Conformer 编码器作为 teacher，让共享模型的编码器输出尽量接近 teacher 的隐藏表示。这里不是只蒸馏最终预测分布，而是直接约束隐藏 embedding 的 L2 距离。这样做的目的，是让小模型学习 full model 的中间表征轨迹。

hidden embedding 蒸馏损失直接约束 student encoder 输出 h_t 与 teacher encoder 输出 h_t' 的距离：

\( L_{\mathrm{kd}}=\frac{1}{T}\sum_{t=0}^{T-1}\lVert h_t-h_t’\rVert_2 \)

训练目标

最终损失由三部分组成：主任务的负对数似然、MoE 的负载均衡损失、隐藏层知识蒸馏损失。负载均衡项负责让专家不塌缩，蒸馏项负责让共享模型贴近全参数 teacher。论文还在实验中加入 CTC loss 来辅助对齐。

\( L=L_{\mathrm{nll}}+\frac{\alpha}{C}\sum L_{\mathrm{balance}}+\beta L_{\mathrm{kd}} \)

这里 C 是 MoE module 的数量，α 和 β 分别控制负载均衡损失与蒸馏损失的权重。

与已有工作的关系

MoE 常被用来扩大模型容量，尤其是在 NLP 大模型里，通过条件计算扩展到很大的参数规模。但这篇论文不是追求超大规模，而是把 MoE 当作参数高效工具：共享专家、重复使用专家，让少量模块发挥更大作用。

跨层权重共享也不是新想法，ALBERT、Universal Transformer 以及若干 ASR 工作都用过类似机制。本文的不同点在于，它没有只做朴素共享，而是在共享结构里加入稀疏专家，同时让 router 和 normalization 独立，从而减少共享带来的容量和分布适配问题。

实验：

实验设置

实验使用 AISHELL-1 普通话语音识别数据集：约 150 小时训练语音、18 小时开发集、10 小时测试集。输入特征为 80 维 FBANK，窗口 25ms、步长 10ms，并使用全局 CMVN、速度扰动、SpecAugmentation 和 time stretch 等增强手段。词表包含 4235 个中文字符以及起止符号。

模型前端是两层 CNN subsampling，把帧率降到 25Hz。编码器维度为 256，MHSA 使用 4 个头，卷积核大小 15，FFN 中间维度 1024。MoE-Conformer 的第二个 FFN 使用 4 个专家，解码器是 4 层 Transformer。训练 80 个 epoch，使用 PyTorch 和 FastMoE 实现。

结果与分析

主表里，全参数 C12 编码器参数量为 21.58M，测试集 CER 为 4.93。最终的 C2-MoE4-G6-KD 只有 6.95M 编码器参数，测试集 CER 为 5.03。换句话说，它用大约三分之一的编码器参数，做到了非常接近 full-parameter 模型的结果。

消融实验显示，单独减少块数会明显损伤效果，例如 C2 的测试 CER 为 6.50；加入 MoE 后，C2-MoE4 降到 6.22，说明专家机制确实补了一部分容量。再加入跨层共享递归计算后，C2-G6 为 5.62，而 C2-MoE4-G6 达到 5.08，说明“共享 + MoE”的组合比任一单独机制更有价值。

独立路由器和归一化的作用也很明显。C2-MoE4-G6 如果全部共享，测试 CER 为 6.00；只让归一化独立，降到 5.21；归一化和 router 都独立后，进一步到 5.08。这说明共享模型最怕的不是参数少本身，而是不同深度表示被迫使用完全相同的适配路径。

知识蒸馏带来的提升相对温和，但在 C2-MoE4-G6 上仍把测试 CER 从 5.08 推到 5.03。作者还通过输入输出 L2 距离观察模型内部变化：带独立 router 和 normalization 的共享模型更接近全参数 C12 的变化曲线，而全共享模型曲线更不稳定。

结论与未来方向

这篇论文的价值在于，它给出了一个较完整的参数高效 Conformer 方案：用跨层共享压缩参数，用稀疏 MoE 恢复容量，用独立路由器和归一化适配不同深度表示，再用隐藏层蒸馏补齐小模型表现。最终模型在 AISHELL-1 上以约三分之一编码器参数接近全参数模型。

它也留下了自然的后续问题：方法是否能在更大规模、多语种或更复杂的 ASR 数据集上保持优势？能否迁移到 RNN-T、CTC 或其他端到端 ASR 架构？从工程角度看，这类方案的吸引力很强，因为它不是单纯追求小模型，而是在“参数、计算、表达容量”之间做更细的拆分。

MoEAdapter for Large Audio Language Models: Sparsity, Disentanglement, and Gradient-Conflict-Free

这篇论文 MoE Adapter for Large Audio Language Models: Sparsity, Disentanglement, and Gradient-Conflict-Free 的问题意识很明确：大语言模型要理解真实世界，不能只看文本，音频是很重要的输入模态。但音频并不是一种均匀信号。语音、音乐、环境声承载的信息结构不同，如果用一个 dense adapter 把所有音频都压进同一个文本 embedding 空间，很容易出现参数更新方向互相冲突。

摘要：用专家分工处理异质音频

论文提出 MoE-Adapter，用稀疏 Mixture-of-Experts 替代传统的 dense audio adapter。它不是让所有音频 token 都通过同一套 FFN，而是用动态门控把 token 路由到若干专门专家，同时保留一定共享能力来捕捉全局上下文。这样，语音、音乐、环境声等不同属性可以在不同专家子空间中被建模，从而减轻梯度冲突。

实验基于 Qwen3-1.7B 骨干，音频前端使用 Whisper-VQ tokenizer 和 Whisper Encoder。作者在相同参数预算下比较 dense adapter 和 MoE-Adapter：两者总参数约 94.4M，但 MoE 因稀疏激活，推理时只激活约 70.8M 参数。结果显示，MoE-Adapter 在 MMSU、OBQA、MMAU 等音频理解和推理任务上均优于 dense baseline，并减少音频输入与文本输入之间的 modality gap。

引言：音频不是一种单一分布

大语言模型在文本推理上已经非常强，但只处理文本会限制它们感知现实世界的能力。音频包含人类说话、环境声音、音乐和情绪韵律等信息，是多模态智能绕不开的一环。当前许多大音频语言模型的主流做法，是加一个 adapter，把声学特征投影到 LLM 的文本语义空间里。

问题在于，很多 adapter 是 dense、参数共享的：所有音频都经过同一套投影层。这隐含一个假设，即不同音频类型可以被同一种映射均匀处理。作者认为这个假设过强。语音主要承载语义和语言结构，音乐更关注节奏、旋律和情感，环境声又有自己的声学模式。它们在表示空间中可能位于不同流形。

如果一个 dense adapter 同时学习这些相互差异很大的目标，不同数据类型的梯度可能朝相反方向更新同一组参数。这就是论文强调的 gradient conflict。MoE-Adapter 的贡献，就是用动态专家路由把这些冲突拆开：相似属性共享专家，冲突属性进入不同专家。

方法

整体框架

模型采用类似 Kimi-Audio 的 dual-stream 音频前端：一条路径用冻结 tokenizer 提取离散语义 token，另一条路径用 speech encoder 提取连续声学特征。两类表示经过投影和融合后，进入 adapter。

传统方案会用 dense adapter 把融合音频特征映射到 LLM embedding 空间。本文则用 MoE-Adapter 完成这一步。最终，adapted audio embeddings 与文本 token embeddings 拼接，作为 LLM 的输入，并用标准自回归 next-token prediction 训练。

稀疏 MoE Adapter

Dense adapter 可以看作一个单体 FFN：所有音频 token 都通过同一组权重。作者指出，这种设计强制同一组参数同时容纳异质音频，会形成不必要的优化干扰。

论文先把 dense adapter 写成单体 FFN 投影。给定音频 token x，输出 embedding 为：

\( y=\mathcal{N}\left(W_{d2}\cdot\sigma\left(W_{d1}\cdot\mathcal{N}(x)\right)\right) \)

MoE-Adapter 把单体 FFN 替换成专家集合。每个专家都是轻量 FFN，router 根据输入 token 计算各专家得分，并通过 Top-k 选择保留若干活跃专家。被选中的专家输出按门控权重聚合，形成中间表示。随后再经过输出投影和 LayerNorm，对齐到 LLM embedding 维度，用来替换输入序列中的音频占位 token。

每个 expert 本身也是一个轻量 FFN：

\( E_i(x)=W_{e2}^{(i)}\cdot\phi\left(W_{e1}^{(i)}\cdot\mathcal{N}(x)\right) \)

router 根据 logits s=xW_g 做 Top-k 稀疏选择，再 softmax 得到门控概率：

\( G(x)=\mathrm{softmax}\left(T_k(s)\right),\quad s=xW_g \)

被选中的 expert 输出按 gate 权重聚合，并经过最终投影对齐到 LLM embedding 空间：

\( h_{\mathrm{MoE}}=\sum_{i\in I}G(x)_i\cdot E_i(x) \) \( y_{\mathrm{MoE}}=\mathcal{N}\left(W_P\cdot h_{\mathrm{MoE}}\right) \)

这套机制有两个效果：一是稀疏激活降低推理成本，二是专家分工让不同音频属性进入不同子空间。对于语音、音乐、环境声这种天然异质输入，第二点尤其重要。

训练目标

训练目标由 next-token prediction loss 和 auxiliary load-balancing loss 组成。前者让模型基于音频上下文预测后续文本 token，是主任务；后者用于避免 expert collapse，即所有 token 都涌向少数专家。

总训练目标为 next-token prediction 与负载均衡项的加权和：

\( L=L_{\mathrm{NTP}}+\lambda L_{\mathrm{aux}} \)

其中主任务 NTP loss 写成：

\( L_{\mathrm{NTP}}=-\sum_{t=1}^{T}\log P(y_t\mid y_{<t},X;\theta) \)

负载均衡损失会同时考虑专家的重要性和实际负载，让不同专家都被充分训练。这里有一个微妙的取舍：过强的均衡可能压制某些自然形成的专家偏好，但完全不均衡又会损害高层语义推理的泛化。论文后面的消融和分析专门讨论了这个矛盾。

论文将 expert importance 与 expert load 分别定义为：

\( \bar{P}_e=\frac{1}{B}\sum_{b=1}^{B}p_{b,e} \) \( \bar{f}_e=\frac{1}{B}\sum_{b=1}^{B}r_{b,e} \)

最终 auxiliary loss 为：

\( L_{\mathrm{aux}}=|\mathcal{E}_R|\sum_{e\in\mathcal{E}_R}\bar{P}_e\cdot\bar{f}_e \)

实验

实验设置

LLM 骨干是 Qwen3-1.7B，音频前端使用 Whisper-VQ tokenizer 和 Whisper Encoder。训练语料规模为 40B token，优化器为 AdamW，学习率调度采用 Warmup-Stable-Decay。为了公平比较，dense adapter 与 MoE-Adapter 的总参数预算都限制在约 94.4M。

评测覆盖几类能力。MMAU 用于音频感知和副语言理解，覆盖 speech、sound、music 等场景；VoiceBench 中的 MMSU 和 OpenBookQA 子集用于世界知识和语义推理，它们是从文本推理基准改造来的音频版本。所有评测采用 greedy decoding，避免采样随机性干扰比较。

主结果

在知识推理任务上，MoE-Adapter 明显超过 dense baseline。MMSU 的 audio accuracy 从 35.03 提升到 38.19，OBQA 从 50.10 提升到 53.85。对比文本输入准确率，音频输入仍存在明显 gap，但 MoE 把这个差距分别缩小了约 3.16 和 3.75 个点。

在 MMAU 这类副语言和音频感知任务上，MoE-Adapter 也从 59.79 提升到 61.50。这个提升说明专家路由不仅对知识推理有用，也能帮助模型捕捉更复杂的声学线索。论文强调，MoE 的收益不是单纯参数变多，而是在相近总参数预算下更合理地分配表示能力。

消融实验

专家配置方面，默认的 “8 choose 4” 表现最均衡：MMAU 61.50、MMSU 38.19、OBQA 53.85。把专家数扩大到 “16 choose 4” 反而变差，说明专家总数不是越多越好。把路由变得过稀疏，例如 “8 choose 1”，也会显著伤害音频推理。论文的结论是，专家数量、激活数量和专家容量之间需要平衡，而不是盲目扩某一个维度。

负载均衡损失的消融更有意思。去掉 EBL 后，MMAU 从 61.50 升到 63.01，但 MMSU 和 OBQA 分别下降到 37.37 和 52.31。作者解释说，MMAU 很异质且含有大量低层声学感知样本，不加均衡时 router 会集中使用少数“强专家”，反而有利于这类感知任务；但这会减少专家多样性，损害需要世界知识和语义推理的任务

专家分工与优化动态分析

专家均衡如何影响路由

作者在 MMAU 上分析 speech、sound、music 三类样本的专家激活热力图。结果显示，模型确实学出了模态相关的专家分工：有些专家主要服务单一类别，有些专家在 sound 与 speech 或 sound 与 music 之间共享。值得注意的是，几乎没有专家同时专门服务 speech 和 music。

这个现象符合直觉：环境 sound 和 speech/music 都可能共享一些低层声学特征，因此可以作为“桥”；但 speech 和 music 在时间结构、语义组织上差异更大，不适合强行塞进同一个专家。EBL 并不会消灭这种分工，而是防止少数专家过度支配，保留一定均衡。

梯度冲突与缓解机制

论文用两个指标分析优化过程。第一个是不同音频类别梯度之间的 cosine similarity。dense adapter 中，不同类别的梯度经常出现负相似度，意味着一个类别的更新方向可能伤害另一个类别。MoE-Adapter 则把这些相似度推向更正的方向，说明专家路由减少了破坏性干扰。

第二个是 gradient influence score，用来衡量基于某一任务梯度做更新后，对另一个任务损失是帮助还是伤害。dense adapter 中，speech 的更新会明显伤害 music 和 sound；MoE-Adapter 中，影响分数更多为正，说明它不是简单隔离任务，还能通过共享专家保留有益迁移。例如 speech 对 sound 的更新可以产生正向帮助，而 music 的冲突被更好地隔开。

结论

这篇论文把 MoE-Adapter 定位为解决 LALM 音频异质性的结构工具。相比 dense adapter，它用动态专家分工缓解语音、音乐、环境声之间的梯度冲突，在相近参数预算下提升音频知识推理、副语言理解和跨模态对齐表现。更重要的是，论文不仅给出指标提升，也通过路由热力图、梯度相似度和影响分数解释了为什么 MoE 有效。

局限性

作者也明确指出了几个限制。第一，实验目前只在 Qwen3-1.7B 骨干上验证，方法是否适用于其他 LLM 家族或更大规模模型，例如 70B，还需要实验。第二，论文没有系统研究稀疏路由随训练数据规模增长的 scaling law。第三，当前任务集中在音频理解与推理，没有扩展到生成式音频任务。

附录：超参数和工程含义

附录强调，dense baseline 与 MoE-Adapter 在总参数预算上被严格对齐，约为 94.4M。MoE-Adapter 的活跃参数约为 70.8M，大约是 dense baseline 的 75%。共同音频前端包含 speech encoder、audio hidden projection 和 feature fusion；MoE 端则包含专家集合、gate network 和 aggregation block。

从工程角度看，这个设置很关键。它把论文的结论从“MoE 参数更多所以更强”拉回到“在可比预算下，稀疏专家分工更适合异质音频”。如果未来大音频语言模型要同时处理语音问答、环境声推理、音乐理解和情绪韵律，adapter 层可能不该再是一个单体投影器，而应该具备更细粒度的路由和分工能力。

Mega-ASR 面向“全场景复杂环境”高噪语音识别

论文链接：https://arxiv.org/abs/2605.19833
项目主页：https://xzf-thu.github.io/Mega-ASR/
GitHub Repo：https://github.com/xzf-thu/Mega-ASR
Hugging Face 模型：https://huggingface.co/zhifeixie/Mega-ASR
Hugging Face 数据集：https://huggingface.co/datasets/zhifeixie/Voices-in-the-Wild-2M
Bench: github.com/xzf-thu/Voices-in-the-Wild-Bench

Mega-ASR 是一个专门解决”真实世界语音识别翻车”问题的开源框架——它用涵盖54种噪声、回声、丢帧等复合场景的240万条数据训练，让模型在嘈杂现实环境下的词错误率降低30%+，同时大幅减少”听没了”和”乱编内容”这两种高频故障。解决的核心问题是：在各种嘈杂、失真、回声、断连的现实场景下，尽可能准确地把语音转成文字。模型基于 Qwen3-ASR-1.7B进行后训练，通过一套专门设计的数据集和训练方法来强化”恶劣环境下的识别能力”。

一、ASR 在「现实世界环境」为什么不行？

场景覆盖太窄：只解决噪音 / 远场单一问题，真实环境是复合干扰（噪音 + 混响 + 丢包一起上）。
复合鲁棒性缺失：缺乏对复杂环境的适应性，现实世界中的环境往往是多种因素共同作用的结果，很少模型能同时扛住多种失真叠加。
训练与真实不匹配：训练数据太简单（WER 4%–10%），遇到高难度场景（WER>30%）直接崩

二、数据：Voices-in-the-Wild-2M

大规模、高难度、物理合理的复合声学仿真数据集

现有语音数据集的 3 大致命问题：

只覆盖单一干扰：噪音 / 混响 / 远场分开做，不模拟真实复合环境
难度太 “温柔”：平均 WER 只有 4%–10%，训练不出强鲁棒模型
真实录音太少太贵：收集覆盖所有场景的真实录音成本极高、不可扩

为了推动这一更具挑战性场景下的研究，提出了 Voices-in-the-Wild-2M，一个基于频谱级代码驱动仿真（spectrogram-level code-based simulation）构建的大规模数据集。这种设计使得超大规模数据生成成为可能。

首先识别并定义了 7 类经典的现实声学效应，这些基础效应用于模拟各种物理环境或设备引起的退化现象：

真实退化现象	对应 Primitive
背景噪声	Additive Noise
延迟反射	Echo Delay
房间混响	Reverberation
削波失真	Nonlinear Distortion
带宽受限	Resampling
高频衰减	Spectral Filtering
音量不一致	Loudness Transformation
丢包/卡顿	Frame-level Stutter

设计了专门的频谱处理流水线，持续调整仿真参数，并利用 Qwen3-ASR 的监督微调（SFT）结果进行验证，直到模拟器在真实数据上的表现达到最佳拟合效果。

将这些原子效应组合成 54 种经过 Agent 验证的复杂声学配置，最终生成了 240 万条（2.4M）合成语音样本。

与直接枚举各种复杂真实环境不同，将野外环境（in-the-wild）中的语音退化过程划分为三个层级：

Primitive Acoustic Effects（基础声学效应）
Atomic Acoustic Effects（原子声学效应）
Compound Acoustic Scenarios（复合声学场景）

第一层：Primitive Acoustic Effects（基础声学效应）

用 DSP 手段实现最基本的声学退化组件

原子效应	核心基元组合	模拟真实场景
噪声（Noise）	加性噪声 + 响度归一	街道、咖啡馆、车内、人群
远场（Far-field）	混响 + 低通滤波 + 响度衰减	远距离说话、智能音箱远场
遮挡（Obstructed）	低通滤波 + 混响 + 衰减	隔门、隔窗、口罩、墙后说话
回声 + 混响（Echo&Reverb）	强混响 + 回声 + 高通	大厅、车库、体育馆、空旷房间
录制染色（Recording）	重采样 + 噪声 + 双带通滤波	手机外放再录制、设备串音
电子失真（Electronic Distortion）	非线性失真 + 低通	麦克风过载、削波、劣质录音
传输丢包（Transmission Dropout）	帧卡顿 + 响度归一	网络丢包、蓝牙不稳、流媒体卡顿

第二层：Atomic Acoustic Effects（原子声学效应）

在中间层，我们利用上述 Primitive Effects 构建了 7 种原子声学效应：

Atomic Effect	中文
Noise	噪声环境
Far-field	远场录音
Obstructed	遮挡语音
Echo & Reverb	回声与混响
Recording	录音链路效应
Electronic Distortion	电子失真
Transmission Dropout	传输丢失

一个 Atomic Effect 并不一定只对应一个 Primitive Effect。而是一个主导 Primitive + 若干辅助 Primitive。

比如：Far-field（远场）真实远场录音不仅仅是声音变小。通常同时具有：

声压衰减（Loudness）
高频损失（Spectral Filtering）
房间混响（Reverb）

第三层：Compound Acoustic Scenarios（复合声学场景）

最高层将多个 Atomic Effects 进行组合，比如视频会议

Far-field + Echo&Reverb + Recording

无论构建 Atomic Effect 还是 Compound Scenario，都保持 Primitive Effect 的固定执行顺序。为的是避免物理上不合理的处理链

关键创新：不是随机乱组合，而是按物理规则合成。

组合规则（保证真实不违和）

锚点效应（3 种）：远场 / 回声混响 / 遮挡（互斥，不同时出现）
修饰效应（4 种）：噪声 / 录制染色 / 电子失真 / 丢包（可叠加）

为了让难度 “均匀且可学习”，团队设计了全局 severity 参数 m ∈ [0,1]：

同一个音频里，所有失真共用一个 m
保证：要么整体简单，要么整体难，不会出现 “强混响 + 零噪音” 这种不自然组合

最终选用 Linear 线性分布：

简单、中等、困难样本均匀覆盖
训练最稳定、泛化最强

严格过滤保证可学习

剔除 WER > 70% 的样本（太难学不动）
保留物理合理组合
统一响度、统一格式、对齐标注

三、Mega-ASR

Qwen3-ASR 的基础上开发了 Mega-ASR-Base 模型

1. A2S-SFT：从声学 → 语义递进微调

解决：高失真下「听不清 → 猜不对」的连锁崩溃。分三阶段训练：

声学感知阶段：编码器 + 对齐器，按难度递进（WER<30% → <50% → <70%）
语义恢复阶段：冻结声学，只微调 LLM，学会从残缺信号还原语义
联合对齐阶段：全模块一起微调，声学与语义对齐

2. DG-WGPO：双粒度 WER 门控策略优化

解决：普通 WER 奖励在高失真下失效（只看词错，不管语义崩没崩）。设计两套奖励，按 WER 动态切换：

低 WER（<30%）：侧重词级别精细修正（软错误 / 硬错误区分）
高 WER（≥30%）：侧重句子级结构恢复（主干语义、长度、最长公共子串）

最终奖励 = 基础规则奖励 + 双粒度动态奖励

3. 环境感知路由（Router）

解决：鲁棒模型在干净音频上略有下降。

训练一个轻量二分类器，判断音频是否恶劣
恶劣 → 走 Mega-ASR
干净 → 走原生 Qwen3-ASR
推理开销 <1%，几乎无感

三、Experiments

Main results

采用自适应路由的通用 ASR 性能具有竞争力：MEGA-ASR 在干净语音和多语言基准测试上，相较于 Qwen3-ASR、Seed-ASR 和 Kimi-Audio 仍保持极强的竞争力。

声学扰动条件下达到当前最佳鲁棒性：相较于最强基线 Qwen3-ASR，MEGA-ASR 的错误率进一步降低了 17.4%；相较于 Gemini-3-Flash，则降低了 64.5%。

在组合式真实环境中的鲁棒性表现更优

在 Voices-in-the-Wild-Bench 基准测试中，MEGA-ASR 在多种真实世界退化条件下均取得了最佳性能，包括：

混合退化（mixed degradations）
远场语音（far-field speech）
录音伪影与设备缺陷（recording artifacts）

Analysis

通过消融实验，我们总结出五个关键观察（[Obs.1]–[Obs.5]），涵盖了语义层面收益、训练策略、奖励函数设计以及超参数敏感性等方面。相关证据分别来自表 5–9。下面对各项发现进行详细说明。

[Obs.1] MEGA-ASR 的收益不仅体现在 WER 上，也体现在语义层面指标上

表 7 显示，相比 Qwen3-ASR，MEGA-ASR 在语义层面指标上也取得了持续提升：

漏识内容（Missed Content）从 14.2 降低到 5.9。

这表明，MEGA-ASR 的改进不仅仅是降低词错误率（WER），还带来了更高层次的语义和整体理解能力提升，例如：

减少幻觉（Hallucination）；
减少整句或整段语音遗漏（Dropped Utterances）；

因此，MEGA-ASR 实现的是语义层面和整体层面的质量提升，而不仅是字词级别的识别优化。

[Obs.2] A2S-SFT 与 DG-WGPO 组件的消融分析

在 Voices 和 Noizeus 数据集上，对 A2S-SFT 各阶段以及 DG-WGPO 各组成部分进行了消融实验（表 5）。

分阶段的“声学到语义（Acoustic-to-Semantic）适配”过程是有效且必要的。
DAPO 作为强化学习阶段的基础优化框架。
句子级重构奖励对于中高错误率样本尤为关键。

[Obs.3] 基于规则的奖励函数与 LLM Judge 效果相当，但训练成本降低 3.2 倍

规则奖励已经能够充分捕获 LLM Judge 所提供的监督信号。

[Obs.4] 超参数消融实验

动态门控权重 αdyn 语义奖励权重 αs对模型性能的影响（表 8）

αdyn 所控制的权衡关系远比 αs 更敏感。

最终采用：

(αdyn, αs) = (0.6, 0.4)

因为它在所有测试子集上都达到最佳或接近最佳表现。

[Obs.5] 门控阈值 τ 的影响

过高的门控阈值会使门控机制过于严格（over-restrictive gating），从而限制奖励信号的有效传播，最终导致识别性能下降。

通过消融实验，得到以下核心结论：

MEGA-ASR 的收益不仅体现在 WER，还体现在语义完整性与内容保真度上。
A2S-SFT 的渐进式声学→语义适配以及 DG-WGPO 的各奖励组件均对性能提升至关重要。
规则奖励能够以接近 LLM Judge 的效果实现训练，同时将计算成本降低 3.2 倍。
动态门控权重 αdyn 是最敏感的超参数，最佳设置为 0.6。
门控阈值 τ=0.3 能在不同场景下取得最均衡的鲁棒性表现。

NIM4-ASR: 高效鲁棒可定制的实时LLM语音识别

paper: https://arxiv.org/abs/2604.18105

面向生产部署的 LLM-ASR 框架，系统解决轻量化、幻觉抑制、热词定制三大痛点。基于 phoneme-level encoder 预训练减少模态差距，引入 Iterative Asynchronous SFT（IA-SFT）防止 representation drift，设计 ASR 专用 RL 提升识别质量，并以 phoneme RAG 实现百万量级热词定制。

音频 → 600M Conformer Encoder（phoneme CTC 预训练，CKA 监控 drift）
                    ├── 流式：dynamic-chunk mechanism（预训练期内嵌）
                    └── phoneme CTC head → 音素假设
         MLP Adapter（4x 下采样，160ms/token）
                    ↓
              Qwen3-1.7B（LLM 解码器）
                    ↑
         Phoneme RAG：音素假设 → 检索热词数据库（<1ms）→ Prompt 注入

训练 pipeline：
    Stage1: Encoder 预训练（phoneme CTC，CR-CTC）
    Stage2: Alignment（仅训练 Adapter，冻结其余）
    Stage3: IA-SFT（异步并行，CKA 监控 encoder 稳定性）
    Stage4+5: Late Joint SFT + Context SFT + ASR-RL

Challenge

1、Limited downward scalability

在实际部署中，尤其是实时语音交互场景下，轻量级 ASR 模型由于推理延迟更低、计算成本更小因此更受青睐。然而，基于 LLM 的 ASR 在模型缩小后的性能表现并不理想：比如Qwen3-ASR-0.6B、Fun-ASR-nano这类轻量版本相比完整大模型存在明显性能差距。除了模型缩小本身带来的性能下降外，LLM-ASR 还额外承担了一种：模态税（modality tax），

即：模型中有相当一部分参数并不是直接用于 ASR 任务，而是用于跨模态对齐（cross-modal alignment）。这种结构性开销会导致轻量 LLM 真正可用于 ASR 的有效容量更少，从而带来不成比例的性能下降。

2、幻觉问题（Hallucination）

除了自回归 LLM 天生存在的 hallucination（幻觉）问题之外，encoder–adaptor–LLM 联合训练范式还会引入额外风险。

在联合优化过程中由于：LLM 梯度更强、LLM 语言先验更强。 encoder 会逐渐被拉向LLM 的优化目标，导致 encoder 的表示逐渐偏移到 LLM 的文本特征空间，称之为representation drift（表示漂移），导致encoder 会越来越依赖语言捷径（linguistic shortcuts）而不是精细声学信息（fine-grained acoustic fidelity）。在噪声、发音模糊、音频不清晰的声学歧义场景下会加重幻觉问题。

3、缺乏工业级热词定制能力（Lack of production-ready hotword customization）

为了解决上述问题，提出了面向工业部署的 LLM-ASR 框架 NIM4-ASR，重点优化推理效率和系统鲁棒性。

提出了一种基于原则的多阶段训练范式
优化了流式处理支持
音素级 RAG 用于热词定制

Methodology

Model

encoder–adaptor–LLM 架构

1、音频特征提取

80 维 log-Mel 频谱，窗长（window）：25 ms 帧移（frame shift）：10 ms，全局均值方差归一化

2、Streaming speech encoder

编码器采用FireRedASR-AED Conformer，一个 4 倍下采样卷积模块多层 Conformer Block 堆叠，输出帧率 25Hz，为了支持流式推理，训练阶段会模拟streaming 约束，将其改造成chunk-based streaming encoder

3、Speech adaptor

两层 MLP，将 encoder 输出映射到 LLM 的 embedding 空间，4倍下采样，将连续 4 帧特征进行拼接，帧率从 25 Hz 降到 6.25 Hz，每个 token 160ms。

4、Phoneme-level CTC head and RAG module

三层 MLP，将 encoder 表示解码为 phoneme hypothesis（音素假设），greedy decoding。RAG 模块会根据这些音素序列检索 hotword 数据库，将热词作为上下文提示注入 prompt

5、LLM decoder： Qwen3-1.7B

Training Recipe

与以往主要依赖经验微调的工作不同，首先对当前基于 LLM 的 ASR 系统的实际局限性及其根本原因进行了系统性的分析，结果表明跨模态差距和表征漂移问题仍未得到充分解决。基于这些见解，我们对训练流程进行了全面重新设计。如图 2 所示，NIM4-ASR 的方法论改进主要体现在四个核心训练阶段：编码器预训练、对齐、IA-SFT 和后期联合 SFT。除了这四个阶段的流程之外，我们在后期联合 SFT 之后进一步加入了上下文 SFT 和强化学习（RL），以增强上下文建模和鲁棒性。具体步骤如下所述。

第一阶段：编码器预训练

为了缩小编码器表征与 LLM 嵌入空间之间的模态差异，采用了一种改进的连接主义时间分类（CTC）变体 ——即 CR-CTC 作为预训练目标。如图 2 所示，预训练期间的模型架构由编码器和 CTC 头组成。与先前工作中常用的基于注意力机制的编码器-解码器（AED）相比，CTC 鼓励编码器生成低熵、音素区分性强的表征，使其与 LLM 的嵌入空间更自然地对齐，从而减少跨模态对齐的开销，并为自动语音识别（ASR）任务保留更多模型容量

将监督标签从字符级转移到音素级，明确地将编码器的容量用于声学到音素的映射，而不是过早地进行语义锚定，同时鼓励语言学习模型（LLM）更多地关注语义推理。这种设计实现了声学建模与语义推理的更清晰解耦，提高了两个模块的角色专业化程度。此外，采用音素预测作为预训练目标，鼓励编码器学习语言依赖性较弱的底层声学表征，从而为扩展到新的语言和方言提供更大的潜力。

为了赋予编码器原生流媒体处理能力，在预训练阶段引入了动态分块机制。具体来说，编码器在分块流媒体约束下处理完整的语音，其中每个批次的块大小和可见左侧上下文块的数量都是动态采样的。这使得编码器能够适应各种流媒体配置，从而实现灵活操作，以适应不同部署场景下不同的延迟预算。

Stage 2: Alignment & Stage 3: IA-SFT

在传统的训练范式中，对齐和联合 SFT 是在预训练完全完成后依次执行的。如图 2 所示，我们为 NIM4-ASR 提出了一种编码器迭代机制，该机制允许在预训练完成之前开始对齐，而 IA-SFT 在对齐完成后启动，并与剩余的预训练过程异步进行。为了确定何时初始化或更新对齐和 IA-SFT 使用的编码器，我们使用中心核对齐（CKA）跟踪编码器表示的动态变化。CKA 将不断演化的编码器与在整个预训练过程中初始化并定期更新的参考检查点进行比较。给定从同一评估集中提取的两组编码器表示 E(a),E(b) ，CKA 定义为

第二阶段：对齐。 预训练达到 50 万步后，我们开始监测编码器，此时编码器开始呈现相对稳定的优化趋势。我们将 50 万步时的编码器快照作为初始参考检查点，之后每隔 1 万步预训练评估一次 CKA。当演化中的编码器与当前参考检查点之间的 CKA 分数首次低于预定义阈值.在对齐过程中，编码器和 LLM 均被冻结，仅训练适配器。在我们的设置中，首次触发发生在预训练约 101 万步时，对齐阶段持续 130 万步

第三阶段：IA-SFT。 对齐完成后，我们在联合 SFT 之前执行 IA-SFT 作为中间阶段。IA-SFT 保持编码器冻结，并基于异步预训练过程生成的编码器快照序列训练适配器-LLM 堆栈。具体步骤如下：

（i）初始化与监控。IA -SFT 在对齐完成后开始，使用从对齐过程中继承的编码器进行 100 万步的训练，同时编码器预训练并行进行。CKA 评估从之前更新的参考检查点恢复，并每隔 1 万步预训练步骤重复进行一次，监控表征偏移。

（ii）CKA 触发更新。 每当 CKA 分数低于预定义阈值时，当前预训练编码器的快照就会热插拔到 IA-SFT 分支中，并相应地更新参考检查点。

(iii）最终更新。 更新周期（ii）重复进行，直到预训练达到其 200 万步的最大值。预训练完成后，无论 CKA 得分如何，都将应用最终编码器更新，并且 IA-SFT 运行最后 200 万步。

在我们的实现中，IA-SFT 使用 101 万步预训练时的编码器检查点进行 100 万步训练，再使用 132 万步预训练时的编码器检查点进行 100 万步训练，最后使用完全预训练的编码器进行 200 万步训练——总共在三个编码器版本上进行了 400 万步训练。在 IA-SFT 过程中，编码器保持冻结状态，但会定期从异步预训练过程中更新，从而保持声学基础。这使得模型能够在不出现表征漂移风险的情况下加深跨模态对齐。从课程学习的角度来看，IA-SFT 逐步将 LLM 暴露于更精细的编码器表征中，使其能够学习不变模式并提高对声学扰动的鲁棒性。此外，由于对齐和 IA-SFT 与预训练异步运行，因此整个训练流程仍然保持高效。

Stage 4: Late Joint SFT

在编码器预训练和 IA-SFT 完成后，语音表征与 LLM 嵌入空间之间建立了稳健的初始跨模态映射。随后，我们执行后期联合 SFT，其中编码器、适配器和 LLM 以端到端的方式联合优化。与传统的联合训练相比，由于前期阶段已经最小化了模态差异，LLM 梯度引起的表征漂移风险显著降低。因此，这些梯度主要作为微调信号，无缝地优化声学到音素的映射以及音素到语义的关联。从几何角度来看，前期的对齐阶段建立了一个稳定的跨模态流形，使后续优化处于损失函数曲面的低曲率区域。在该区域内，梯度更新是对决策边界和流形几何结构的局部优化，而不是引起大规模的拓扑重构。

Stage 5: Context SFT

首先从训练语料库构建关键词集 S 。所有转录文本均被解析以提取候选短语，然后使用 Qwen3-30B-A3B-Instruct进行过滤，以保留命名实体，例如人名、兴趣点（POI）、媒体名称和专有名词。在训练过程中，我们提高长时长话语的采样比例，并按照以下模板，将从 S 中采样的关键词以概率方式注入到提示中作为上下文提示:

每个训练实例，我们首先从转录文本中存在的 S 中提取相关关键词。此外，对于每个关键词，我们以一定的概率从 S 中提取发音相同或高度相似的另一个关键词作为干扰项。相关关键词和干扰项被连接起来，然后添加到 {context} 字段中。干扰项的加入可以防止语言学习模型 (LLM) 过度依赖上下文线索而牺牲语义合理性。在此阶段，编码器、适配器和 LLM 会进行联合训练。

此阶段的设计目的在于实现热词定制，而非跨回合对话的一致性。对于多回合场景，还可以将从对话历史中提取的关键词添加到当前提示中。这种策略以紧凑的形式保留了关键的上下文信息，同时保持了比句子层面方法更低的推理延迟。

Stage 6: ASR Specialized RL

GRPO,奖励函数：

Accuracy reward
Hallucination reward
Context reward

Additional Stage: Phoneme Head Training for RAG

完成强化学习（RL）阶段后，主训练流程结束。接下来，我们引入一个额外的阶段来训练图 1 所示的 RAG 模块所需的音素头。在该阶段，编码器继承强化学习后检查点的结构和权重并保持冻结状态，而音素头则从预训练的 CTC 头初始化并保持可训练状态。训练目标和配置与预训练阶段一致。经过微调后，音素头可以将编码器表示转换为音素假设，供后续检索模块使用。

Training Setup

Robustness enhancement under noisy and silent conditions。应用了多种数据增强技巧来提高模型的鲁棒性。除了标准的 SpecAugmentation 和速度扰动之外，我们还随机地将一些真实的声学干扰（例如人声、车辆噪声和背景音乐）注入到 20%的干净训练样本中，以模拟具有挑战性的真实世界环境。这些噪声注入的信噪比（SNR）是从均值为 10 dB、标准差为 5 dB 的正态分布中随机抽取的。

Inference

优化流式推理

Encoder 与 LLM 解耦部署，Encoder 部署在 Triton，Adaptor + LLM 部署在 vLLM，CTC Head + RAG 部署在 CPU

Prompt 结构设计

[Static Prefix]
↓
[Streaming Speech Embeddings] 增量 append 到 context
↓
[Dynamic Hotword Context] 动态更新热词

两种 Streaming ASR Paradigm：

增量假设刷新（hypothesis refresh）
vs
incremental context extension（增量上下文扩展）

| 方案                  | hypothesis refresh | incremental extension |
| ------------------- | ------------------ | --------------------- |
| 历史是否重复 decode       | 是                  | 否                     |
| KV Cache 是否重建       | 经常                 | 基本不                   |
| 是否实时 partial output | 强                  | 弱                     |
| TTFT                | 更低                 | 略高                    |
| Tail latency        | 高                  | 低                     |
| 适合场景                | 长会议                | 实时语音助手                |

Phoneme-based RAG（音素级热词检索）

文本 -> 音素序列，使用 Aho-Corasick 自动机，采用 Hard Matching不做模糊匹配，Retrieval Error 比 Retrieval Miss 更危险。

为了实现高效的热词定制，NIM4-ASR 构建了一个基于音素的热词数据库以及相应的检索算法，如图 1 所示。将每个热词文本预先转换为音素-词元序列，并将其存储为键值对，其中键是音素序列，值是对应的热词文本。这些音素序列首先根据音素词汇表转换为离散索引，然后使用 Aho-Corasick 自动机算法重构为带有失败链接的 trie 树。在推理过程中，编码器上的音素头通过贪婪解码生成音素假设，这些假设被转换为索引序列，并由自动机在一次遍历中扫描完成。当无法扩展部分匹配时，自动机将沿着失败链接找到最长的有效后缀状态，而不是从头开始重新搜索，从而能够以假设长度的线性时间复杂度检索所有候选热词。

为了减少冗余的上下文提示，我们采用了一种最长匹配过滤策略：被较长跨度完全覆盖的较短匹配项将被丢弃，仅保留最长的实体。例如，如果热词“NIO”和“NIO House”在同一假设中同时匹配，则仅保留“NIO House”。检索到的热词文本随后被连接起来，并与语音嵌入一起作为上下文提示注入到 LLM 提示中，从而为解码提供上下文感知的偏置。由于索引级映射的存储效率以及 Aho-Corasick 自动机的线性时间复杂度（仅取决于查询长度而非数据库大小），热词数据库可以轻松扩展到数百万条记录，同时保持每次查询的亚毫秒级检索延迟。

值得注意的是，我们的热词定制旨在优化命名实体（例如地点名称和媒体标题）的识别，这类热词数据库可能非常庞大，并且可能包含大量语音相似甚至同音的条目。为了确保在这种大规模环境下的检索精度，我们在 RAG 模块中采用了硬匹配策略，仅检索精确的音素序列匹配，而非近似匹配或编辑距离最小的匹配。经验表明，检索漏检通常比检索错误危害更小，因为 LLM 仍然可以利用内部语言知识和上下文恢复正确的实体。相比之下，软匹配更容易引入相似但错误的热词，即使模型在一定程度上能够应对噪声上下文提示，这些错误热词仍然会干扰解码。

Evaluation

总结：

NIO 车载场景出发的工业论文，偏向工程落地。phoneme-level encoder 预训练、IA-SFT 防 drift、ASR-RL、百万热词 RAG——每个模块都是真实生产痛点的解法。CKA 动态监控 encoder 表示偏移这个手段很细。但核心数据不公开，学术可复现性为零；”25 个 benchmark SOTA”要打折——主要赢在内部实体密集场景；Streaming 支持是”优化了”而非”重新设计了”。热词检索口音/方言效果差。未来将对话历史作为附加上下文信息纳入多轮交互场景，以提高跨轮次转录的一致性。

Qwen3.5-Omni：新一代大规模原生全模态大模型

Qwen3.5-Omni 是 Qwen 最新一代全模态大模型，支持文本、图片、音频、音视频理解。结构上，Qwen3.5-Omni 的 Thinker 与 Talker 均采用 Hybrid-Attention MoE 架构。Qwen3.5-Omni 系列包含 Plus、Flash、Light 三种尺寸的 Instruct 版本，支持 256k 长上下文，模型支持超过 10 小时的音频输入及超过 400 秒的 720P（1 FPS）音视频输入。模型在海量文本、视觉以及超过 1 亿小时的音视频数据上进行原生多模态预训练，该模型展现出卓越的全模态感知与生成能力。相比 Qwen3-Omni，Qwen3.5-Omni 多语言能力大大增强，能够支持 113 种语种和方言的语音识别和 36 种语种和方言的语音生成。

论文标题: Qwen3.5-Omni Technical Report
论文链接: https://arxiv.org/abs/2604.15804v1
代码链接: https://modelscope.cn/studios/Qwen/Qwen3.5-Omni-Demo

Qwen3.5-Omni 延续采用 Thinker-Talker 架构，Thinker 通过 Vision Encoder 和 AuT 接受视觉和音频信号输入，音视频信号通过 interleave 交织并搭配 TMRoPE 编码位置信息。Thinker 负责处理全模态信号并输出文本，Talker 负责接收来自 Thinker 的多模态输入以及文本输出，进行 contextual 语音生成，语音表征通过 Qwen3-Omni 提出的 RVQ 编码来替代繁重的 DiT 运算。由于 chunk-wise 的流式输入设计和流式 Talker 设计，整个模型可以进行 realtime interaction。不同于上一代 Qwen3-Omni 的双轨 Talker 输入，Talker 在输入的组织方式上采用了 ARIA（自适应速率交错对齐，Adaptive Rate Interleave Alignment）来动态对齐文本与语音单元，然后进行交错排布，以避免由于文本与语音 Token 编码效率差异导致的语音不稳定性，如漏读、误读或数字发音模糊等问题。

论文最重要的结论可以概括为三点：第一，模型规模扩展到数千亿参数级，并支持 256k 上下文；第二，训练使用了异构图文数据和超过 1 亿小时的音视频数据；第三，Qwen3.5-Omni-Plus 在 215 个音频与音视频理解、推理、交互子任务上达到强竞争力，尤其在音频理解、ASR、语音翻译和语音生成上表现突出。

1. 模型定位：从多模态理解走向全模态交互

Qwen3.5-Omni 处理的输入包括文本、图像、音频、无声视频和带音频的视频，输出则覆盖文本和流式语音。论文强调它是“native omni agent model”：模型不仅能感知和回答，还能进行 WebSearch、FunctionCall、实时语音交互和 Audio-Visual Vibe Coding，也就是从音视频指令中直接生成可执行代码。

从输入建模上看，不同模态会被转换为统一 token 序列。可以把它抽象为：

\( X = [x_{\mathrm{text}};\ f_{\mathrm{audio}}(a);\ f_{\mathrm{vision}}(v)] \)

其中 \(f_{\mathrm{audio}}\) 是 AuT 音频编码器，\(f_{\mathrm{vision}}\) 是视觉编码器，Thinker 在统一序列上生成文本级高层表示，Talker 再基于 Thinker 的输出生成流式语音 token。

2. 模型设计：Thinker-Talker + Hybrid MoE

Qwen3.5-Omni 延续 Qwen2.5-Omni 和 Qwen3-Omni 的 Thinker-Talker 架构，但在可扩展性、长上下文和流式语音上做了明显升级。

Thinker：负责文本生成和跨模态理解。它接收文本、音频、图像、视频的统一表示，并支持 chunk-wise streaming input processing。
Talker：负责语音生成。它接收 Thinker 的高层表示和当前轮文本输出，生成 RVQ codec token，再由 Code2Wav 渲染为波形。
Hybrid Attention MoE：Thinker 和 Talker 都采用 Hybrid MoE Transformer。论文特别提到其中的 Gated Delta Net 有助于长音视频序列建模，降低 KV-cache I/O 压力，提高吞吐和并发。
长上下文能力：模型输入支持 256k token，约等价于超过 10 小时音频，或 400 秒 720P 视频（1 FPS）。

在感知端，文本使用 Qwen3.5 tokenizer，词表从 150k 扩到 250k，论文称多数语言的编解码效率提升 10% 到 60%。音频被重采样到 16kHz，转成 128 通道 Mel 频谱，使用 25ms 窗口和 10ms hop。AuT 音频编码器从头训练，使用 40M 小时音频文本对，经过 4 个 Conv2D block 下采样 16 倍，输出约 6.25Hz 的音频 token，也就是每个输出帧约对应 160ms 原始音频。

在视频和音视频同步上，论文不再只依赖稀疏的绝对时间位置 ID，而是在每个视频或音视频 temporal patch 前插入秒级 timestamp 文本，并在音频序列中随机插入 timestamp。这会略微增加上下文长度，但能让模型更自然地学习时间码，尤其适合长视频和长音频场景。

3. ARIA：解决流式语音中的文本-语音速率错配

论文中最值得关注的创新之一是 ARIA（Adaptive Rate Interleave Alignment）。在流式语音生成中，文本 token 和语音 codec token 的编码效率不同。如果二者对齐不好，就容易出现跳词、发音错误、数字读法混乱、语音不自然等问题。

Qwen3.5-Omni 不再采用固定 interleaving 速率，也不依赖 MFA 这类外部对齐，而是把文本和语音 token 统一到一个单通道交错序列中，并施加自适应速率约束。可简化表示为：

\( \frac{N_{\mathrm{speech}}(y_{\le t})}{N_{\mathrm{text}}(y_{\le t})} \le \frac{N_{\mathrm{speech}}(y)}{N_{\mathrm{text}}(y)} \)

这里 \(y_{\le t}\) 表示当前生成前缀，\(N_{\mathrm{speech}}\) 和 \(N_{\mathrm{text}}\) 分别表示前缀中的语音 token 数和文本 token 数。直观理解是：任何前缀中的语音生成进度都不能跑得比该样本整体文本-语音比例更快。这样既保留流式输出，又减少双轨同步开销。

Talker 的语音 codec 采用 RVQ 多码本表示，并通过 MTP 模块预测当前帧的残差码本。可以抽象为：

\( P(c_t^1,\ldots,c_t^K \mid c_{<t}, h) = \prod_{k=1}^{K} P(c_t^k \mid c_t^{<k}, c_{<t}, h) \)

其中 \(h\) 是 Thinker 提供的上下文表示，\(c_t^k\) 是第 \(t\) 帧第 \(k\) 个 codec codebook token。随后 causal ConvNet 逐帧把 codec token 转为波形，从而支持低延迟流式合成。

4. 数据与训练流程

Qwen3.5-Omni 的训练覆盖纯文本、图文、视频文本、音频文本、视频音频和视频音频文本等数据。论文披露了几个关键规模：

总体使用超过 1 亿小时音视频内容。
AuT 音频编码器使用 40M 小时音频文本对训练，由 Qwen3-ASR 生成监督信号。
Talker 初始阶段使用超过 20M 小时多语言语音数据，并配合多模态上下文。
第二阶段预训练使用约 4T token，其中 text 0.92T、audio 1.99T、image 0.95T、video 0.14T、video-audio 0.29T。
支持范围：文本 201 种语言/变体，语音输入 113 种语言/方言，语音输出 36 种语言/方言。

预训练分为三阶段。S1 是 Encoder Alignment，冻结 LLM，分别训练视觉和音频编码器及 adapter；S2 是 General Stage，解冻所有参数，用多模态混合数据训练，序列长度为 32,768；S3 是 Long Context Stage，把最大长度提升到 262,144，并提高长音频、长视频占比。

后训练也分 Thinker 和 Talker。Thinker 使用三阶段策略：专门教师模型蒸馏、on-policy distillation，以及面向多轮交互的强化学习。Talker 使用四阶段策略：通用训练、长上下文 CPT、DPO/GSPO 偏好优化，以及轻量 speaker fine-tuning，用于增强自然度、表现力、语音可控性和零样本/定制音色能力。

5. 流式延迟与并发

论文给出了端到端首包延迟。单并发下，Qwen3.5-Omni-Flash 的音频输入首包延迟为 235ms，视频输入为 426ms；Qwen3.5-Omni-Plus 分别为 435ms 和 651ms。8 并发下，Flash 的音频/视频整体延迟为 352ms/1625ms，Plus 为 955ms/1980ms。

需要注意，论文明确说明 Flash 和 Plus 因模型规模、部署资源和并行策略不同，不适合做严格横向延迟比较。更关键的结论是：ARIA、chunked prefilling、MTP 和 streaming ConvNet 共同把首包语音延迟控制在可交互范围内。

6. 实验结果：理解能力基本不牺牲，音频能力明显增强

文本能力：Qwen3.5-Omni-Plus 基本保持了 Qwen3.5-Plus-NoThinking 的文本能力。比如 MMLU-Pro 为 85.9 vs 86.8，MMLU-Redux 为 94.2 vs 94.3，C-Eval 为 92.0 vs 92.3，LiveCodeBench v6 为 65.6 vs 67.1。值得注意的是 IFBench 上 Omni-Plus 为 52.6，略高于文本基线的 51.1。

音频理解与 ASR：与 Gemini-3.1 Pro 相比，Qwen3.5-Omni-Plus 在多个音频任务上更强。MMAU 为 82.2 vs 81.1，MMSU 为 82.8 vs 81.3，RUL-MuchoMusic 为 72.4 vs 59.6，VoiceBench 为 93.1 vs 88.9。ASR 方面，Fleurs top60 WER 为 6.55，低于 Gemini-3.1 Pro 的 7.32；LibriSpeech clean/other 为 1.11/2.23，也明显低于 3.36/4.41。

视觉与视频：Qwen3.5-Omni-Plus 在视觉任务上接近 Qwen3.5 文本/视觉基线，并在部分视频任务上更好。例如 RealWorldQA 为 84.1，高于基线 79.1；VideoMME w/o subtitles 为 81.9，高于 81.0；MLVU 为 86.8，高于 85.1；LVBench 为 71.2，高于 68.6。这说明音视频联合训练没有明显损伤视觉能力，反而增强了动态视觉场景的表现。

音视频理解：在 AudioVisual → Text 任务中，Qwen3.5-Omni-Plus 在 DailyOmni 上达到 84.6，高于 Gemini-3.1 Pro 的 82.7；Qualcomm IVD 为 68.5，高于 66.2；Omni-Cloze 为 64.8，高于 57.2。但它在 WorldSense、AV-SpeakerBench、VideoMME with audio 和 OmniGAIA 上仍低于 Gemini-3.1 Pro，说明音视频综合推理和工具使用仍有改进空间。

语音生成：在 SEED-TTS 零样本语音生成中，Qwen3.5-Omni-Plus 的 WER 为 test-zh 0.99、test-en 1.26，优于 Qwen3-Omni-30B-A3B 的 1.07/1.39，也在英文子集上超过 CosyVoice 3 的 1.45。多语言语音生成中，论文称 Qwen3.5-Omni 在 29 个评测语言中有 22 个取得最低 WER，并在多数语言上有更高 speaker similarity。

跨语言与定制音色：跨语言语音生成中，Qwen3.5-Omni 在 12 个方向中 10 个最好。比如 Chinese-to-Korean 错误率为 4.03，而 CosyVoice3 是 14.4，相对降低约 72%。定制音色方面，论文在 2026 年 3 月通过官方 API 对比 ElevenLabs、Gemini-2.5 Pro-Preview-TTS、GPT-Audio-2025-08-28 和 MiniMax-Speech-2.8-HD，Qwen3.5-Omni 在 29 种语言中有 10 种取得最佳 WER，并在日语、韩语等场景表现突出。

7. 关键创新点

全模态 Agent 化：模型不只回答问题，还能执行 WebSearch、FunctionCall，并展现 Audio-Visual Vibe Coding 能力。
Thinker-Talker 的 MoE 升级：Thinker 和 Talker 都采用 Hybrid MoE，兼顾长上下文、多模态建模和服务并发。
ARIA 对齐机制：用自适应文本-语音速率约束替代固定对齐，改善流式语音的稳定性、韵律和发音自然度。
多码本流式语音生成：RVQ token、MTP 和 causal ConvNet 组合，让语音可以从首个 codec frame 开始增量合成。
时间戳显式建模：在音视频 patch 中插入文本 timestamp，提升长视频、长音频的时间感知和跨模态同步。
大规模多语言训练：覆盖 113 种语音输入语言/方言和 36 种语音输出语言/方言，扩展了 ASR、TTS、跨语言 voice cloning 的边界。

8. 局限

这篇技术报告给出了大量指标，但仍有几个需要谨慎理解的地方。第一，Qwen3.5-Omni-Plus 和 Flash 的延迟数字不适合严格横比，因为部署资源和并行策略不同。第二，音视频综合任务并非全面领先 Gemini-3.1 Pro，尤其 WorldSense、AV-SpeakerBench、VideoMME with audio 和 OmniGAIA 仍有差距。第三，模型训练数据规模很大，但数据构成和过滤细节仍是技术报告级披露，不等于完全可复现。

总体来看，Qwen3.5-Omni 的意义在于把全模态模型从“看图、听音、回答”推进到“实时听看、连续说话、保持长上下文、能调用工具”的阶段。它的架构亮点不只是参数更大，而是通过 Hybrid MoE、ARIA、多码本 codec 和显式时间戳，把模型服务、流式交互和多语言语音生成这些工程难点一起纳入设计。

SoulX-Duplug 面向全双工语音对话系统即插即用流式状态预测模型

Demo Page:
https://soulx-duplug.sjtuxlance.com/
Technical Report: 技术报告：
https://arxiv.org/pdf/2603.14877
Source Code:
https://github.com/Soul-AILab/SoulX-Duplug
HuggingFace:
https://huggingface.co/Soul-AILab/SoulX-Duplug-0.6B
SoulX-Duplug-Eval:
https://huggingface.co/datasets/Soul-AILab/SoulX-Duplug-Eval
基于SoulX-Duplug的双工对话系统：
https://github.com/Soul-AILab/SoulX-Duplug/tree/dialogue-system

SoulX-Duplug —— 一款面向全双工语音对话系统的即插即用流式状态预测模块。SoulX-Duplug 旨在解决当前语音对话系统中实时交互能力不足、系统响应延迟高、模块耦合严重等问题。通过将语音活动检测（VAD）、语音识别（ASR）与对话轮次判断（Turn Detection）统一建模，SoulX-Duplug 可以帮助传统的半双工语音系统在无需修改原有模型架构的情况下，快速获得全双工语音交互能力。项目还开源了 SoulX-Duplug-Eval，一个面向全双工语音对话系统的双语评测基准，以促进该领域更标准化和可比较的研究。

Introduction

传统语音对话系统通常采用半双工（Half-Duplex）交互模式：系统在用户说话时只能“听”，而在系统回答时用户则无法打断。这种严格分离的听说流程，使得交互节奏显得机械，也限制了真实对话中常见的打断（interruption）、停顿（pause）、附和（backchannel）等行为。相比之下，全双工语音对话系统允许系统在生成回复的同时持续监听用户输入，从而支持更加自然的实时互动体验。

近年来，一些端到端全双工语音模型开始出现，但这类方法通常将语言生成与交互控制强耦合在同一个模型中，带来了新的挑战：

模型训练难度高
数据需求巨大
交互策略难以控制
系统扩展性受限

在实际工业系统中，更常见的方案是通过 VAD + ASR + Turn Detection 等模块组成级联流水线，为半双工系统提供基本的全双工能力。然而，这种方式也存在明显问题：

传统 VAD 仅依赖声学特征，缺乏语义理解
非流式 ASR 会带来额外延迟
多模块级联导致系统响应速度下降

领域内目前仍缺乏开源的流式 semantic VAD 方案。SoulX-Duplug 正是在这样的背景下提出的一种独立、可扩展的解决方案。通过将语音交互中的双工控制能力从对话模型中解耦为独立模块并进行开源，SoulX-Duplug 旨在缓解全双工模型在数据规模与系统扩展性方面的挑战，使语音对话模型的优化能够更多聚焦于记忆能力、推理能力与共情能力等核心智能能力，而不必始终受到全双工交互机制的复杂约束。与此同时，通过引入文本引导的流式状态预测机制，SoulX-Duplug 能够更准确地理解用户语义意图，并在模块化架构下尽可能降低系统延迟，从而实现更自然、高效的实时语音交互体验。

SoulX-Duplug

Overview

SoulX-Duplug 是一个面向实时语音交互场景设计的统一流式状态预测模块。与传统基于多模块级联的全双工语音系统不同，SoulX-Duplug 在单一模型框架中同时完成：

语音活动检测（VAD）
流式语音识别（ASR）
对话状态预测（Dialogue State Prediction）

通过统一建模这些任务，SoulX-Duplug 能够在持续音频输入的情况下实时理解用户语音内容，并动态预测对话交互状态，从而实现更自然的全双工语音互动。总体架构上，SoulX-Duplug 采用 GLM-4-Voice speech tokenizer 以12.5Hz 的频率提取离散语音 token，取 160ms (2 token) 的处理窗口流式交替生成语音识别文本与对话状态 token。这种设计使模型能够通过语音识别理解语义并判断当前对话状态，从而实现低延迟的交互控制。

State Token Design

为了刻画全双工语音对话中的交互动态，SoulX-Duplug 定义了五种核心状态 token：

user_idle 表示当前音频片段不包含语义信息，例如静音或背景噪声。
user_nonidle 表示用户正在进行具有语义内容的语音输入。
user_backchannel 表示用户“嗯”“对”等 backchannel 行为。
user_complete 表示用户当前语句在语义上已经完成，系统可以接管对话轮次并进行回复。
user_incomplete 表示用户虽然暂时停顿，但语句在语义上仍未结束，系统需要继续等待用户输入。通过这种定义方式对对话状态进行了清晰、结构化的建模。

Speech Input Modeling

采用 GLM-4-Voice tokenizer，以 12.5 Hz 的频率提取音频 token：

Ad=[ad,1,ad,2,…,ad,N]

该 tokenizer 是一种 block-causal（块因果）语音 tokenizer，在大规模语音数据上预训练，可作为双语语音理解的基础编码器

在流式推理中：

使用 block size = 12 进行音频 token 生成
每一步处理：
- 目标窗口（target window）：160 ms
- 左上下文（look-back）：960 ms
- 右上下文（look-ahead）：40 ms

因此总感受野（receptive field）为： 1160 ms，共提取 15 个 token。目标区域对应的 token 与 block 中的倒数第二和倒数第三个 token 对齐。随后，通过一个线性 encoder projector，将 Ad 的 embedding 映射为特征 A，以匹配 LLM 的 embedding 维度：

A=MLP(Ad)

文本引导的流式状态预测

为了在流式状态预测中显式引入语义信息，我们创新性地引入了联合 ASR 目标，并设计了交错预测范式（interleaved prediction）：

{A1,T1,S1,A2,T2,S2,…,AT,TT,ST}

每个 160 ms 音频块对应两个音频 token：

At=[a_t,1,a_t,2]

在历史上下文 H_t−1条件下，模型首先预测当前块的 ASR token 序列：

Tt∼P(Tt∣A≤t,T<t,S<t)

其中Tt：与第 t 个音频块对齐的流式 ASR 输出，在生成 Tt 之后，模型进一步预测对话状态 token：

St∼P(St∣A≤t,T≤t,S<t)

St：当前音频块对应的全双工对话状态

这种交错式设计在保持流式推理能力的同时，使状态预测能够获得显式的语义引导。

Training Objective

由于不同类型的 token（例如文本 token、<asr_eos> 以及各种状态 token）在长序列中的出现频率差异较大，我们采用加权的 token 级训练目标。

设：

Y：完整的目标 token 序列
yj：第j 个 token

整体损失定义为：

其中：

L_CE(y_j)：预测 token y_j 的交叉熵损失
τ(yj)：将 token 映射到其所属类型（如 ASR token / state token）
λτ(yj)：针对不同 token 类型设置的权重系数，用于在不同类别之间进行训练平衡

三阶段混合训练+ Teacher-Forced 推理

设计了三个顺序训练阶段：

非流式 ASR 预训练。目标：学习基础语音识别能力
流式 ASR 适配。目标：让模型适应 streaming 场景
全双工状态预测微调。目标：强化实时对话管理能力（state prediction）

Hybrid 训练-推理策略。SoulX-Duplug 采用训练与推理不完全一致（hybrid）的策略：

训练阶段（第 3 阶段）：

端到端联合优化：
- VAD + ASR + 状态预测

推理阶段：

使用一个轻量级外部 ASR 模型（如 SenseVoice Small）
为每个 chunk 提供：
- teacher-forced 的流式 ASR 输出

这个设计的本质：

训练时学“联合建模能力”，推理时用更强/更稳的 ASR 来“喂语义”，提升稳定性和效率。

算法延迟

每个 audio chunk = 160 ms
用户语音在 chunk tit_iti 内结束

由于模型是流式的：

必须等到下一个 chunk ti+1 才能确认“后面没有语音”

在处理ti+1 时：

检测到没有语音（VAD = silent）
判定 <|user_nonidle|> 结束
决策：
- <|user_complete|>（语义完成）
- 或 <|user_incomplete|>（语义未完成）

由于语音结束点在 chunk 内均匀分布：

平均等待时间：80 ms（= 160 / 2）
再加一个 chunk：160 ms

最终：

Latencyavg=80 ms+160 ms=240 ms

SoulX-Duplug-Eval

为了解决现有全双工语音对话基准中跨语言评测资源不足的问题，我们构建了补充性的测试集，用于提升不同模型之间的可比性，并在对话状态预测与系统级全双工对话两种评测设置下，实现标准化与公平比较。

提出 Easy Turn testset-En，作为原始 Easy Turn testset 的英文对应版本。

该数据集主要用于全双工状态预测（duplex state prediction），包含两类数据：

Complete（完整句）

共 318 条样本
内容为语义完整的 utterance
由 ChatGPT 生成，并使用 ChatTTS2 [36] 合成

Incomplete（不完整句）

共 299 条样本
内容为语义不完整的 utterance
同样由 ChatGPT 生成并通过 ChatTTS2 合成

为了支持中文场景下的系统级评测，我们构建了 Full-Duplex-Bench-Zh，作为 Full-Duplex-Bench的中文版本。

该数据集覆盖四种具有代表性的交互场景，所有文本均由 ChatGPT 生成，并通过最先进的 TTS 系统合成。

包括：

Turn-Taking 子集（轮次切换）：用户连续说话数秒随后 15 秒静音，评估是否正确判断用户说完
Pause Handling 子集（停顿处理）：单条 utterance 中插入多个停顿，区分自然停顿和语义未结束
User Backchannel 子集（用户附和）：短 backchannel（如“嗯”“对”），防止模型误抢话
User Interruption 子集（用户中断/续说）：是否识别“用户未说完”，是否正确预测 <|user_incomplete|>

实验

训练设置

中文数据总计约 47,000 小时。英文数据共计约 31,000小时。

在流式 ASR 训练中：

首先获取 字符级或词级对齐（alignment）【使用 Paraformer3 /WhisperX 生成时间戳】
将数据重组为 基于 chunk 的交错格式（interleaved chunk-based format）

状态预测训练阶段（State Prediction Stage）：

英文数据：

使用 Fisher 数据集 [14]
规模：千小时级

中文数据：

使用内部构建的约 万小时级语料
构造方式与 Fisher 保持一致

数据标注与清洗流程：

先进行对齐（alignment）
中文数据：
- 使用 双 ASR 一致性过滤
数据增强：
- 全局添加 Musan 噪声
- 在静音片段加入 ESC-50 噪声
状态标签：
- 使用 Qwen2.5-72B-Instruct进行自动标注

SoulX-Duplug 模型：

语音编码器：预训练 GLM-4-Voice tokenizer
LLM backbone：Qwen3-0.6B [48]
speech tokenizer：全程冻结（frozen）

训练策略

ASR 预训练 LLM：全量微调 adapter：全量微调
状态预测阶段对 LLM 使用 LoRA ，rank = 32，训练数据：双语 trainsets

推理设置

使用 teacher-forcing ASR 提供更准确文本引导【中文：Paraformer，英文SenseVoice Small】

为了评估 SoulX-Duplug 的对话状态控制能力：Qwen2.5-7B-Instruct + IndexTTS-1.5

评测指标（Metrics）

Takeover Rate (TOR)
Response Latency (RL)
Resume Rate (RsR)
Respond Rate (RpR)
Stop Latency (SL)

结果

为了验证 SoulX-Duplug 在真实系统中的效果，团队以 SoulX-Duplug 作为对话状态控制模块构建了一个完整的全双工语音对话系统，并在中英双语的 Full-Duplex-Bench 基准上对系统进行了全面评测，该 benchmark 涵盖了：Turn Taking（轮次切换）、Pause Handling（停顿处理）、User Backchannel（用户附和）、User Interruption（用户打断）等多种全双工对话关键场景。

实验结果表明，基于 SoulX-Duplug 构建的系统在多个评测维度上取得了稳定且均衡的整体表现。在整体的 turn management 能力上优于现有模型，并在总体响应延迟指标上同样表现优异。这一结果充分验证了 SoulX-Duplug 的对话状态控制能力以及在系统构建中的实用价值。

同时，实际部署环境中 SoulX-Duplug 的独立模块的平均延迟约为 250ms，接近其理论延迟 240ms。这一结果显著优于传统基于 VAD 的方案（约 500ms），也低于近期提出的 FlexDuo 模块（约 343ms）。

Further Discussion

围绕全双工语音对话系统（FD-SDS）的设计与部署形成了若干观察与思考：

1、小 chunk 流式 ASR 识别效果较差

采用非常小的 chunk size 进行流式 ASR 在本质上仍然具有较大挑战。当 chunk 时长较短时，声学片段经常会跨越音素、音节或词边界被切分。这一问题在英语中尤为明显，因为单词很容易被切分到相邻的多个 chunk 中，从而导致识别不稳定以及瞬时错误。因此，在严格低延迟约束下，预测波动在一定程度上是不可避免的。此外，在实时流式场景中，基于 LLM 的方法虽然具有较强的上下文建模能力，但其上下文仍受限于增量解码（incremental decoding）以及有限的未来信息。因此，基于 LLM 的 ASR 模型在“解码速度与识别准确率的综合权衡”方面，并不一定优于传统结构（如 RNN-T）。

2、模块化系统 vs 端到端系统

尽管近年来端到端全双工语音对话模型（FD-SDMs）在经验表现上取得了较强效果，并展现出较大潜力，但它们通常需要大规模训练数据与较高计算资源。相比之下，模块化系统更易于实现与维护。当系统出现性能问题时，可以在不重新训练整个系统的情况下，对单个模块进行调整或替换。这种灵活性使得模块化设计在实际部署中可能更具优势

最后，目前的研究工作对实时应用的支持仍然相对有限。仍然需要更加成熟且易用的开源流式语音编码器与 ASR 模型。持续推进这一方向的发展，将有助于真正实现可落地的全双工语音对话系统（FD-SDSs）。

Qwen3-Omni ：原生端到端的多语言全模态大模型

Qwen3-Omni ，这是一个原生端到端的多语言全模态基础模型。它旨在处理包括文本、图像、音频和视频在内的各种输入，同时提供文本和自然语音的实时流式响应。

主要特点：

原生全模态：Qwen3-Omni是原生全模态大模型，预训练全模态不降智。
强大的性能：Qwen3-Omni在36项音频及音视频基准测试中斩获32项开源SOTA与22项总体SOTA，超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强模型，同时其图像和文本性能也在同尺寸模型中达到SOTA水平。
多语言：Qwen3-Omni支持119种文本语言交互、19种语音理解语言与10种语音生成语言。
更快响应：Qwen3-Omni纯模型端到端音频对话延迟低至211ms，视频对话延迟低至507ms。
长音频：Qwen3-Omni支持长达30分钟音频理解。
个性化：Qwen3-Omni支持system prompt随意定制，可以修改回复风格，人设等。
工具调用：Qwen3-Omni支持function call，实现与外部工具/服务的高效集成。
开源通用音频Captioner：开源Qwen3-Omni-30B-A3B-Captioner，低幻觉且非常详细的通用音频caption模型，填补开源社区空白。

模型架构：

Qwen3-Omni采用Thinker-Talker架构：Thinker负责文本生成，Talker专注于流式语音Token生成，直接接收来自Thinker的高层语义表征。为实现超低延迟流式生成，Talker通过自回归方式预测多码本序列：在每一步解码中，MTP模块输出当前帧的残差码本，随后Code2Wav合成对应波形，实现逐帧流式生成。

创新架构设计AuT：音频编码器采用基于2000万小时音频数据训练的AuT模型，具备极强的通用音频表征能力。MoE：Thinker与Talker均采用MoE架构，支持高并发与快速推理。多码本技术：Talker采用多码本自回归方案——每步生成一个编解码帧，MTP模块同步输出剩余残差码本。
全模态不降智在文本预训练早期混合单模态与跨模态数据，可实现各模态混训性能相比纯单模态训练性能不下降，同时显著增强跨模态能力。
卓越的语音对话与指令跟随能力Qwen3-Omni在语音识别与指令跟随任务中达到Gemini-2.5-Pro相同水平。
实时音频和音视频交互AuT，Thinker, Talker + Code2wav全流程全流式，支持首帧token直接流式解码为音频输出。

Qwen3-Omni models

Qwen3-Omni-30B-A3B-Instruct：包含 thinker and talker ，支持音频、视频和文本输入，并可输出音频和文本。
Qwen3-Omni-30B-A3B-Thinking：包含 thinker ，配备思维链推理功能，支持音频、视频和文本输入，并输出文本。
Qwen3-Omni-30B-A3B-Captioner：基于 Qwen3-Omni-30B-A3B-Instruct 微调的下游音频细粒度字幕模型，能够为任意音频输入生成细节丰富、低幻觉的字幕。它包含thinker ，支持音频输入和文本输出。

Introduction

当前多模态的训练会出现一种模态的提升伴随着其他模态的退化，该工作探索在当前主流的基于大语言模型（LLM）的范式下实现集成式多模态训练，证明了联合多模态训练可以在所有模态上实现性能均衡，即不存在模态特异性的性能下降，同时显著增强跨模态能力。关键在于：在文本预训练的早期阶段混合单模态和跨模态数据。

关键：在文本预训练的早期阶段混合单模态和跨模态数据。预训练早期的多模态融合允许语言模型与视觉或音频共同训练，而不会导致语言能力下降；文本模态的加入显著提升了视觉和音频的性能，但从视觉或音频信号中并未观察到语言能力的显著提升；从经验来看，加入音频数据可以持续提升视觉模态在 MMMU 基准和 OCR 相关任务上的表现。

Qwen3-Omni 对 Qwen2.5-Omni的架构进行五项关键升级：

Thinker 与 Talker 均升级为 MoE（专家混合）结构，提升模型容量与任务适应性。
使用自研的 AuT（Audio Transformer）编码器替换Whisper编码器，该编码器在 2000 万小时的有监督音频上从零训练而成，能够提供更强的通用音频表示能力。AuT 使用分块窗口注意力（block-wise window attention），以实现实时的 prefill 缓存。
在语音生成端，引入多码本表示，其更高的表达容量有助于更真实地建模多样化的音色、超语段要素以及声学现象。
Talker 从单轨 codec 建模升级为多轨 codec 建模，通过 MTP 模块自回归地预测多个码本层；同时波形生成阶段用轻量级卷积网络（ConvNet）替代了分块式 DiT。
输入与输出音频码率均降低至 12.5 Hz，且输出 codec 支持单帧、即时的语音合成。

此外，还有四个大的改进：

支持超过 40 分钟的长音频理解；
扩展语言覆盖范围：支持 119 种书写语言、19 种口语理解语言，以及 10 种口语生成语言；
Thinking 模式实现全模态推理，包括音频—视频场景与仅音频场景；
流式性能进一步提升，端到端延迟最低可达 234 毫秒。

最核心的是 Qwen3-Omni 在文本与视觉模态上保持了与同规模单模态 Qwen 模型一致的最先进性能，没有出现性能退化。

Architecture

Thinker 与 Talker 均采用 Mixture-of-Experts（MoE）架构，以支持高并发与快速推理。
Talker 不再只使用 Thinker 的高级文本表征，而是基于音频与视觉的多模态特征进行条件建模。其设计动机如下：
(i) 对于文本内容而言，离散 token 与其 embedding 在信息量上基本等价；
(ii) 多模态条件对于音频–视频协调的语音生成（例如在语音翻译中保持韵律/音色）是必要的。
此外，这种解耦使外部模块（如 RAG、函数调用、安全过滤器）能够对 Thinker 的文本输出进行干预，并在需要时通过受控预处理将文本输入给 Talker，用于流式合成。
由于文本表征被解耦，Thinker 和 Talker 可以使用不同的系统提示语（system prompts），从而分别控制 Thinker 的文本响应风格与 Talker 的音频生成风格。
Talker 采用多码本（multi-codebook）自回归方案：每一步生成一个 codec 帧，剩余的残差码本由 MTP 模块预测完成。
Code2Wav 以轻量级因果卷积网络（causal ConvNet）实现，简化了音频合成的最终阶段。

在训练和推理过程中，Talker 直接接收来自 Thinker 的高维多模态特征，并共享完整的对话历史。因此，整个系统作为一个整体运行，实现端到端训练与统一推理。

Audio Transformer (AuT)

Audio Transformer（AuT）是一种注意力式的 encoder–decoder 模型，如图 3 所示，在 2000 万小时的有监督音频数据上从零训练而成。训练过程中，音频的滤波器组特征（filter bank features）在进入注意力层之前，通过 Conv2D 模块进行 8 倍下采样，将 token 速率降至 12.5 Hz。为了学习更强大、更通用的音频表示，AuT 在大规模音频数据集上进行训练，涵盖语音识别与音频理解任务。具体而言，训练数据组成如下：

80% 中文与英文的伪标签 ASR 数据；
10% 其他语言的 ASR 数据；
10% 音频理解数据。

为在实时 prefill 缓存效率与离线音频任务性能之间取得平衡，AuT 使用具有动态注意力窗口大小的 flash attention，覆盖从 1 秒到 8 秒的注意力查询模式。将 AuT encoder 用作音频编码器，模型参数约为 0.6B

Perceivation (感知)

Text, Audio, Image and Video (w/o Audio).

Thinker 将文本、音频、图像与无音轨视频转换为一系列可作为输入的表征。文本基于Qwen3文本分词器，语音处理为16 kHz，并将原始波形转换为 128 维 Mel 频谱图，通过AUT编码，每一帧音频表示约对应原始音频信号的 80 ms。视频编码器基于Qwen3-VL 的视觉编码器（SigLIP2-So400m），可同时处理图像与视频输入。为了尽可能保留视频信息并与音频采样率对齐，我们采用动态帧率采样视频帧。

Video and Multimodal Position Embedding (TM-RoPE)

参考Qwen2.5-Omni，使用 时间对齐的多模态旋转位置编码（TM-RoPE），它在多模态旋转位置编码（M-RoPE）基础上加入了绝对时间信息。TM-RoPE 将传统旋转位置编码分解为三个维度：

时间维（temporal）
高度维（height）
宽度维（width）

在原始 M-RoPE 中，时间相关性由前 16 个旋转角建模，这些角对应高频且震荡更强的模式。该设计有利于捕获局部时间变化，但会影响模型对长序列的外推能力。

为解决这一问题，我们重新分配了旋转角数量：

时间维 24 个
高度维 20 个
宽度维 20 个

该分配在局部语义与长程依赖之间实现了更平衡的表示，从而提升整体性能。

TM-RoPE 会根据输入模态的不同进行定制化应用：

文本模态：三个维度共享相同的位置 ID，使 TM-RoPE 等价于一维 RoPE。
音频模态：同样共享位置 ID，并额外加入绝对时间编码，每个时间 ID 对应 80 ms。
图像模态：所有视觉 token 分配相同的时间 ID，而其行列位置分别决定高度与宽度的 ID。

对于音视频输入：

音频：每 80 ms 分配一个时间 ID；
视频：每帧视频根据其真实时间戳分配 递增的时间 ID，动态调整以确保与音频保持 80 ms 分辨率对齐。
视频的高度与宽度 ID 与静态图像保持一致。

为避免多模态之间的位置冲突，所有模态的位置编号保持连续，每种模态的起始位置 ID 为前一种模态最大位置 ID 加一。该精细化的位置编码方案使模型能够有效整合并联合建模多模态信息。

相较 Qwen2.5-Omni 的关键区别：不同于 Qwen2.5-Omni 将音视频表示强制切分为固定的 2 秒块，Qwen3-Omni 直接基于绝对时间的时间 ID 对齐多模态表示。这种设计赋予模型处理任意时长流式输入的灵活性。

Speech Generation

在多轮对话的语音合成中，Talker 模块依赖于由 Thinker 组件提供的丰富上下文，该上下文包括历史文本 token、多模态表示以及当前轮的流式文本。对长上下文信息的依赖至关重要，因为高保真语音合成需要根据当前对话动态调整声学属性，如韵律、响度和情感，这一原则在上下文感知生成模型中已被充分验证。

在架构上，直接在 RVQ token 上进行操作。Talker 采用层次化预测策略：骨干网络（backbone）输入当前帧的聚合码本特征，并通过线性头预测第零码本，随后多 token 预测（MTP）模块生成所有剩余码本。这一策略使模型能够学习声学细节的完整表示，从而增强语音的表现力。因此，波形重建被简化为轻量级因果卷积网络（Code2Wav），在显著降低推理延迟和计算开销（FLOPs）的同时，相比更复杂的基于 DiT 的声码器实现了更高的音频保真度。

流式与并发设计

在流式视听交互场景中，首包延迟是影响用户体验的关键因素，而模型的并发能力对于降低服务成本和提高响应速度至关重要。下面是 Qwen3-Omni 如何通过算法与架构优化提升并发性并降低首包延迟。

分块预填充与 MoE 架构。在 Qwen3-Omni 中，保留了 Qwen2.5-Omni 中的分块预填充机制，其音频和视觉编码器能够沿时间维度输出分块（chunk）。在实时交互中，Thinker 和 Talker 模块执行异步预填充：当 Thinker 完成当前块的预填充后，其输出的高层表示会立即异步用于预填充 Talker 的当前块，同时 Thinker 预填充下一块。这种方法显著降低了 Thinker 和 Talker 的 Time-To-First-Token (TTFT)。

在架构上，Qwen3-Omni 的 Thinker 与 Talker 均采用 MoE设计，这对于提升服务吞吐量非常有效。与稠密模型相比，MoE 架构在处理长序列时显著降低了 KV 缓存带来的 IO 消耗，从而提高生成过程中的每秒 token 数（TPS）并增强并发性能。

流式多码本编解码生成：为了最小化用户接收首个生成包的等待时间，提出了仅左侧上下文的多码本生成机制。如图 2 所示，一旦 Talker 生成第一个 token，MTP 模块即可预测当前帧的剩余 token，然后由流式多码本编解码器将其解码为波形，该编解码器仅关注左侧上下文。与 Qwen2.5-Omni 需要等待 Talker 生成足够块级上下文才能合成波形不同，Qwen3-Omni 在 Talker 生成每个 token 后即可输出波形，从而显著降低首包延迟。

轻量级 MTP 模块与 ConvNet：MTP 模块和编解码器均为轻量级模块，计算 FLOPs 低，支持批处理推理，非常适合高并发场景。MTP 模块是超轻量级、固定步长的自回归稠密 Transformer，在推理硬件上对内存带宽要求低，从而天然支持高吞吐量请求的批处理。其固定步长自回归推理机制允许高效利用固定 KV 缓存空间加速，实现低延迟推理。同时，基于 ConvNet 的编解码器也能在低延迟下实现高吞吐量，因为其卷积架构在多种推理平台上均有广泛硬件加速支持，并且支持高效的批处理推理。

表 2 给出了 Qwen3-Omni 在典型计算资源下，不同并发场景下的理论首包延迟（first-packet latency）。实验在 vLLM 框架上进行，用于处理并发的视听流，同时对 MTP 模块和编解码器采用了 torch.compile 和 CUDA Graph 加速优化。

首包延迟受到多个因素影响：

Thinker 与 Talker 的模型规模会影响尾包预处理延迟（包括音频和视觉编码器的多模态数据预处理和推理）以及 Time-To-First-Token (TTPT)。
MTP 模块与编解码器的架构与规模会影响它们的推理延迟。

由于这些组件之间存在顺序依赖，总体首包延迟是各个延迟的累加。结果显示，Thinker 和 Talker 的 MoE 架构 能确保在高并发下，其预填充延迟和 TTPT 基本不受影响。同时，MTP 模块和编解码器的轻量化设计最小化了计算开销，对首包延迟的影响也很小。

此外，在输出首个数据包后，模型开始进行流式音频合成，由于 Talker 的 token 生成速率为 12.5 Hz，每个 token 即可合成 80 ms 的音频。因此，生成实时因子（RTF）通过以下公式计算：

实验结果表明，RTF 在不同并发水平下始终低于 1，确保用户能够持续接收流式音频响应

Pretraining

Qwen3-Omni 在一个多样化的数据集上进行预训练，该数据集涵盖多种语言和方言（如表 3 所示）以及多种模态，包括图文、视频文本、音频文本、视频音频、视频音频文本以及纯文本语料库。与 Qwen2.5-Omni 使用每个任务单一提示词不同，我们采用更丰富的自然语言提示，以增强模型的泛化能力和指令遵循能力。为了在所有模态下实现稳健性能，训练策略从早期预训练阶段就整合了单模态和跨模态数据。

Qwen3-Omni 的预训练分为三个阶段：

编码器对齐阶段：音频和视觉编码器在固定的 LLM 上单独训练，最初重点训练各自的 adapter，随后再训练编码器本身。不采用在冻结 LLM 的情况下联合训练编码器与 adapter 的方法，因为该方法可能导致编码器过度补偿冻结 LLM 的限制，从而降低感知能力。
通用阶段：使用了一个大规模数据集，约含 2 万亿 token，其中文本：0.57 万亿、音频：0.77 万亿、图像：0.82 万亿、视频：0.05 万亿、视频-音频：0.05 万亿。在此阶段，引入更多样化的多模态数据和任务，增强了模型在听觉、视觉、文本及视听信息上的理解与交互能力。
长上下文阶段：最后，将最大 token 长度从 8,192 提升至 32,768，并增加了训练数据中长音频和长视频的比例。实验结果表明，这些调整显著提升了模型对长序列数据的理解能力。

后训练

Thinker

后训练阶段包括对 Thinker 的三阶段训练，使 Qwen3-Omni 具备指令遵循能力。训练数据集采用 ChatML格式，涵盖纯文本对话、视觉模态对话、音频模态对话以及混合模态对话数据。

第一阶段：轻量化监督微调（SFT）
通过有针对性的指令优化，将预训练表示与下游任务需求进行桥接。SFT 有意偏离预训练数据结构，但保持与预训练模型的架构一致，以实现高效的知识迁移，同时保留预训练特征的完整性。

第二阶段：强对弱蒸馏（Strong-to-Weak Distillation）采用 Qwen3中描述的蒸馏流程，包括两个阶段：

离策略蒸馏（Off-policy Distillation）：初期阶段，教师模型生成的输出被整合，用于响应蒸馏。这帮助轻量学生模型掌握基础推理能力，为后续的在线训练奠定基础。
在线蒸馏（On-policy Distillation）：学生模型根据采样提示生成响应序列，随后进行微调，将学生预测的 logits 与教师模型（Qwen3-32B 或 Qwen3-235B-A22B）的 logits 对齐，通过最小化 KL 散度进行优化。

第三阶段：GSPO 强化，利用 GSPO全面提升模型在文本、图像、视频和音频等多模态上的能力和稳定性。针对不同模态使用两类奖励信号：

规则基奖励（Rule-based Reward）：用于可验证的多模态任务（如数学、编码、指令遵循），奖励信号源自预定义规则，可高精度评估模型输出的正确性，避免奖励漏洞（reward hacking）。
模型基奖励（Model-based Reward）：用于缺乏客观评价指标的多模态任务，采用 LLM 作为评估者（LLM-as-a-judge）协议。通用任务由 Qwen3 担任评估，视觉-语言任务由 Qwen2.5-VL 担任评估。评估过程中，LLM 可获取对应的真实答案或参考答案，以实现更稳健、可靠的评价。

Talker

对 Talker 采用四阶段训练，使 Qwen3-Omni 能够同时生成文本与语音响应。训练数据统一采用 ChatML 格式，确保与 Thinker 的一致性。

第一阶段：使用数亿条带多模态上下文的语音数据训练 Talker，建立从多模态表示到语音的单调映射关系。
第二阶段：进行高质量数据的持续预训练（Continual Pretraining, CPT），缓解第一阶段噪声数据导致的幻觉问题，显著提升语音生成质量。同时进行长上下文训练，增强 Talker 处理长复杂输入并生成语境适配语音的能力。
第三阶段：构建多语言语音偏好对（preference pairs），通过 直接偏好优化（Direct Preference Optimization, DPO）提升多语言语音生成的泛化能力和系统稳定性。
第四阶段：对基模型进行说话人微调（speaker fine-tuning），使 Talker 可以采用特定声音，并优化语音自然度、表现力和可控性。

Captioner

字幕生成是多模态理解的基础任务，也是大型多模态模型训练与评估的重要组成部分。然而，现有研究大多集中在视觉字幕生成，较少关注音频模态，而听觉感知是人类感知与交互的重要组成。为弥补这一空白并推动多模态感知研究，我们提出 Qwen3-Omni-30BA3B-Captioner。该模型通过在大规模音频描述数据集上微调 Qwen3-Omni-30B-A3B 得到，可为任意音频输入生成详细、低幻觉的字幕。

Evaluation

对一系列模型进行了全面评估，包括 Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking 以及两款内部开发的变体 Qwen3-Omni-Flash-Instruct 和 Qwen3-Omni-Flash-Thinking。这些 “Flash” 模型旨在提升计算效率和性能，同时引入新功能，尤其是对多方言的支持。评估结果分为两大类：理解能力（X→Text） 和 语音生成能力（X→Speech）。

X→Text 评估

Qwen3-Omni 理解各种多模态输入（文本、音频、视觉以及视听视频）并生成文本响应的能力。

文本→文本：评估通用任务、推理能力、编码能力、对齐任务、代理（Agent）以及多语言任务。

表4 ：Qwen3-Omni-30B-A3B-Instruct 的性能在多个基准任务中超过了更大的开源模型 Qwen3-235B-A22B Non-Thinking 以及强大的闭源模型 GPT-4o-0327
表5：Qwen3-Omni-30B-A3B-Thinking 的表现与 Gemini-2.5-Flash-Thinking 以及Qwen3-235B-A22B Non-Thinking 接近。
Qwen3-Omni-30B-A3B 在文本任务中的表现也与其对应的纯文本模型版本保持一致，包括：Qwen3-30B-A3B-Instruct-2507、Qwen3-30B-A3B-Thinking-2507

音频→文本：分为基础音频任务和高级音频任务两类。基础任务包括自动语音识别（ASR）、语音转文本（S2TT）以及音乐理解；高级任务包括语音聊天和音频推理。另外，还评估模型在各种音乐信息检索任务上的能力，如流派识别、情感与主题识别、乐器识别以及音乐关键词标注。

表 6 所示，Qwen3-Omni-Instruct 在 Librispeech、Wenetspeech、Fleurs、CommonVoice、Opencpop-test 以及 MIR-1K（vocal）等数据集上取得了英语与中文 ASR 以及歌词识别的最新最优性能（SOTA）。在多语言 ASR 和 S2TT 任务上，Qwen3-Omni 的表现同样优于或可与其他专业模型或通用模型（如 Voxtral-Small 和 Gemini-2.5-Pro）媲美。这些结果表明 Qwen3-Omni 在语音识别与语音翻译任务上具备非常强的能力。

此外，如表 7 所示，Qwen3-Omni-Thinking 在 VoiceBench 上取得了 89.5 的平均得分，超过了除 Gemini-2.5-Pro（89.6）之外的所有其他音频大模型，展现出优秀的语音交互能力。

在音频推理方面，Qwen3-Omni 同样表现突出：在 MMAU 基准上超越了强大的闭源模型 Gemini-2.5-Pro 与 Gemini-2.5-Flash，在 MMSU 上超过了 Gemini-2.5-Flash 和 GPT-4o-Audio。

表 8 中将 Qwen3-Omni-Instruct 与通用音频语言模型和专业音乐模型进行了比较。Qwen3-Omni-Instruct 在 RUL-MuchoMusic 上取得了最新最优（SOTA）表现。在 GTZAN、MTG-Jamendo 以及 MagnaTagATune 上，Qwen3-Omni-Instruct 的得分也显著超过了其他音频语言模型（包括 Gemini-2.5-Pro 和 GPT-4o-Audio），并超过了在这些数据集上测试的多种自监督音乐专业模型。

视觉→文本：通用视觉问答能力、数学与 STEM 推理能力、文档理解能力、数值推理与计数能力、动态视觉数据理解能力。将 Qwen3-Omni-Instruct 与 Qwen2.5-VL-72B 以及其他表现优异的闭源视觉语言模型进行了对比。如表 9 所示，Qwen3-Omni-Instruct 的整体表现与 Qwen2.5-VL-72B 相当，并且在 数学与 STEM 相关任务（如 MMMU-Pro overall、MathVista mini、MATH-Vision full）上取得了优于 GPT-4o 和 Gemini-2.0-Flash 的成绩。

Qwen3-Omni-Thinking 与多种最先进推理模型进行了比较。
表 10 的结果显示，我们提出的模型取得了显著的性能提升。例如，在 数学与 STEM 基准 上，它比 Qwen3-Omni-Instruct 基线提升了 4.4 个点。
值得注意的是，Qwen3-Omni-30B-A3B-Thinking 的性能已经可与规模更大的模型相媲美，展现了在 性能与计算效率之间的优秀平衡。

然而，该模型仍存在一个限制：在 长视频任务 上表现不佳。原因：1、位置外推能力有限（positional extrapolation）2、上下文长度受限

音视频→文本：在 WorldSense 进行基准测试以及两个视听推理基准进行测试。在 通用理解任务 中，Qwen3-Omni-Instruct 在 WorldSense 基准上实现了当前最佳性能，并以显著优势超越了其他 Omni 模型。该结果表明其在基础多模态信息融合方面具有卓越能力。

X→Speech 评估

评估主要集中在给定文本条件下的语音生成，即与文本到语音（TTS）任务的相似性，评估内容包括以下三个方面：

零样本语音生成：内容一致性（WER，字错误率）和说话人相似性（SIM）方面的表现
多语言语音生成：评估模型在零样本条件下生成多语言语音的内容一致性与说话人相似性。
跨语言语音生成：评估模型在零样本条件下进行跨语言语音生成的内容一致性。

零样本语音生成：

如表 13 所示，Qwen3-Omni 展现了 高度竞争力的性能，凸显了其通过预训练及持续预训练所获得的稳健语音理解与生成能力。此外，通过 强化学习（RL）优化，Qwen3-Omni 在语音生成的稳定性方面也取得了显著提升，并在 test-en 数据集上达到了最佳性能。

多语言语音生成：

Qwen3-Omni 支持跨 10 种语言 的语音生成。我们将其性能与 MiniMax-Speech 和 ElevenLabs Multilingual v2 模型在多语言语音生成任务上进行了对比。

如表 14 所示，Qwen3-Omni 在 中文、英文和法语 等语言上显著超越了其他模型，并在其余语言中取得了具有竞争力的结果。

跨语言语音生成评估：Qwen3-Omni 在 any-to-en（任意语言到英语） 和 any-to-ko（任意语言到韩语） 的语音克隆任务中均优于 CosyVoice3。在 any-to-ja（任意语言到日语） 任务中，即便 未进行文本规范化，Qwen3-Omni 仍能达到与 CosyVoice3 相当的性能，而 CosyVoice3 会将所有日语字符转换为假名（kana）。

跨模态性能不退化评估

由于不同模态的异质性，每种模态都需要不同的预训练目标和优化技术，因此采用标准化的数据整合方法变得不切实际。为了确保公平而严格的评估，我们设计了一个 受控对比实验。具体方法如下：我们预训练了三个参数量匹配的模型：仅文本基线模型（text-only baseline）、仅视觉基线模型（vision-only baseline）以及多模态 “Omni” 模型。为了隔离多模态效应，所有潜在的混淆变量都得到了精确控制。具体而言，Omni 模型使用与单模态基线相同的文本和视觉语料进行训练。此外，我们在所有模型间对关键训练参数进行了对齐，包括学习率策略、批大小以及每种模态的有效训练轮数（通过调整数据采样比例进行归一化）。因此，本实验中唯一的区别在于 Omni 模型在预训练阶段加入了额外的音频和视听数据。

如表 16 所示，我们评估了涵盖多种模态的综合基准，包括：文本模态（通用任务、数学与 STEM 任务、编程任务、多语言任务）、视觉模态（大学水平问题、OCR 相关任务）以及视频模态（视频理解任务）。实验结果表明：

在文本预训练的早期阶段混合单模态与跨模态数据，可以在所有模态上实现更优性能；
联合多模态训练能够促进不同模态之间的相互增强，从而提升单模态的表现；

这充分展示了 Qwen3-Omni 在多样化评估标准下的通用性与稳健性。

根据表 16 及内部实验结果，我们观察到以下规律：

预训练早期的多模态融合允许语言模型与视觉或音频共同训练，而不会导致语言能力下降；
文本模态的加入显著提升了视觉和音频的性能，但从视觉或音频信号中并未观察到语言能力的显著提升；
从经验来看，加入音频数据可以持续提升视觉模态在 MMMU 基准和 OCR 相关任务上的表现。

结论：

Qwen3-Omni 是一个里程碑：据我们所知，它首次提供了证据表明，完全整合的端到端多模态训练可以在不降低核心语言能力和其他模态表现的情况下实现。我们希望与学术社区分享这些成果，并期待能够激发更多相关研究。

未来工作中，我们计划在多个方向进一步推进模型发展，包括多说话人语音识别（multi-speaker ASR）、视频 OCR、视听主动学习，以及增强对基于代理（agent）工作流和函数调用的支持。

Step-Audio-EditX

论文：https://arxiv.org/abs/2511.03601
Demo：https://stepaudiollm.github.io/step-audio-editx/
Github：https://github.com/stepfun-ai/Step-Audio-EditX

Step-Audio-EditX —— 全球首个基于大语言模型（LLM）的开源音频编辑模型，能够在语音的情感、说话风格和副语言特征（如语气、语速、语调等）上实现高度富有表现力且可迭代的编辑，同时具备强大的零样本文本转语音（TTS）能力。

核心创新在于：模型仅依赖大间隔（large-margin）合成数据进行训练，无需使用嵌入先验或辅助模块。这种大间隔学习策略使模型能够在多种音色上实现可迭代控制与高表达力，并从根本上区别于传统聚焦于表示层面解耦的思路。实验结果表明，Step-Audio-EditX 在情感编辑和其他细粒度语音控制任务上均超越了 MiniMax-2.6-hd 和 Doubao-Seed-TTS-2.0。

当前 TTS 的问题：由于合成语音中的情感、风格、口音和音色等属性仍然直接来源于参考音频，限制了对这些属性的独立控制，另外，对于克隆语音通常无法有效地遵循提供的风格或情感指令。

许多以往关于语音解耦的研究依赖以下方法来实现属性分离：对抗式训练、特征工程以及创新的网络结构设计。相比之下，文章提出了一种简单但稳定的数据驱动方法。具体来说，我们设计了一条数据生成流程，用于构建高质量的数据对，这些数据对在保持完全相同语言内容的同时，在情绪、说话风格、口音、副语言特征等一个或多个属性上具有明显可区分的差异。通过在这样的数据对上训练模型，能够实现有效的属性解耦，使模型能够对输入语音的属性进行编辑。此外，通过多次迭代的“编辑”步骤，目标属性的强度可以被逐步增强或减弱。除了情绪、风格和副语言特征编辑之外，该方法可以扩展到其他任务，包括语速调整、语音去噪以及静音片段裁剪等。

主要贡献：

Step-Audio-EditX，这是首个基于大语言模型（LLM）的开源音频模型，擅长富有表现力且可迭代的音频编辑，涵盖情绪、说话风格和副语言特征，并具备强大的 zero-shot TTS 能力。
实验结果表明，仅通过大间距（large-margin）数据的后训练，即可实现对情绪和说话风格的可控调节，无需额外的呈现建模或适配器模块。
使用大间距数据进行后训练不仅能够实现可迭代的控制与高度的表达能力，而且在跨说话人场景下同样有效，这标志着从传统的基于表征层的解耦方法向新的范式转变。

Architecture

Prompt Text：任务提示/prompt音频对应的文本
Target Text：带合成的音频文本

基于 Step-Audio 中的音频编辑合成模型，主要改进包括扩展了情感和语音风格的范围，增加了零样本文本转语音 (TTS) 和副语言编辑功能，并将模型参数从 130B 减少到 3B。

系统由三个主要组件组成：

双码本音频分词器：将参考音频或输入音频转换为离散的 token；
音频大语言模型：生成双码本 token 序列；
音频解码器：使用流匹配（flow matching）方法，将音频 LLM 预测的双码本 token 序列转换回音频波形。

Audio Tokenizer：采用并行语言分词器（16.7 Hz，1024 码本）和语义分词器（25 Hz，4096 码本），交错比例为 2:3。观察到双码本分词器能够保留大量情感、韵律及其他非语言信息，这表明该方法在信息解耦方面仍不够理想，这一不足恰好使其非常适合作为验证LLM 后训练策略及所提出的大间隔数据驱动方法有效性的实验对象。

Audio LLM：为了充分利用预训练文本 LLM 的强大语言处理能力，3B 模型首先使用基于文本的 LLM 进行初始化，然后在文本数据与音频双码本token以 1:1 比例混合的数据集上进行训练。音频 LLM 以聊天格式处理文本token及其对应的双码本音频token，最终生成双码本token作为唯一输出。

Audio Decoder：音频解码器由 Flow Matching 模块和 BigVGANv2声码器组成。Flow Matching 模块在输出音频令牌、参考音频以及说话人嵌入（speaker embedding）作为条件下生成 Mel 频谱图，而 BigVGANv2 声码器则进一步将 Mel 频谱图转换为音频波形。对于 Flow Matching 模块，采用扩散变换器（DiT）作为骨干网络，并在 20 万小时高质量语音上训练该模型。

Data

SFT 数据：零样本 TTS、情感编辑、说话风格编辑以及副语言编辑。

零样本文本转语音：中文和英文以及少量粤语四川话的内部数据，总计约 60,000 个独立说话人
情感与说话风格编辑：高质量数据难以收集，提出简单高效的大边距合成数据方法。

该方法在同一说话人之间进行零样本语音克隆，覆盖不同的情感和说话风格，同时确保对比样本对之间具有足够大的差距。仅需 每种情感或风格的一个提示音频片段，避免了昂贵的数据收集成本。此外，该方法巧妙地将复杂的情感与风格描述 转换为基于比较的样本对构建格式。具体方法如下：

声优录音：声优录制表达丰富的情感和说话风格。对于每位声优，每种情感和风格组合录制约 10 秒 的音频片段。
零样本克隆：对于每种情感和说话风格，构建三元组 ⟨文本提示, 中性音频, 情感/风格音频⟩。通过选择同一说话人的对应中性与情感/风格音频作为提示音频，并使用 StepTTS 语音克隆接口 处理，文本指令描述目标属性。
边距评分（Margin Scoring）：为评估生成的三元组，我们使用一个小型人工标注数据集训练评分模型。该模型对音频对进行 1-10 分评分，边距分数越高表示效果越理想。
边距选择（Margin Selection）：根据边距评分阈值筛选样本。该阈值会根据不同情感和风格进行调整，通用下限设为 6 分。

3. 副语言编辑（Paralinguistic Editing）

副语言如呼吸、笑声以及填充停顿（例如“嗯”），对于提升合成语音的自然度和表现力至关重要。通过使用 “半合成”策略 实现了副语言编辑能力，该策略利用 NVSpeech 数据集——一个表现力丰富的语音语料库，其对多种副语言类型进行了详细标注，从而使得构建用于模型训练的比较四元组成为可能。

四元组 ⟨text_without_tags, audio_without_tags, text_nv_source, audio_nv_source⟩ 的构建方式不同于三元组：它使用 NVSpeech 的 原始音频和转录文本 作为目标输出，而将通过 StepTTS 语音克隆生成的音频作为输入，该音频是基于去除副语言标注后的原始转录文本合成的。

由于副语言编辑是 在时间域上进行的编辑任务，且存在显著的内在边距差异，因此 数据选择不需要边距评分模型。只需一小部分四元组数据，即可有效激发模型的副语言编辑能力。

强化学习数据:基于人工标注，以及使用 LLM-as-a-Judge（大型语言模型作为评判） 方法

人工标注：收集用户提供的真实世界的 提示音频 及对应文本提示，然后使用 SFT 模型生成 20 个候选响应。接着，通过人工标注员根据 正确性、韵律和自然度 对每个响应进行 5 分制评分，构建 选择/拒绝对。仅保留评分边距大于 3 的样本对。

LLM-as-a-Judge：使用理解能力模型对模型响应的 情感和说话风格编辑 进行 1-10 分评分，再根据评分生成偏好对，并仅在最终数据集中保留 评分边距大于 8 分 的样本对。

经过筛选的大边距样本对将用于训练 奖励模型 和 PPO

训练

两阶段：SFT，然后进行 PPO

SFT 阶段通过在 聊天格式下使用不同系统提示来增强模型的零样本文本转语音合成与编辑能力。

在零样本 TTS 任务中，提示音频被编码为 双码本tokens，随后将其解码为字符串形式，并嵌入到系统提示的说话人信息中。待合成文本作为 用户提示，生成的双码本 tokens 则作为系统响应返回。
对于编辑任务，所有操作在统一的系统提示下定义。用户提示包含 原始音频 及编辑操作的描述性指令，系统响应则返回 编辑后的音频 tokens。

模型在 SFT 阶段训练 1 个 epoch，学习率范围从 1 × 10⁻⁵ 到 1 × 10⁻⁶。

强化学习用于提升模型在 零样本 TTS 的稳定性，以及在执行编辑指令时的能力和表现力。当 源提示音频与目标编辑输出在情感或风格上存在显著差异 时，这种提升尤为明显，例如将快乐语音生成悲伤语音，或将高音量语音转换为耳语。

该强化学习方法提供了一种新的思路：不再单纯追求理想的语音表示解耦，而是同时优化大边距样本对的构建与奖励模型的评估效果。

奖励模型从 3B SFT 模型 初始化，并使用 人工标注数据与 LLM-as-a-judge 生成的大边距数据 进行训练，优化方法采用 Bradley-Terry 损失。

模型为 token 级奖励模型，直接在大边距双码本 token 对上训练，无需在奖励计算过程中通过音频解码器将 token 转回波形。
模型训练 1 个 epoch，学习率采用 余弦衰减策略（cosine decay），初始值为 2 × 10⁻⁵，下限为 1 × 10⁻⁵。

PPO 训练：获得奖励模型后，使用 PPO 算法 进行进一步训练。训练使用与奖励模型训练相同的提示种子，但只选择 对 SFT 模型最具挑战性的提示。

在 PPO 阶段，critic 先预热 80 步，随后再训练执行者（actor）。
优化器初始学习率为 1 × 10⁻⁶，遵循余弦衰减策略，下限为 2 × 10⁻⁷。
使用 PPO 剪切阈值 ϵ = 0.2，并施加 KL 散度惩罚系数 β = 0.05。

Evaluation

情感与说话风格编辑结果: 如表 1 所示，在 Iter0 音频进行首次编辑后，情感和说话风格的准确率都有显著提升。此外，经过连续迭代编辑后，情感和说话风格的准确率进一步增强。

闭源模型上的泛化能力:Step-Audio-EditX 首次编辑 后，所有声音模型的情感和风格准确率均显著提升。经过接下来的两轮迭代，准确率进一步增强，从而有力证明了本模型的 强泛化能力。

闭源模型上的情感控制,Step-Audio-EditX 在零样本克隆能力下展现出 更高的情感准确率，优于其他两款模型。仅经过 一次编辑迭代，所有音频样本的情感准确率均显著提升。将一次情感编辑迭代应用于零样本克隆音频，其效果 超过了闭源模型原生情感控制功能生成的结果。

副语言编辑: 如表 4 所示，在仅进行一次编辑迭代后，通过加入副语言标签（paralinguistic tags），模型在副语言元素的重建与插入方面取得了显著性能提升。实验结果表明：经过一次 Step-Audio-EditX 的副语言编辑后，生成的副语言效果已经可与闭源模型使用原生副语言标签直接合成的结果相媲美，展现出强大的泛化能力与编辑一致性。

扩展能力：

语速编辑：构造了三元组⟨text, audiosource, audiofaster/slower⟩，其中针对同一说话人，通过 SoX 工具包 的受控速度扰动生成快/慢版本音频。由于语速变化会显著改变 token 序列长度，仅使用 SFT 即可实现有效的语速编辑。

去噪与静音剪裁：基于生成式的方法，实现提示音频和合成音频的定向编辑，包括去噪和静音剪裁。

去噪（Denoising）构造三元组：⟨text, audioaugment, audiosource⟩其中 audiosource 为干净音频（ground truth），audioaugment 通过添加噪声与混响模拟生成。

静音剪裁（Silence Trimming）构造三元组：⟨text, audiosource, audiotrimming⟩audiosource 含有静音片段，audiotrimming 则通过 Silero-VAD 提取语音区间后拼接生成。

Qwen3-ASR：语音识别大模型

ModelScope：https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo
HuggingFace: https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo
阿里云百炼API：https://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031

Qwen3-ASR-Flash实现了⾼精度⾼鲁棒性的语⾳识别性能，⽀持11种语⾔和多种⼝⾳。与众不同的是，Qwen3-ASR-Flash⽀持⽤户以任意格式提供⽂本上下⽂，从⽽获得定制化的 ASR 结果，同时还⽀持歌声识别。

Qwen3-ASR-Flash 单模型支持多种语言、方言和口音的精准转录：

中文：包括普通话以及四川话、闽南语、吴语、粤语等主要方言。
英语：支持英式、美式及多种其他地区口音。
其他支持语言：法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语和阿拉伯语。

为获得定制化的ASR结果，用户可提供任意格式的背景文本来获得倾向性ASR结果，Qwen3-ASR-Flash无需对上下文信息进行格式预处理。

支持的格式包括但不限于：

简单的关键词或热词列表。
任意长度和来源的完整段落或整篇文档。
以任意格式混合的关键词列表与全文段落。
无关甚至无意义的文本(模型对无关上下文的负面影响具有高度鲁棒性)。

性能表现：

核心特性：

领先的识别准确率：Qwen3-ASR-Flash在多个中英文，多语种benchmark测试中表现最优。
惊艳的歌声识别能力：支持歌唱识别，包括清唱与带bgm的整歌识别，实测错误率低于8%。
定制化识别：用户可以以任意格式（如词汇表、段落或完整文档）提供背景文本，模型能智能利用该上下文识别并匹配命名实体和其他关键术语，输出定制化的识别结果。
语种识别与非人声拒识：模型能精确分辨语音的语种，自动过滤非语音片段，包括静音和背景噪声。
鲁棒性：面对长难句、句中语言切换和重复词语等困难文本模式，以及在复杂的声学环境中，模型仍能保持高准确率。

MOSS-TTSD 中英双语口语对话合成模型

项目地址：https://github.com/OpenMOSS/MOSS-TTSD
在线体验：https://huggingface.co/spaces/fnlp/MOSS-TTSD
Blog: https://www.open-moss.com/en/moss-ttsd/

当前的文本到语音（TTS）模型在单句或孤立段落的语音生成效果上取得了令人瞩目的进展，合成语音的自然度、清晰度和表现力都已显著提升，甚至接近真人水平。不过，由于缺乏整体的对话情境，这些 TTS 模型仍然无法合成高质量的对话语音。

MOSS-TTSD 是一个口语对话语音生成模型，实现了中英双语的高表现力对话语音生成，支持零样本多说话人音色克隆，声音事件控制以及长语音生成。与传统 TTS 模型只能生成单句语音不同，MOSS-TTSD 能够根据完整的多人对话文本，直接生成高质量对话语音，并准确捕捉对话中的韵律变化和语调特性，实现超高拟人度的逼真对话语音合成。

亮点：

高表现力对话语音：基于统一语义-声学神经音频Codec、预训练大语言模型、百万小时TTS数据与约40万小时的真实/合成对话语音数据，MOSS-TTSD能够生成高表现力，高自然度，具有自然对话韵律的拟人对话语音。
双说话人零样本声音克隆：MOSS-TTSD支持零样本双说话人克隆，按脚本精确进行角色/声线切换。只需要提供10到20秒的参考音频片段。
中英双语：MOSS-TTSD支持中英两种语言的高表现力语音生成。
长音频生成：得益于低码率Codec与训练框架优化，MOSS-TTSD在长音频生成场景进行了大量训练（训练最大长度达到960s），能够单次生成超长音频。

模型概览：

1 模型结构概览：基于Qwen3-1.7B-base模型进行训练，使用八层RVQ码本进行语音离散化，使用自回归加Delay Pattern进行语音token生成，最后使用Tokenizer的解码器将语音token还原为语音。

MOSS-TTSD 使用完全离散化的方式进行语音生成。我们训练了一个8层 RVQ 的音频 Codec：XY-Tokenizer，来对原始音频进行量化。 XY-Tokenizer 能够同时编码语音的语义和声学信息，并具有较低的比特率（1kbps），这使得LLM能够有效地学习音频序列并建模细节声学特征。在序列建模方面，受到 MusicGen 和 VOICECRAFT的启发，我们使用自回归建模加多头 Delay 的方式进行语音 token 生成。

语音离散化: XY-Tokenizer：

为了统一建模语音的语义和声学信息，并实现低比特率，我们构建了 XY-Tokenizer，它使用了双路 Whisper Encoder 进行语音编码，8层 RVQ 量化，两阶段多任务学习的方式进行训练。实现了 1kbps 的比特率和 12.5Hz 的帧率[1024码本大小]。

XY-Tokenizer 采用了两阶段多任务学习的方式进行训练。第一阶段（上半部分）训练ASR任务和重建任务，让编码器在编码语义信息的同时保留粗粒度的声学信息。第二阶段（下半部分）我们固定住编码器和量化层部分，只训练解码器部分。通过重建损失和 GAN 损失，利用生成式模型的能力补充细粒度声学信息。

我们扩展了Codec训练的数据量，使用了10万小时带有转录文本的语音数据进行训练。下表对比了在LibriSpeech测试集上不同 Codec 在语义和声学性能上的表现。WER为ASR任务中的词错误率，WER越低表示语音 token 的语义信息与文本对齐程度更好。粗体为低比特率 Codec 组中的最优或次优性能。

XY-Tokenizer 是在1kbps，12.5Hz的帧率下同时建模语义和声学信息性能最好的 Codec ，在语义和声学指标上都取得了最优或次优的结果。

为了更好地编码和重建复杂的对话音频，我们扩展了50万小时无转录音频数据进行增强训练，扩展 Codec 对于复杂音频和场景的处理能力。

得益于Codec的超低比特率，我们模型的训练长度最长达到了960s的音频，这使得我们的模型可以一次性地生成超长的语音，避免了拼接语音片段之间的不自然过渡。

数据工程：

TTS 模型的性能与训练数据的质量和数量有着密切的关系，为了规模化高质量 TTS 数据和 TTSD 数据，我们设计了高效的数据处理流水线，可以从海量原始音频中准确筛选出单人语音和多人对话语音并进行标注。

对于原始音频，我们首先使用内部的说话人分离模型进行语音分段和说话人标注。基于预训练基模，我们的说话人分离模型性能已经优于开源说话人分离模型 pyannote-speaker-diarization-3.1 及其商用版本 pyannoteAI 。

说话人分离模型在不同数据集上的 DER(Diarization Error Rate) 结果（越低越好），我们的模型在四个测试集上都取得了最优性能

我们使用 DNSMOS 分数来作为语音质量的评估标准，我们假设 DNSMOS 分数高的语音大概率不包含背景噪声。为了保证语音的质量和较少的噪声，我们只保留 DNSMOS >=2.8的语音片段。对于高质量的音频片段，我们直接对语音进行转录，作为 TTS 训练数据。此外，我们设计了一套规则来将 Diarization 分离的语音片段组合成双人对话的片段用作 TTSD 训练，这样得到的对话片段我们称之为粗粒度对话片段。虽然说话人分离模型能够较准确地分离说话人，但是我们发现它对一些较短的 Backchannel 不是特别敏感，存在漏分离的情况。此外，当前的 ASR 模型无法准确地转录对话中重叠的语音。因此，受 Parakeet[4] 的启发，我们训练了中文版的 Whisper-d 模型来对中文数据进行细粒度说话人标注和文本转录。对于英文数据我们直接使用 Parakeet 的开源 Whisper-d。最终，我们使用说话人分离模型的粗粒度标签和 Whipser-d 模型的细粒度标签来将短对话片段组成长对话片段。

TTS 预训练：

我们使用了110万小时的中英文 TTS 数据对模型进行了预训练，大规模的 TTS 预训练可以显著增强 TTSD 模型的语音韵律和表现力，并提升模型泛化能力。我们使用了 Seed-tts-eval评测了 TTS 预训练模型的性能，取得了和当前顶尖闭源模型 Seed-TTS 相当的性能。经过 TTS 预训练后的模型已经有了较强的语音生成能力和零样本音色克隆能力。

TTSD 后训练：

最终，我们收集了10万小时中文对话数据和27万小时英文对话数据。此外，为了增强模型的说话人切换准确率，我们合成了4万小时中文对话数据和4万小时英文对话数据。 为了增强模型对于中文标点符号的感知能力，我们使用 Gemini 对部分数据（约7万小时）中的转录文本进行了修正。

在训练阶段，我们基于 TTS 预训练的检查点，使用 WSD Scheduler 进行训练，我们没有针对 Decay 阶段做特殊的数据规划。此外，我们发现无法通过验证集挑选表现最好的检查点，因此我们通过人工评估的方式挑选了主观表现最好的检查点。

DeSTA2.5-Audio 保留大模型推理能力

核心：通过设计模型自我生成数据的方法，仅使用少量数据就能跨模态对齐，同时实现鲁棒、泛化强、无需任务调参的通用音语大模型。 实现对音频输入的有效适应的同时，保留其指令跟随能力。 适用于没有大量的训练数据的情况！！！

论文标题：DeSTA2.5-Audio: Toward General-Purpose Large Audio Language Model with Self-Generated Cross-Modal Alignment

Arxiv：https://arxiv.org/abs/2507.02768
Github：https://github.com/kehanlu/DeSTA2.5-Audio
📑 Paper | 👩‍💻 Github | 🤗 Model | 🤗 Dataset

当前主流音频语言模型虽可执行听觉感知与指令遵循任务，但往往依赖人工构建或跨模型生成的数据集，导致模型出现灾难性遗忘（Catastrophic Forgetting）现象，语言能力退化明显。本论文从根本出发，重新审视数据构建流程，提出「模型自我生成训练目标」机制，保留 LLM 的语言能力，同时实现精准的跨模态对齐，从而训练出鲁棒、泛化强、无需任务调参的通用音语大模型。

论文的主要研究成果与创新点：自生成跨模态对齐策略 DeSTA：由 LLM 自行生成训练标签，确保风格与输出一致性，克服灾难性遗忘，提升跨模态迁移鲁棒性；大规模通用数据集 DeSTA-AQA5M：覆盖语音、环境声、音乐三大领域，含 500 万组音频-指令-响应数据，源自 50 个公开数据集，总计约 7000 小时；强大的泛化性能： DeSTA2.5-Audio 在多个标准测试集（Dynamic-SUPERB、MMAU、SAKURA、Speech-IFEval、VoiceBench）上展示优异的性能。

首篇系统提出“自生成音频文本对齐”策略并应用于 LALM 训练的研究；无需人工调教或额外任务调参，模型即能在多个语音理解、情绪识别、环境声分析等任务中展现 SOTA 表现；重要对比发现：明确指出模型训练过程中数据来源与模型分布不一致将大幅损害性能，即使采用更强大的 LLM 生成数据亦无法弥补，凸显「数据生成一致性」为构建通用 LALM 的关键。以少胜多，仅用 7000 小时音频达成超过使用 51 万小时数据的模型效果，堪称“大模型训练范式创新”典范。

当训练数据与模型原有生成分布不一致时，模型容易遗忘其原有的语言理解与生成能力，这种现象在 LLM 融入新模态时尤为突出。

原因：该方法本质上是利用encoder+Qformer学习语音中的元数据信息，采用同一个LLM为了保证输出分布一致性，这样只要encoder+Qformer学习到了语音中的元数据信息（对齐语音-文本），那么最后模型的输出就跟LLM的输出一致。如果构造数据的LLM跟训练的LLM不一致，那么不仅仅需要对齐语音和文本，还需要重新学习文本LLM的输出分布，那么就需要放开LLM的权重进行训练，会影响模型本身的文本能力，会逐渐扭曲大模型原本的输出分布或指令跟随能力，最终损害其基于文本的知识！！！

图 2. （左）数据集构建：将音频描述 xtext和随机采样的提示 p输入到基础大模型中，以生成训练目标 y。
（右）模型训练：融合模型使用自生成的目标 y 以及相应的音频输入 xaudio 和提示 p进行训练。火焰和雪花图标分别表示可训练模块和冻结模块。音频解码器为可选组件。

DeSTA2，一种自生成的跨模态对齐框架，通过让基础语言模型生成其自身的训练目标，从而缓解监督信号冲突。具体来说，我们将每个音频片段的元数据转换为结构化的文本描述，并与任意提示词配对；随后，大语言模型生成相应的响应，作为跨模态对齐的训练目标。这种自生成监督确保了风格和语义与大模型原生输出分布保持一致，从而在实现对音频输入的有效适应的同时，保留其指令跟随能力。

自生成数据集构建

Step1：收集多样化的音频数据集，这些数据集包含丰富的元数据信息。将每段音频的元数据转换为结构化的文本格式。

例：语音片段 → "[00:00-00:05] Hello world (Gender:Female, Emotion:Happy...)"
例：音频描述片段 → "[00:00-00:10] (A dog barking)"

Step 2：构建初始配对数据集

形成初始数据集 Dinitial={(x_audio,x_text)}，其中每条音频x_audio 与其对应的文本描述 x_text对齐。

Step 3：采样提示词

从预定义的指令池P 中随机采样一个提示词 p。
指令池包含多样化的提示类型：
- 描述类任务（如 “Describe the audio”）
- 角色扮演类任务（如 “Respond to the audio based on its expression”）
- 开放式问题（如 “Where is the audio being recorded?”）

Step 4：生成训练目标

将文本描述 x_text 与提示词 p 输入到大语言模型。
模型输出响应 y=LLM(x_text,p)。

Step 5：形成最终训练数据集

构建最终的数据集D=(x_audio , x_text, p , y)。
每条样本包含：音频输入、对应文本描述、提示词、以及大模型生成的响应。

该方法的一个关键优势在于，它能够保留大语言模型对输入的原生理解与响应方式，从而保证训练数据在风格与语义上的一致性。举例来说，我们观察到经过指令调优的 Llama3.1往往会生成带有解释性的回答，使用项目符号组织内容，并且常常在正文前包含问候语。这些特定于模型的风格模式会自然地体现在生成的数据中。因此，虽然该构建流程可兼容任意文本类大模型，但在跨模态对齐任务中，采用相同模型（即自生成方式）是最合理的设计。

模型训练

采用 Llama3.1-8B-Instruct 和 Whisper-large-v3，六层 Q-former 【 64 个查询】架构。

预训练的音频模型与经过指令调优的大语言模型（LLM）进行融合。为了实现音频与语言模态之间的桥接，我们在二者之间引入了由 Q-Former 块 构成的模态适配器。

音频模型与 LLM 参数均被冻结，仅对模态适配器进行微调，以学习稳健的音频–文本对齐表征。融合模型在三元组形式(x_audio,p,y) 上进行训练。

输入音频x_audio 可选地通过音频解码器转录为文本序列 t∈R^L，其中 L 为序列长度。该转录结果进一步输入 LLM 的词嵌入层，用于增强语言对齐。

优化器：Adam
学习率调度：余弦退火（cosine annealing），包含 2000 步预热
训练轮数：5 epoch
硬件配置：8 张 NVIDIA A100-80GB GPU
全局 batch size：96
初始学习率：1e-4
总训练步数：约 250,000 steps

Dataset

元数据包括副语言特征（例如音高、响度、语速、韵律、音色、情绪基调和说话风格）、说话者身份属性（例如口音、性别和年龄）、音频质量指标（例如背景噪音水平、混响以及伪造或合成音频）以及环境或情境声音（例如动物叫声、人类动作、环境声音、乐器、音乐类型和自然环境）。

数据集总计约 7,000 小时音频：5,400 小时语音、1,000 小时环境声音和 500 小时音乐。

关于指令池，为语音类别挑选了 4,000 个提示，为环境声音和音乐类别挑选了 3,000 个提示。

响应均使用 vLLM 工具包 生成，解码参数设定为 temperature = 0.05、top-p = 1.0。通过这一过程，我们构建了一个规模约 500 万条音频–提示–响应三元组 的大规模数据集，命名为 DeSTA-AQA5M，并将其作为 DeSTA2.5-Audio 的训练语料。

实验结果

模型在多个基准测试中的排名呈现出一致的趋势。值得注意的是，DeSTA2.5-Audio 始终展现出卓越的性能，凭借在各种音频语言任务中强大的泛化能力，成为表现最佳的模型。它在 Dynamic-SUPERB Phase-1（69.53）、MMAU（57.50）、SAKURA-Multi（69.85）和 Speech-IFEval（93.89）上均取得了最高分，彰显了其在多个领域和条件下的稳健性和泛化能力。

消融实验：【核心】

如表三所示，自生成的训练数据始终表现出较低的困惑度，这表明生成的响应与主干 LLM 的分布很好地一致。比较 Llama3.1 (A1) 和 Qwen2.5 (A2)，Qwen2.5 在所有基准测试中始终优于 Llama3.1。这种性能差距可能归因于 Qwen2.5 更强大的文本生成能力。虽然 Qwen2.5 在基本内容理解任务中的表现与 Llama3.1 相对相当，但它在其他领域表现更佳，例如 Dynamic-SUPERB Phase-1 中的说话人分类，以及 MMAU 中的环境声音和音乐理解。先前对基于文本的基准测试的评估也表明，与 Llama3.1 相比，Qwen2.5 表现出更出色的推理和数学能力。然而，目前尚无确凿证据表明在听觉感知方面有相应的优势，这值得进一步研究。尽管如此，在相同的训练条件下，我们的实验结果表明 Qwen2.5 作为主干 LLM 比 Llama3.1 更有效。这些发现也表明我们的训练框架在不同 LLM 上具有良好的泛化能力。

提示多样性对模型性能也起着重要作用，尤其是在 A1 和 A3 的比较中。在 A3 中，我们采用了使用单个描述性提示 (1-p) 的自生成设置，已经展示了强大的零样本泛化能力。通过简单地增加提示多样性（就像在 A1 中所做的那样），进一步丰富了训练目标并提高了训练方法的整体有效性。值得注意的是，这些结果是在不需要任何特定于任务的指令对的情况下实现的。这凸显了自生成设计的优势。即使数据构建完全依赖于随机抽样的提示，该模型仍然可以利用 LLM 的固有功能实现零样本生成。

比较自生成和跨模型设置时，跨模型设置中的训练目标会导致更高的困惑度，这表明主干 LLM 对数据分布的熟悉程度较低。例如，虽然在 Qwen2.5 生成的数据 (A2) 上训练 Qwen2.5 会产生很好的结果，但在 Qwen2.5 生成的数据 (B1) 上训练 Llama3.1 会导致模型退化，输出包含重复或无意义的标记。同样，在 Gemma3-12B (B2) 生成的数据上训练 Llama3.1 也无法达到在自生成设置 (A1) 中观察到的性能。这些结果支持了我们的分布不匹配假设，并强调了使用自生成配置的重要性，即使在注释器 LLM 功能更强大的情况下也是如此。我们还探索了使用 Llama3.1-70B 生成训练数据 (B3)，它代表了同一系列中更强大的模型。在这种情况下，较低的困惑度 (2.20) 表明训练数据与 Llama3.1 的分布更加一致。然而，与 A1 相比，B3 在 Dynamic-SUPERB 和 SAKURA 上取得了更好的表现，但在 MMAU 和 Speech-IFEval 上表现不佳。这表明使用更强大的模型并不一定能在所有任务上带来一致的改进。

在 LoRA 适配器设置中，我们向骨干 LLM 引入了可训练参数，预计这将提升模型容量并有助于缓解分布不匹配问题。在自生成设置 (C1) 中，数据集与骨干 LLM 高度对齐，我们发现添加 LoRA 层可获得相似或略微提升的性能。这表明，在自生成设置下，加入 LoRA 适配器并不能带来显著的优势。换句话说，在使用我们提出的训练框架时，微调轻量级模态适配器足以实现跨模态对齐，其中模型专注于学习听觉概念，而不会受到风格或分布不匹配的影响。有趣的是，当使用 Qwen2.5 生成的数据 (C2) 进行训练时，在 Dynamic-SUPERB、MMAU 和 SAKURA-Single 等音频处理基准测试中的表现与自生成设置 (A2) 相当。然而，它们在 SAKURA-Multi 和 Speech-IFEval 中的表现显著下降，这需要额外的文本知识和指令遵循能力。这一差异表明，虽然添加 LoRA 适配器有助于缓解分布不匹配问题，并在领域内任务中取得良好表现，但在需要 LLM 预训练知识的基准测试中，它仍可能降低模型的通用能力。这揭示了当前 LALM 训练策略的一个关键设计缺陷。LTU-AS 和 SALMONN 等模型试图通过在 LLM 中引入 LoRA 适配器层来解决灾难性遗忘问题。然而，我们的实验结果表明，减少训练数据和模型分布之间的差异对于保持泛化能力是比单纯的架构修改更为关键的因素。

在 5 个 epoch 的设置下，我们研究了训练时长对模型性能的影响。5 个 epoch 的结果（D1 和 D2）表明，即时多样性不仅提升了有效性，也提高了训练效率。尽管训练次数仅为 epoch 的一半，但这些模型的性能与 10 个 epoch 的模型（A1）相当。值得注意的是，虽然 D2 随着训练时间的延长而持续改进（与 A3 类似），但收敛速度较慢，最终性能仍然较差，这表明多样化的训练目标对于实现更好的对齐效果也至关重要。相比之下，尽管 D3 仅用 5 个 epoch 就取得了不俗的性能，但 B1 表明在分布不匹配的情况下延长训练会导致模型退化。这些发现强调了我们的主要动机：有效的跨模态对齐需要反复训练以在不同 epoch 之间对齐音频表征。当训练数据与骨干模型匹配时，性能会稳步提升，而不会降低模型固有的语言能力。相反，从不匹配的数据中学习会给模型带来更重的负担，最终导致性能不佳并忘记其预先训练的语言能力。

摘要：容量变大，激活参数不线性变大

引言：多语种统一模型的容量问题

相关工作：专家模型与语言信息

MoE Conformer：把专家放在 FFN 位置

实验设置

数据

模型细节

结果与比较

消融实验

与 dense baseline 和 adapter 比较

Shallow Fusion 进一步提升

结论：MoE 的部署价值在于“不需要语言标签”

快手论文：Parameter-Efficient Conformers，利用MOE进行模型裁剪

摘要：少参数，不想少能力

引言：Conformer 很强，但部署不轻

背景：Conformer Seq2Seq ASR

方法：共享稀疏门控专家

Conformer 参数共享

MoE 动态路由

独立路由器与归一化

隐藏层知识蒸馏

训练目标

与已有工作的关系

实验：

实验设置

结果与分析

结论与未来方向

摘要：用专家分工处理异质音频

引言：音频不是一种单一分布

相关工作

大音频语言模型

MoE 架构

方法

整体框架

稀疏 MoE Adapter

训练目标

实验

实验设置

主结果

消融实验

专家分工与优化动态分析

专家均衡如何影响路由

梯度冲突与缓解机制

结论

局限性

附录：超参数和工程含义

一、ASR 在「现实世界环境」为什么不行？

二、数据：Voices-in-the-Wild-2M

三、Mega-ASR

1. A2S-SFT：从声学 → 语义递进微调

2. DG-WGPO：双粒度 WER 门控策略优化

3. 环境感知路由（Router）

三、Experiments

Main results

Analysis

Challenge

Methodology

Model

Training Recipe

第一阶段：编码器预训练

Stage 2: Alignment & Stage 3: IA-SFT

Stage 4: Late Joint SFT

Stage 5: Context SFT

Stage 6: ASR Specialized RL

Additional Stage: Phoneme Head Training for RAG

Training Setup

Inference

优化流式推理

Phoneme-based RAG（音素级热词检索）

Evaluation

总结：

1. 模型定位：从多模态理解走向全模态交互

2. 模型设计：Thinker-Talker + Hybrid MoE

3. ARIA：解决流式语音中的文本-语音速率错配

4. 数据与训练流程

5. 流式延迟与并发

6. 实验结果：理解能力基本不牺牲，音频能力明显增强

7. 关键创新点

8. 局限

Introduction