Qwen3-Omni :原生端到端的多语言全模态大模型

 Qwen3-Omni ,这是一个原生端到端的多语言全模态基础模型。它旨在处理包括文本、图像、音频和视频在内的各种输入,同时提供文本和自然语音的实时流式响应。

💜 Qwen Chat   |   🤗 Hugging Face   |   🤖 ModelScope   |   📑 Blog   |   📚 Cookbooks   |   📑 Paper  
🖥️ Hugging Face Demo   |    🖥️ ModelScope Demo   |   💬 WeChat (微信)   |   🫨 Discord   |   📑 API

主要特点:

  • 原生全模态:Qwen3-Omni是原生全模态大模型,预训练全模态不降智
  • 强大的性能:Qwen3-Omni在36项音频及音视频基准测试中斩获32项开源SOTA与22项总体SOTA超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强模型,同时其图像和文本性能也在同尺寸模型中达到SOTA水平。
  • 多语言Qwen3-Omni支持119种文本语言交互、19种语音理解语言与10种语音生成语言
  • 更快响应Qwen3-Omni纯模型端到端音频对话延迟低至211ms,视频对话延迟低至507ms。
  • 长音频Qwen3-Omni支持长达30分钟音频理解
  • 个性化:Qwen3-Omni支持system prompt随意定制,可以修改回复风格,人设等。
  • 工具调用:Qwen3-Omni支持function call,实现与外部工具/服务的高效集成。
  • 开源通用音频Captioner开源Qwen3-Omni-30B-A3B-Captioner,低幻觉且非常详细的通用音频caption模型,填补开源社区空白。

模型架构

Qwen3-Omni采用Thinker-Talker架构:Thinker负责文本生成,Talker专注于流式语音Token生成,直接接收来自Thinker的高层语义表征。为实现超低延迟流式生成,Talker通过自回归方式预测多码本序列:在每一步解码中,MTP模块输出当前帧的残差码本,随后Code2Wav合成对应波形,实现逐帧流式生成。

  • 创新架构设计AuT:音频编码器采用基于2000万小时音频数据训练的AuT模型,具备极强的通用音频表征能力。MoE:Thinker与Talker均采用MoE架构,支持高并发与快速推理。多码本技术:Talker采用多码本自回归方案——每步生成一个编解码帧,MTP模块同步输出剩余残差码本。
  • 全模态不降智在文本预训练早期混合单模态与跨模态数据,可实现各模态混训性能相比纯单模态训练性能不下降,同时显著增强跨模态能力。
  • 卓越的语音对话与指令跟随能力Qwen3-Omni在语音识别与指令跟随任务中达到Gemini-2.5-Pro相同水平。
  • 实时音频和音视频交互AuT,Thinker, Talker + Code2wav全流程全流式,支持首帧token直接流式解码为音频输出。

Qwen3-Omni models

  • Qwen3-Omni-30B-A3B-Instruct:包含 thinker and talker ,支持音频、视频和文本输入,并可输出音频和文本。
  • Qwen3-Omni-30B-A3B-Thinking:包含 thinker ,配备思维链推理功能,支持音频、视频和文本输入,并输出文本。
  • Qwen3-Omni-30B-A3B-Captioner:基于 Qwen3-Omni-30B-A3B-Instruct 微调的下游音频细粒度字幕模型,能够为任意音频输入生成细节丰富、低幻觉的字幕。它包含thinker ,支持音频输入和文本输出。

Introduction

当前多模态的训练会出现一种模态的提升伴随着其他模态的退化,该工作探索在当前主流的基于大语言模型(LLM)的范式下实现集成式多模态训练,证明了联合多模态训练可以在所有模态上实现性能均衡,即不存在模态特异性的性能下降,同时显著增强跨模态能力。关键在于:在文本预训练的早期阶段混合单模态和跨模态数据。

关键:在文本预训练的早期阶段混合单模态和跨模态数据。预训练早期的多模态融合允许语言模型与视觉或音频共同训练,而不会导致语言能力下降;文本模态的加入显著提升了视觉和音频的性能,但从视觉或音频信号中并未观察到语言能力的显著提升;从经验来看,加入音频数据可以持续提升视觉模态在 MMMU 基准和 OCR 相关任务上的表现。

Qwen3-Omni 对 Qwen2.5-Omni的架构进行五项关键升级:

  • Thinker 与 Talker 均升级为 MoE(专家混合)结构,提升模型容量与任务适应性。 
  • 使用自研的 AuT(Audio Transformer)编码器替换Whisper编码器,该编码器在 2000 万小时的有监督音频上从零训练而成,能够提供更强的通用音频表示能力。AuT 使用分块窗口注意力(block-wise window attention),以实现实时的 prefill 缓存。
  • 在语音生成端,引入多码本表示,其更高的表达容量有助于更真实地建模多样化的音色、超语段要素以及声学现象。
  • Talker 从单轨 codec 建模升级为多轨 codec 建模,通过 MTP 模块自回归地预测多个码本层;同时波形生成阶段用轻量级卷积网络(ConvNet)替代了分块式 DiT。
  • 输入与输出音频码率均降低至 12.5 Hz,且输出 codec 支持单帧、即时的语音合成。

此外,还有四个大的改进:

  • 支持超过 40 分钟的长音频理解
  • 扩展语言覆盖范围:支持 119 种书写语言、19 种口语理解语言,以及 10 种口语生成语言;
  • Thinking 模式实现全模态推理,包括音频—视频场景与仅音频场景;
  • 流式性能进一步提升,端到端延迟最低可达 234 毫秒

最核心的是 Qwen3-Omni 在文本与视觉模态上保持了与同规模单模态 Qwen 模型一致的最先进性能,没有出现性能退化

Architecture

  • Thinker 与 Talker 均采用 Mixture-of-Experts(MoE)架构,以支持高并发与快速推理。
  • Talker 不再只使用 Thinker 的高级文本表征,而是基于音频与视觉的多模态特征进行条件建模。其设计动机如下:
    (i) 对于文本内容而言,离散 token 与其 embedding 在信息量上基本等价;
    (ii) 多模态条件对于音频–视频协调的语音生成(例如在语音翻译中保持韵律/音色)是必要的。
    此外,这种解耦使外部模块(如 RAG、函数调用、安全过滤器)能够对 Thinker 的文本输出进行干预,并在需要时通过受控预处理将文本输入给 Talker,用于流式合成
  • 由于文本表征被解耦,Thinker 和 Talker 可以使用不同的系统提示语(system prompts),从而分别控制 Thinker 的文本响应风格与 Talker 的音频生成风格。
  • Talker 采用多码本(multi-codebook)自回归方案:每一步生成一个 codec 帧,剩余的残差码本由 MTP 模块预测完成。
  • Code2Wav 以轻量级因果卷积网络(causal ConvNet)实现,简化了音频合成的最终阶段。

在训练和推理过程中,Talker 直接接收来自 Thinker 的高维多模态特征,并共享完整的对话历史。因此,整个系统作为一个整体运行,实现端到端训练与统一推理。

Audio Transformer (AuT)

Audio Transformer(AuT)是一种注意力式的 encoder–decoder 模型,如图 3 所示,在 2000 万小时的有监督音频数据上从零训练而成。训练过程中,音频的滤波器组特征(filter bank features)在进入注意力层之前,通过 Conv2D 模块进行 8 倍下采样,将 token 速率降至 12.5 Hz。为了学习更强大、更通用的音频表示,AuT 在大规模音频数据集上进行训练,涵盖语音识别与音频理解任务。具体而言,训练数据组成如下:

  • 80% 中文与英文的伪标签 ASR 数据;
  • 10% 其他语言的 ASR 数据;
  • 10% 音频理解数据

为在实时 prefill 缓存效率与离线音频任务性能之间取得平衡,AuT 使用具有动态注意力窗口大小的 flash attention,覆盖从 1 秒到 8 秒的注意力查询模式。将 AuT encoder 用作音频编码器,模型参数约为 0.6B

Perceivation (感知)

Text, Audio, Image and Video (w/o Audio).

Thinker 将文本、音频、图像与无音轨视频转换为一系列可作为输入的表征。文本基于Qwen3文本分词器,语音处理为16 kHz,并将原始波形转换为 128 维 Mel 频谱图,通过AUT编码,每一帧音频表示约对应原始音频信号的 80 ms。视频编码器基于Qwen3-VL 的视觉编码器(SigLIP2-So400m),可同时处理图像与视频输入。为了尽可能保留视频信息并与音频采样率对齐,我们采用动态帧率采样视频帧。

Video and Multimodal Position Embedding (TM-RoPE)

参考Qwen2.5-Omni,使用 时间对齐的多模态旋转位置编码(TM-RoPE),它在多模态旋转位置编码(M-RoPE)基础上加入了绝对时间信息。TM-RoPE 将传统旋转位置编码分解为三个维度:

  • 时间维(temporal)
  • 高度维(height)
  • 宽度维(width)

在原始 M-RoPE 中,时间相关性由前 16 个旋转角建模,这些角对应高频且震荡更强的模式。该设计有利于捕获局部时间变化,但会影响模型对长序列的外推能力。

为解决这一问题,我们重新分配了旋转角数量:

  • 时间维 24 个
  • 高度维 20 个
  • 宽度维 20 个

该分配在局部语义与长程依赖之间实现了更平衡的表示,从而提升整体性能。

TM-RoPE 会根据输入模态的不同进行定制化应用:

  • 文本模态:三个维度共享相同的位置 ID,使 TM-RoPE 等价于一维 RoPE。
  • 音频模态:同样共享位置 ID,并额外加入绝对时间编码,每个时间 ID 对应 80 ms。
  • 图像模态:所有视觉 token 分配相同的时间 ID,而其行列位置分别决定高度与宽度的 ID。

对于音视频输入:

  • 音频:每 80 ms 分配一个时间 ID;
  • 视频:每帧视频根据其真实时间戳分配 递增的时间 ID,动态调整以确保与音频保持 80 ms 分辨率对齐
  • 视频的高度与宽度 ID 与静态图像保持一致。

为避免多模态之间的位置冲突,所有模态的位置编号保持连续,每种模态的起始位置 ID 为前一种模态最大位置 ID 加一。该精细化的位置编码方案使模型能够有效整合并联合建模多模态信息。

相较 Qwen2.5-Omni 的关键区别:不同于 Qwen2.5-Omni 将音视频表示强制切分为固定的 2 秒块,Qwen3-Omni 直接基于绝对时间的时间 ID 对齐多模态表示。这种设计赋予模型处理任意时长流式输入的灵活性。

Speech Generation

在多轮对话的语音合成中,Talker 模块依赖于由 Thinker 组件提供的丰富上下文,该上下文包括历史文本 token多模态表示以及当前轮的流式文本。对长上下文信息的依赖至关重要,因为高保真语音合成需要根据当前对话动态调整声学属性,如韵律、响度和情感,这一原则在上下文感知生成模型中已被充分验证。

在架构上,直接在 RVQ token 上进行操作。Talker 采用层次化预测策略:骨干网络(backbone)输入当前帧的聚合码本特征,并通过线性头预测第零码本,随后多 token 预测(MTP)模块生成所有剩余码本。这一策略使模型能够学习声学细节的完整表示,从而增强语音的表现力。因此,波形重建被简化为轻量级因果卷积网络(Code2Wav),在显著降低推理延迟和计算开销(FLOPs)的同时,相比更复杂的基于 DiT 的声码器实现了更高的音频保真度。

流式与并发设计

在流式视听交互场景中,首包延迟是影响用户体验的关键因素,而模型的并发能力对于降低服务成本和提高响应速度至关重要。下面是 Qwen3-Omni 如何通过算法与架构优化提升并发性并降低首包延迟。

分块预填充与 MoE 架构。在 Qwen3-Omni 中,保留了 Qwen2.5-Omni 中的分块预填充机制,其音频和视觉编码器能够沿时间维度输出分块(chunk)。在实时交互中,ThinkerTalker 模块执行异步预填充:当 Thinker 完成当前块的预填充后,其输出的高层表示会立即异步用于预填充 Talker 的当前块,同时 Thinker 预填充下一块。这种方法显著降低了 Thinker 和 Talker 的 Time-To-First-Token (TTFT)

在架构上,Qwen3-Omni 的 Thinker 与 Talker 均采用 MoE设计,这对于提升服务吞吐量非常有效。与稠密模型相比,MoE 架构在处理长序列时显著降低了 KV 缓存带来的 IO 消耗,从而提高生成过程中的每秒 token 数(TPS)并增强并发性能。

流式多码本编解码生成:为了最小化用户接收首个生成包的等待时间,提出了仅左侧上下文的多码本生成机制。如图 2 所示,一旦 Talker 生成第一个 token,MTP 模块即可预测当前帧的剩余 token,然后由流式多码本编解码器将其解码为波形,该编解码器仅关注左侧上下文。与 Qwen2.5-Omni 需要等待 Talker 生成足够块级上下文才能合成波形不同,Qwen3-Omni 在 Talker 生成每个 token 后即可输出波形,从而显著降低首包延迟。

轻量级 MTP 模块与 ConvNet:MTP 模块和编解码器均为轻量级模块,计算 FLOPs 低,支持批处理推理,非常适合高并发场景。MTP 模块是超轻量级、固定步长的自回归稠密 Transformer,在推理硬件上对内存带宽要求低,从而天然支持高吞吐量请求的批处理。其固定步长自回归推理机制允许高效利用固定 KV 缓存空间加速,实现低延迟推理。同时,基于 ConvNet 的编解码器也能在低延迟下实现高吞吐量,因为其卷积架构在多种推理平台上均有广泛硬件加速支持,并且支持高效的批处理推理。

表 2 给出了 Qwen3-Omni 在典型计算资源下,不同并发场景下的理论首包延迟(first-packet latency)。实验在 vLLM 框架上进行,用于处理并发的视听流,同时对 MTP 模块和编解码器采用了 torch.compileCUDA Graph 加速优化。

首包延迟受到多个因素影响:

  1. Thinker 与 Talker 的模型规模会影响尾包预处理延迟(包括音频和视觉编码器的多模态数据预处理和推理)以及 Time-To-First-Token (TTPT)
  2. MTP 模块与编解码器的架构与规模会影响它们的推理延迟。

由于这些组件之间存在顺序依赖,总体首包延迟是各个延迟的累加。结果显示,Thinker 和 Talker 的 MoE 架构 能确保在高并发下,其预填充延迟和 TTPT 基本不受影响。同时,MTP 模块和编解码器的轻量化设计最小化了计算开销,对首包延迟的影响也很小。

此外,在输出首个数据包后,模型开始进行流式音频合成,由于 Talker 的 token 生成速率为 12.5 Hz,每个 token 即可合成 80 ms 的音频。因此,生成实时因子(RTF)通过以下公式计算:

实验结果表明,RTF 在不同并发水平下始终低于 1,确保用户能够持续接收流式音频响应

Pretraining

Qwen3-Omni 在一个多样化的数据集上进行预训练,该数据集涵盖多种语言和方言(如表 3 所示)以及多种模态,包括图文、视频文本、音频文本、视频音频、视频音频文本以及纯文本语料库。与 Qwen2.5-Omni 使用每个任务单一提示词不同,我们采用更丰富的自然语言提示,以增强模型的泛化能力指令遵循能力。为了在所有模态下实现稳健性能,训练策略从早期预训练阶段就整合了单模态和跨模态数据。

Qwen3-Omni 的预训练分为三个阶段:

  • 编码器对齐阶段:音频和视觉编码器在固定的 LLM 上单独训练,最初重点训练各自的 adapter,随后再训练编码器本身。不采用在冻结 LLM 的情况下联合训练编码器与 adapter 的方法,因为该方法可能导致编码器过度补偿冻结 LLM 的限制,从而降低感知能力。
  • 通用阶段:使用了一个大规模数据集,约含 2 万亿 token,其中文本:0.57 万亿、音频:0.77 万亿、图像:0.82 万亿、视频:0.05 万亿、视频-音频:0.05 万亿。在此阶段,引入更多样化的多模态数据和任务,增强了模型在听觉、视觉、文本及视听信息上的理解与交互能力。
  • 长上下文阶段:最后,将最大 token 长度从 8,192 提升至 32,768,并增加了训练数据中长音频和长视频的比例。实验结果表明,这些调整显著提升了模型对长序列数据的理解能力。

后训练

Thinker

后训练阶段包括对 Thinker 的三阶段训练,使 Qwen3-Omni 具备指令遵循能力。训练数据集采用 ChatML格式,涵盖纯文本对话、视觉模态对话、音频模态对话以及混合模态对话数据。

第一阶段:轻量化监督微调(SFT)
通过有针对性的指令优化,将预训练表示与下游任务需求进行桥接。SFT 有意偏离预训练数据结构,但保持与预训练模型的架构一致,以实现高效的知识迁移,同时保留预训练特征的完整性。

第二阶段:强对弱蒸馏(Strong-to-Weak Distillation)采用 Qwen3中描述的蒸馏流程,包括两个阶段:

  1. 离策略蒸馏(Off-policy Distillation):初期阶段,教师模型生成的输出被整合,用于响应蒸馏。这帮助轻量学生模型掌握基础推理能力,为后续的在线训练奠定基础。
  2. 在线蒸馏(On-policy Distillation):学生模型根据采样提示生成响应序列,随后进行微调,将学生预测的 logits 与教师模型(Qwen3-32B 或 Qwen3-235B-A22B)的 logits 对齐,通过最小化 KL 散度进行优化。

第三阶段:GSPO 强化,利用 GSPO全面提升模型在文本、图像、视频和音频等多模态上的能力和稳定性。针对不同模态使用两类奖励信号:

  • 规则基奖励(Rule-based Reward):用于可验证的多模态任务(如数学、编码、指令遵循),奖励信号源自预定义规则,可高精度评估模型输出的正确性,避免奖励漏洞(reward hacking)。
  • 模型基奖励(Model-based Reward):用于缺乏客观评价指标的多模态任务,采用 LLM 作为评估者(LLM-as-a-judge)协议。通用任务由 Qwen3 担任评估,视觉-语言任务由 Qwen2.5-VL 担任评估。评估过程中,LLM 可获取对应的真实答案或参考答案,以实现更稳健、可靠的评价。

Talker

Talker 采用四阶段训练,使 Qwen3-Omni 能够同时生成文本与语音响应。训练数据统一采用 ChatML 格式,确保与 Thinker 的一致性。

  1. 第一阶段:使用数亿条带多模态上下文的语音数据训练 Talker,建立从多模态表示到语音的单调映射关系。
  2. 第二阶段:进行高质量数据的持续预训练(Continual Pretraining, CPT),缓解第一阶段噪声数据导致的幻觉问题,显著提升语音生成质量。同时进行长上下文训练,增强 Talker 处理长复杂输入并生成语境适配语音的能力。
  3. 第三阶段:构建多语言语音偏好对(preference pairs),通过 直接偏好优化(Direct Preference Optimization, DPO)提升多语言语音生成的泛化能力和系统稳定性。
  4. 第四阶段:对基模型进行说话人微调(speaker fine-tuning),使 Talker 可以采用特定声音,并优化语音自然度、表现力和可控性。

Captioner

字幕生成是多模态理解的基础任务,也是大型多模态模型训练与评估的重要组成部分。然而,现有研究大多集中在视觉字幕生成,较少关注音频模态,而听觉感知是人类感知与交互的重要组成。为弥补这一空白并推动多模态感知研究,我们提出 Qwen3-Omni-30BA3B-Captioner。该模型通过在大规模音频描述数据集上微调 Qwen3-Omni-30B-A3B 得到,可为任意音频输入生成详细、低幻觉的字幕。

Evaluation

对一系列模型进行了全面评估,包括 Qwen3-Omni-30B-A3B-InstructQwen3-Omni-30B-A3B-Thinking 以及两款内部开发的变体 Qwen3-Omni-Flash-InstructQwen3-Omni-Flash-Thinking。这些 “Flash” 模型旨在提升计算效率和性能,同时引入新功能,尤其是对多方言的支持。评估结果分为两大类:理解能力(X→Text)语音生成能力(X→Speech)

X→Text 评估

Qwen3-Omni 理解各种多模态输入(文本、音频、视觉以及视听视频)并生成文本响应的能力。

文本→文本:评估通用任务、推理能力、编码能力、对齐任务、代理(Agent)以及多语言任务。

  1. 表4 :Qwen3-Omni-30B-A3B-Instruct 的性能在多个基准任务中超过 了更大的开源模型 Qwen3-235B-A22B Non-Thinking 以及强大的闭源模型 GPT-4o-0327
  2. 表5:Qwen3-Omni-30B-A3B-Thinking 的表现与 Gemini-2.5-Flash-Thinking 以及Qwen3-235B-A22B Non-Thinking 接近。
  3. Qwen3-Omni-30B-A3B 在文本任务中的表现也与其对应的纯文本模型版本保持一致,包括:Qwen3-30B-A3B-Instruct-2507Qwen3-30B-A3B-Thinking-2507

音频→文本:分为基础音频任务和高级音频任务两类。基础任务包括自动语音识别(ASR)、语音转文本(S2TT)以及音乐理解;高级任务包括语音聊天和音频推理。另外,还评估模型在各种音乐信息检索任务上的能力,如流派识别、情感与主题识别、乐器识别以及音乐关键词标注。

表 6 所示,Qwen3-Omni-Instruct 在 Librispeech、Wenetspeech、Fleurs、CommonVoice、Opencpop-test 以及 MIR-1K(vocal)等数据集上取得了英语与中文 ASR 以及歌词识别的最新最优性能(SOTA)。在多语言 ASR 和 S2TT 任务上,Qwen3-Omni 的表现同样优于或可与其他专业模型或通用模型(如 Voxtral-Small 和 Gemini-2.5-Pro)媲美。这些结果表明 Qwen3-Omni 在语音识别与语音翻译任务上具备非常强的能力。

此外,如表 7 所示,Qwen3-Omni-Thinking 在 VoiceBench 上取得了 89.5 的平均得分,超过了除 Gemini-2.5-Pro(89.6)之外的所有其他音频大模型,展现出优秀的语音交互能力。

在音频推理方面,Qwen3-Omni 同样表现突出:在 MMAU 基准上超越了强大的闭源模型 Gemini-2.5-Pro 与 Gemini-2.5-Flash,在 MMSU 上超过了 Gemini-2.5-Flash 和 GPT-4o-Audio。

表 8 中将 Qwen3-Omni-Instruct 与通用音频语言模型和专业音乐模型进行了比较。Qwen3-Omni-Instruct 在 RUL-MuchoMusic 上取得了最新最优(SOTA)表现。在 GTZAN、MTG-Jamendo 以及 MagnaTagATune 上,Qwen3-Omni-Instruct 的得分也显著超过了其他音频语言模型(包括 Gemini-2.5-Pro 和 GPT-4o-Audio),并超过了在这些数据集上测试的多种自监督音乐专业模型。

视觉→文本:通用视觉问答能力、数学与 STEM 推理能力、文档理解能力、数值推理与计数能力、动态视觉数据理解能力。将 Qwen3-Omni-InstructQwen2.5-VL-72B 以及其他表现优异的闭源视觉语言模型进行了对比。如表 9 所示,Qwen3-Omni-Instruct 的整体表现与 Qwen2.5-VL-72B 相当,并且在 数学与 STEM 相关任务(如 MMMU-Pro overall、MathVista mini、MATH-Vision full)上取得了优于 GPT-4o 和 Gemini-2.0-Flash 的成绩。

Qwen3-Omni-Thinking 与多种最先进推理模型进行了比较。
表 10 的结果显示,我们提出的模型取得了显著的性能提升。例如,在 数学与 STEM 基准 上,它比 Qwen3-Omni-Instruct 基线提升了 4.4 个点
值得注意的是,Qwen3-Omni-30B-A3B-Thinking 的性能已经可与规模更大的模型相媲美,展现了在 性能与计算效率之间的优秀平衡

然而,该模型仍存在一个限制:在 长视频任务 上表现不佳。原因:1、位置外推能力有限(positional extrapolation)2、上下文长度受限

音视频→文本:在 WorldSense 进行基准测试以及两个视听推理基准进行测试。在 通用理解任务 中,Qwen3-Omni-Instruct 在 WorldSense 基准上实现了当前最佳性能,并以显著优势超越了其他 Omni 模型。该结果表明其在基础多模态信息融合方面具有卓越能力。

X→Speech 评估

评估主要集中在给定文本条件下的语音生成,即与文本到语音(TTS)任务的相似性,评估内容包括以下三个方面:

  • 零样本语音生成:内容一致性(WER,字错误率)和说话人相似性(SIM)方面的表现
  • 多语言语音生成:评估模型在零样本条件下生成多语言语音的内容一致性与说话人相似性。
  • 跨语言语音生成:评估模型在零样本条件下进行跨语言语音生成的内容一致性。

零样本语音生成:

如表 13 所示,Qwen3-Omni 展现了 高度竞争力的性能,凸显了其通过预训练及持续预训练所获得的稳健语音理解与生成能力。此外,通过 强化学习(RL)优化,Qwen3-Omni 在语音生成的稳定性方面也取得了显著提升,并在 test-en 数据集上达到了最佳性能。

多语言语音生成:

Qwen3-Omni 支持跨 10 种语言 的语音生成。我们将其性能与 MiniMax-SpeechElevenLabs Multilingual v2 模型在多语言语音生成任务上进行了对比。

如表 14 所示,Qwen3-Omni 在 中文、英文和法语 等语言上显著超越了其他模型,并在其余语言中取得了具有竞争力的结果

跨语言语音生成评估:Qwen3-Omni 在 any-to-en(任意语言到英语)any-to-ko(任意语言到韩语) 的语音克隆任务中均优于 CosyVoice3。在 any-to-ja(任意语言到日语) 任务中,即便 未进行文本规范化,Qwen3-Omni 仍能达到与 CosyVoice3 相当的性能,而 CosyVoice3 会将所有日语字符转换为假名(kana)。

跨模态性能不退化评估

由于不同模态的异质性,每种模态都需要不同的预训练目标和优化技术,因此采用标准化的数据整合方法变得不切实际。为了确保公平而严格的评估,我们设计了一个 受控对比实验。具体方法如下:我们预训练了三个参数量匹配的模型:仅文本基线模型(text-only baseline)、仅视觉基线模型(vision-only baseline)以及多模态 “Omni” 模型。为了隔离多模态效应,所有潜在的混淆变量都得到了精确控制。具体而言,Omni 模型使用与单模态基线相同的文本和视觉语料进行训练。此外,我们在所有模型间对关键训练参数进行了对齐,包括学习率策略、批大小以及每种模态的有效训练轮数(通过调整数据采样比例进行归一化)。因此,本实验中唯一的区别在于 Omni 模型在预训练阶段加入了额外的音频和视听数据。

如表 16 所示,我们评估了涵盖多种模态的综合基准,包括:文本模态(通用任务、数学与 STEM 任务、编程任务、多语言任务)、视觉模态(大学水平问题、OCR 相关任务)以及视频模态(视频理解任务)。实验结果表明:

  1. 在文本预训练的早期阶段混合单模态与跨模态数据,可以在所有模态上实现更优性能;
  2. 联合多模态训练能够促进不同模态之间的相互增强,从而提升单模态的表现;

这充分展示了 Qwen3-Omni 在多样化评估标准下的通用性与稳健性

根据表 16 及内部实验结果,我们观察到以下规律:

  1. 预训练早期的多模态融合允许语言模型与视觉或音频共同训练,而不会导致语言能力下降;
  2. 文本模态的加入显著提升了视觉和音频的性能,但从视觉或音频信号中并未观察到语言能力的显著提升;
  3. 从经验来看,加入音频数据可以持续提升视觉模态在 MMMU 基准和 OCR 相关任务上的表现。

结论:

Qwen3-Omni 是一个里程碑:据我们所知,它首次提供了证据表明,完全整合的端到端多模态训练可以在不降低核心语言能力和其他模态表现的情况下实现。我们希望与学术社区分享这些成果,并期待能够激发更多相关研究。

未来工作中,我们计划在多个方向进一步推进模型发展,包括多说话人语音识别(multi-speaker ASR)、视频 OCR、视听主动学习,以及增强对基于代理(agent)工作流和函数调用的支持。

相关知识补充:

  1. 关于 Flash Attention原理详解
  2. deepseek技术解读(2) – MTP(Multi-Token Prediction)的前世今生
Deepseek MTP实现

Step-Audio-EditX

Step-Audio-EditX —— 全球首个基于大语言模型(LLM)的开源音频编辑模型,能够在语音的情感、说话风格和副语言特征(如语气、语速、语调等)上实现高度富有表现力且可迭代的编辑,同时具备强大的零样本文本转语音(TTS)能力

核心创新在于:模型仅依赖大间隔(large-margin)合成数据进行训练,无需使用嵌入先验或辅助模块。这种大间隔学习策略使模型能够在多种音色上实现可迭代控制与高表达力,并从根本上区别于传统聚焦于表示层面解耦的思路。实验结果表明,Step-Audio-EditX情感编辑和其他细粒度语音控制任务上均超越了 MiniMax-2.6-hd 和 Doubao-Seed-TTS-2.0

当前 TTS 的问题:由于合成语音中的情感、风格、口音和音色等属性仍然直接来源于参考音频,限制了对这些属性的独立控制,另外,对于克隆语音通常无法有效地遵循提供的风格或情感指令。

许多以往关于语音解耦的研究依赖以下方法来实现属性分离:对抗式训练、特征工程以及创新的网络结构设计。相比之下,文章提出了一种简单但稳定的数据驱动方法。具体来说,我们设计了一条数据生成流程,用于构建高质量的数据对,这些数据对在保持完全相同语言内容的同时,在情绪、说话风格、口音、副语言特征等一个或多个属性上具有明显可区分的差异。通过在这样的数据对上训练模型,能够实现有效的属性解耦,使模型能够对输入语音的属性进行编辑。此外,通过多次迭代的“编辑”步骤,目标属性的强度可以被逐步增强或减弱。除了情绪、风格和副语言特征编辑之外,该方法可以扩展到其他任务,包括语速调整、语音去噪以及静音片段裁剪等。

主要贡献:

  • Step-Audio-EditX,这是首个基于大语言模型(LLM)的开源音频模型,擅长富有表现力且可迭代的音频编辑,涵盖情绪、说话风格和副语言特征,并具备强大的 zero-shot TTS 能力。
  • 实验结果表明,仅通过大间距(large-margin)数据的后训练,即可实现对情绪和说话风格的可控调节,无需额外的呈现建模或适配器模块。
  • 使用大间距数据进行后训练不仅能够实现可迭代的控制与高度的表达能力,而且在跨说话人场景下同样有效,这标志着从传统的基于表征层的解耦方法向新的范式转变。

Architecture

Prompt Text:任务提示/prompt音频对应的文本
Target Text:带合成的音频文本

基于 Step-Audio 中的音频编辑合成模型,主要改进包括扩展了情感和语音风格的范围,增加了零样本文本转语音 (TTS) 和副语言编辑功能,并将模型参数从 130B 减少到 3B。

系统由三个主要组件组成:

  1. 双码本音频分词器:将参考音频或输入音频转换为离散的 token;
  2. 音频大语言模型:生成双码本 token 序列;
  3. 音频解码器:使用流匹配(flow matching)方法,将音频 LLM 预测的双码本 token 序列转换回音频波形。

Audio Tokenizer:采用并行语言分词器(16.7 Hz,1024 码本)和语义分词器(25 Hz,4096 码本),交错比例为 2:3。观察到双码本分词器能够保留大量情感、韵律及其他非语言信息,这表明该方法在信息解耦方面仍不够理想,这一不足恰好使其非常适合作为验证LLM 后训练策略及所提出的大间隔数据驱动方法有效性的实验对象。

Audio LLM:为了充分利用预训练文本 LLM 的强大语言处理能力,3B 模型首先使用基于文本的 LLM 进行初始化,然后在文本数据与音频双码本token以 1:1 比例混合的数据集上进行训练。音频 LLM 以聊天格式处理文本token及其对应的双码本音频token,最终生成双码本token作为唯一输出。

Audio Decoder:音频解码器由 Flow Matching 模块和 BigVGANv2声码器组成。Flow Matching 模块在输出音频令牌、参考音频以及说话人嵌入(speaker embedding)作为条件下生成 Mel 频谱图,而 BigVGANv2 声码器则进一步将 Mel 频谱图转换为音频波形。对于 Flow Matching 模块,采用扩散变换器(DiT)作为骨干网络,并在 20 万小时高质量语音上训练该模型。

Data

SFT 数据:零样本 TTS、情感编辑、说话风格编辑以及副语言编辑。

  1. 零样本文本转语音:中文和英文以及少量粤语四川话的内部数据,总计约 60,000 个独立说话人
  2. 情感与说话风格编辑:高质量数据难以收集,提出简单高效的大边距合成数据方法

该方法在同一说话人之间进行零样本语音克隆,覆盖不同的情感和说话风格,同时确保对比样本对之间具有足够大的差距。仅需 每种情感或风格的一个提示音频片段,避免了昂贵的数据收集成本。此外,该方法巧妙地将复杂的情感与风格描述 转换为基于比较的样本对构建格式。具体方法如下:

  • 声优录音:声优录制表达丰富的情感和说话风格。对于每位声优,每种情感和风格组合录制约 10 秒 的音频片段。
  • 零样本克隆:对于每种情感和说话风格,构建三元组 ⟨文本提示, 中性音频, 情感/风格音频⟩。通过选择同一说话人的对应中性与情感/风格音频作为提示音频,并使用 StepTTS 语音克隆接口 处理,文本指令描述目标属性。
  • 边距评分(Margin Scoring):为评估生成的三元组,我们使用一个小型人工标注数据集训练评分模型。该模型对音频对进行 1-10 分评分,边距分数越高表示效果越理想
  • 边距选择(Margin Selection)根据边距评分阈值筛选样本。该阈值会根据不同情感和风格进行调整,通用下限设为 6 分。

3. 副语言编辑(Paralinguistic Editing)

副语言 如呼吸、笑声以及填充停顿(例如“嗯”),对于提升合成语音的自然度和表现力至关重要。通过使用 “半合成”策略 实现了副语言编辑能力,该策略利用 NVSpeech 数据集——一个表现力丰富的语音语料库,其对多种副语言类型进行了详细标注,从而使得构建用于模型训练的比较四元组成为可能。

四元组 ⟨text_without_tags, audio_without_tags, text_nv_source, audio_nv_source⟩ 的构建方式不同于三元组:它使用 NVSpeech 的 原始音频和转录文本 作为目标输出,而将通过 StepTTS 语音克隆生成的音频作为输入,该音频是基于去除副语言标注后的原始转录文本合成的。

由于副语言编辑是 在时间域上进行的编辑任务,且存在显著的内在边距差异,因此 数据选择不需要边距评分模型。只需一小部分四元组数据,即可有效激发模型的副语言编辑能力。

强化学习数据:基于人工标注,以及使用 LLM-as-a-Judge(大型语言模型作为评判) 方法

人工标注:收集用户提供的真实世界的 提示音频 及对应文本提示,然后使用 SFT 模型生成 20 个候选响应。接着,通过人工标注员根据 正确性、韵律和自然度 对每个响应进行 5 分制评分,构建 选择/拒绝对。仅保留评分边距大于 3 的样本对。

LLM-as-a-Judge:使用理解能力模型对模型响应的 情感和说话风格编辑 进行 1-10 分评分,再根据评分生成偏好对,并仅在最终数据集中保留 评分边距大于 8 分 的样本对。

经过筛选的大边距样本对将用于训练 奖励模型PPO

训练

两阶段:SFT,然后进行 PPO

SFT 阶段通过在 聊天格式下使用不同系统提示来增强模型的零样本文本转语音合成与编辑能力。

  • 在零样本 TTS 任务中,提示音频被编码为 双码本tokens,随后将其解码为字符串形式,并嵌入到系统提示的说话人信息中。待合成文本作为 用户提示,生成的双码本 tokens 则作为系统响应返回。
  • 对于编辑任务,所有操作在统一的系统提示下定义。用户提示包含 原始音频 及编辑操作的描述性指令,系统响应则返回 编辑后的音频 tokens

模型在 SFT 阶段训练 1 个 epoch,学习率范围从 1 × 10⁻⁵ 到 1 × 10⁻⁶

强化学习用于提升模型在 零样本 TTS 的稳定性,以及在执行编辑指令时的能力和表现力。当 源提示音频与目标编辑输出在情感或风格上存在显著差异 时,这种提升尤为明显,例如将快乐语音生成悲伤语音,或将高音量语音转换为耳语。

该强化学习方法提供了一种新的思路:不再单纯追求理想的语音表示解耦,而是同时优化大边距样本对的构建与奖励模型的评估效果

奖励模型从 3B SFT 模型 初始化,并使用 人工标注数据与 LLM-as-a-judge 生成的大边距数据 进行训练,优化方法采用 Bradley-Terry 损失

  • 模型为 token 级奖励模型,直接在大边距双码本 token 对上训练,无需在奖励计算过程中通过音频解码器将 token 转回波形。
  • 模型训练 1 个 epoch,学习率采用 余弦衰减策略(cosine decay),初始值为 2 × 10⁻⁵,下限为 1 × 10⁻⁵

PPO 训练:获得奖励模型后,使用 PPO 算法 进行进一步训练。训练使用与奖励模型训练相同的提示种子,但只选择 对 SFT 模型最具挑战性的提示

  • 在 PPO 阶段,critic 先预热 80 步,随后再训练执行者(actor)。
  • 优化器初始学习率为 1 × 10⁻⁶,遵循余弦衰减策略,下限为 2 × 10⁻⁷
  • 使用 PPO 剪切阈值 ϵ = 0.2,并施加 KL 散度惩罚系数 β = 0.05

Evaluation

情感与说话风格编辑结果: 如表 1 所示,在 Iter0 音频进行首次编辑后,情感和说话风格的准确率都有显著提升。此外,经过连续迭代编辑后,情感和说话风格的准确率进一步增强。

闭源模型上的泛化能力:Step-Audio-EditX 首次编辑 后,所有声音模型的情感和风格准确率均显著提升。经过接下来的两轮迭代,准确率进一步增强,从而有力证明了本模型的 强泛化能力

闭源模型上的情感控制,Step-Audio-EditX 在零样本克隆能力下展现出 更高的情感准确率,优于其他两款模型。仅经过 一次编辑迭代,所有音频样本的情感准确率均显著提升。将一次情感编辑迭代应用于零样本克隆音频,其效果 超过了闭源模型原生情感控制功能生成的结果

副语言编辑: 如表 4 所示,在仅进行一次编辑迭代后,通过加入副语言标签(paralinguistic tags),模型在副语言元素的重建与插入方面取得了显著性能提升。实验结果表明:经过一次 Step-Audio-EditX 的副语言编辑后,生成的副语言效果已经可与闭源模型使用原生副语言标签直接合成的结果相媲美,展现出强大的泛化能力与编辑一致性。

扩展能力

语速编辑:构造了三元组⟨text, audiosource, audiofaster/slower⟩,其中针对同一说话人,通过 SoX 工具包 的受控速度扰动生成快/慢版本音频。由于语速变化会显著改变 token 序列长度,仅使用 SFT 即可实现有效的语速编辑

去噪与静音剪裁:基于生成式的方法,实现提示音频和合成音频的定向编辑,包括去噪静音剪裁

去噪(Denoising)构造三元组:⟨text, audioaugment, audiosource⟩其中 audiosource 为干净音频(ground truth),audioaugment 通过添加噪声与混响模拟生成。

静音剪裁(Silence Trimming)构造三元组:⟨text, audiosource, audiotrimming⟩audiosource 含有静音片段,audiotrimming 则通过 Silero-VAD 提取语音区间后拼接生成。

ASR专有名词纠错后处理:SS+GL方法

核心:基于音频特征+实体词库,使用神经网络检索可能最的实体词,然后通过LLM进行纠错

华为这篇论文的核心目标——解决ASR(自动语音识别)里“专有名词老认错”的问题。比如像“ChatGPT”“长江白鲟”这种领域特定的命名实体,ASR(比如Whisper)在通用场景里挺准,但遇到这些词常转错,后续用这些转录文本做任务就全乱了。

命名实体纠错 (NEC) 方法是指用于纠正ASR转录文本中的命名实体错误,现在主流的命名实体纠错 (NEC)方法分两类:

(1) 在转录文本生成过程中同时纠正错误;一般需要训练额外的模块,使 ASR 模型具备上下文偏置能力,或者利用上下文信息来纠正 ASR 模型中的命名实体错误。 这些方法需要对ASR系统进行修改,使其具备纠错能力,因此这些方法很难应用于第三方 ASR 系统。

(2) 在转录文本生成后纠正错误,即后编辑错误。不需要对 ASR 系统进行任何修改,因此后编辑 NEC 方法更具适用性。其中最常见的是PED-NEC(基于语音编辑距离的方法),当 ASR 转录文本中实体和相关错误文本的词形相似时,我们可以通过遍历实体数据存储轻松定位错误,但PED-NEC有个大毛病——如果错的文本和真实实体“长得太不一样”,就彻底歇菜。比如:

  • “大语言模型”被ASR转成“大原模型”,俩词字面差挺多;
  • “Midjourney”转成“米德仲尼”(英文变中文音译);
  • “灵耀X”转成“01X”(汉字变数字);
  • “ChatGPT”转成“Check GPT”(拼写差一截)。

这时候PED-NEC没法定位错词,自然就纠正不了,这就是论文要解决的核心问题。

为了解决上述问题,创新性地提出了一种基于生成式方法NEC(命名实体校正) 方法,用于在转录文本中自动标注待纠正片段。具体来说,利用语音声学特征、候选命名实体以及 ASR 转录结果,生成(标注)出转录文本中需要被纠正的词语,并据此进行修正。该基于错误标注的 NEC 方法能够在识别出待纠正文本后,实现端到端的文本纠错,无需考虑词形变化,因此相比以往基于规则的替换方法具有更高的优越性。

Method:核心是两步:SS(语音特征检索候选实体)+ GL(生成式标注错误文本)。简单说,不依赖文本长得像不像,而是基于语音相似性进行实体检索,再让模型“智能标出”错词,最后替换——完美解决“长得不一样”的问题。

纠错流程如图2所示。首先预先构建一个数据存储库(datastore),用于保存实体的音频-文本对。在获得语音片段和 ASR 转录结果后,执行语音检索SAN(自注意力网络)和FFN(前馈网络)】,以判断该语音片段的某一部分是否与数据存储库中某个候选实体的语音特征相似。

如果存在相似的候选实体,就将该候选实体与 ASR 转录文本拼接在一起,作为提示(prompt)输入纠错模型,以引导模型生成 ASR 转录中可能错误的词语(即与正确实体对应的错误文本)。最后,将检测出的错误文本替换为数据存储库中的正确实体。

Datastore Creation:收集实体列表 X={x1,x2,…​xn} ,以及基于TTS合成对应的的语音:

将 TTS 生成的音频输入到编码器,并将编码器最后一层的输出作为实体 xi 的语音表示。为了提高检索准确率并降低内存占用,我们在编码器的末尾添加了一个CNN层

数据存储存储键值(表示实体)对:

Entity Retrieval:用户的输入音频片段 s 输入到编码器中,并从编码器最后一层的输出中得到它的表示 s​’

引入自注意力网络(SAN)和前馈网络(FFN)来计算数据存储区 s 包含候选实体 xi′ 的概率 pi :

最后应用平均池化,获取最终的分类:

判断数据存储中是否存在语音片段中的实体。如果概率 pi 高于我们设定的阈值,则选择前 K 个候选实体进行进一步校正。

Error Correction:通过上述实体检索方法获得若干候选实体,用符号“|||”连接实体,然后用引号将实体字符串与 ASR 转录文本连接起来。实体+转录文本字符串用作提示,引导纠错模型在转录文本中生成与候选实体具有相似语音特征的错误实体。该过程实际上是一种生成式标注方法,因为纠错模型会在原始 ASR 转录文本中输出一个或多个单词。

方法还具备实体拒绝功能。如果模型无法将候选实体与转录文本中可能存在的错误实体匹配,则会生成符号<empty> 表示没有返回结果。

emptry表示改候选词不采用,Error 表示错误的文本,用该位置的原本实体词替换

模型旨在找到语音相似且符合语言模型的待更正文本,最后一步是用数据存储中的真实实体替换错误文本。

Experimental 

1. 数据准备:训练+测试集都很实在训练数据:用了Aishell数据集里的54129个中文实体,正负样本1:10(正样本是含实体的音频文本对,负样本是不含的);还特意让20%的Prompt里加了“无关实体”(比如该纠正“ChatGPT”,却加了“Midjourney”当候选),练模型生成“”的能力,避免过纠正。测试集:搞了两个,一个是开源的,一个是自己建的:

  • Aishell测试集:从Aishell的开发集和测试集里挑了3101个去重实体,测通用场景;
  • BuzzWord测试集:自己建的“难点集”,1500段2023-2024年的语音——500段是“正例”(含新词、外来词、数字实体,比如“ChatGLM-6B”“苍兰诀”“Matebook D16”),1000段是“负例”(不含实体),还特意平衡了男女说话人,模拟真实场景。

评估指标:看四个关键数据,别嫌麻烦,这些数能直接看出效果:

  • CER:整体字符错误率(越低越好);
  • NNE-CER:非实体部分的错误率(越低越好,要是这数高了,说明把不该改的改了,过纠正);
  • NE-CER:实体部分的错误率(越低越好);
  • NE-Recall:实体召回率(越高越好,意思是“能把多少实体从错的里捞对”)。

对比的基线方法:跟四种方法比,确保新方法真的好:

  • 原始Whisper(没纠正的ASR结果);
  • PED-NEC(传统的基于编辑距离的方法);
  • PED+GL(用PED找候选,用新的GL纠正);
  • SS+NEC(用新的SS找候选,用传统PED纠正)。
  • 原始Whisper最差,实体召回率才70.85%;
  • PED-NEC比Whisper好,但有个问题:NNE-CER从10.00升到10.42,说明它有点“瞎改”,把非实体的内容也改坏了(过纠正);
  • 而SS+GL呢?所有指标都最优:整体CER最低(9.85),实体错误率最低(7.41),实体召回率最高(87.31,比PED-NEC高4个百分点),而且NNE-CER几乎和Whisper一样(10.01),没怎么过纠正——这就很牛了!

论文还特意从Aishell里挑了50个“错词和实体长得特别不一样”的案例做了个“词形差异集”,SS+GL在这上面表现更突出,把PED-NEC甩得更远。

BuzzWord难点集这是最能体现新方法优势的地方,因为这里面全是ASR最容易认错的新词、外来词,数据更惊艳:

  • 原始Whisper在这直接“崩了”,实体召回率才12.22%——10个实体里才对1个多,可见这些新词多难认;
  • PED-NEC虽然比Whisper好,但召回率也才61.82%,实体错误率还有23.62%;
  • 再看SS+GL:实体召回率直接冲到87.47%,比PED-NEC高了26个百分点!实体错误率也降到7.26%,而且NNE-CER还是15.29,没瞎改非实体内容——这就证明,对付“长得不一样”的新词、外来词,SS+GL是真的行。

关键图表分析:证明方法为啥有效

这图看的是模型的注意力分布,能看到:

  • 模型标注的错误文本(比如“米德仲尼”)、候选实体(比如“Midjourney”),还有对应的语音片段,这三者之间的注意力值特别高;
  • 这就说明模型真的把“错词-候选实体-语音”三者关联起来了,不是瞎标错词,标注是有依据的。
检索阈值和纠正效果的关系——证明“容错性好”

这图横坐标是检索时的概率阈值(比如0.1、0.2…0.9),纵坐标一边是检索的F1值(越高说明检索越准),一边是纠正的CER(越低说明纠正越好)。

  • 有意思的是:不是检索F1越高,纠正效果越好;反而当阈值低一点(比如0.3左右),检索召回率高、精度低的时候,纠正的CER最低;
  • 原因很简单:SS+GL的GL模块能“容错”——就算检索多找了几个不太准的候选,GL也能通过生成“”排除掉,不用怕候选里有“杂质”。

实体拒绝案例——证明“不瞎改”

这个案例特别典型:候选实体是“韩宇”(人名),ASR转录本里有两个发音一样的词——“韩雨”(另一个人名,需要改)和“韩语”(语言,不用改)。

  • PED-NEC:因为发音一样,把俩都改成“韩宇”了,造成过纠正;
  • SS+GL:只把“韩雨”改成“韩宇”,“韩语”不动——因为GL模块能结合语境判断,知道“韩语”不是人名,不用改,避免了瞎改的问题。

除了纠正效果好,SS+GL还有三个大优势:

  • 联合标注有效:图4已经证明了,模型能精准关联“语音-候选实体-错词”,不会标错对象;
  • 实体拒绝能力强:检索时能滤掉低相似度的候选,GL还能生成“”跳过不用改的,所以检索时可以放宽阈值,多找候选也不怕,反而能提高召回率;
  • 自带CED功能:CED是“错误实体检测”,传统PED-NEC得单独加个CED模块才能找错词,而SS+GL的GL模块在生成错词的过程中,就已经完成了“检测错词”的步骤,不用额外加模块,更简洁。

基于生成式的纠错方法只对“待纠正文本”进行标注,从而使得时间消耗极小,但当数据存储库(datastore)中包含大量实体时,实体检索部分可能会变得非常耗时。

在这种情况下:

  • 一方面,我们可以用 PED(即前文提到的 PED+GL 方法) 替代检索步骤,以降低整体延迟;
  • 另一方面,未来我们计划将当前的检索方法改进为向量检索(vector search),借助现有成熟的向量搜索引擎,大幅提升检索速度。

Phoenix-VAD

文:https://arxiv.org/pdf/2509.20410

口语对话模型在智能人机交互方面取得了显著进展,但仍缺乏一种可即插即用的全双工语义端点检测模块,从而限制了音频交互的无缝体验。本文提出了一种基于大语言模型(LLM)的流式语义端点检测模型——Phoenix-VAD。Phoenix-VAD 利用大语言模型的语义理解能力,并结合滑动窗口训练策略,实现了在流式推理场景下的可靠语义端点检测。实验证明,在语义完整与语义不完整的语音场景中,Phoenix-VAD 均取得了优异且具竞争力的性能。

现有方法在这一方面存在明显局限。传统的VAD仅依赖声学特征判断“是否存在人声”,无法理解语义层面的意图,因而难以实现自然的语义对齐。语义VAD虽在一定程度上引入了语义判断,但通常依赖外部自动语音识别(ASR)模块,导致系统延迟增加,并可能损失语音中的细粒度语义信息。至于如 RTTL-DG、Moshi 等端到端方案,虽具备一定的语义理解能力,但模型高度耦合,难以在不同对话系统中直接复用,每次更换对话模型都需重新训练或微调,部署成本较高。

Phoenix-VAD ——一种基于大语言模型的语义端点检测框架,旨在实现模块化、低延迟、可流式推理的全双工语音交互。

Phoenix-VAD 基于用户语音的语义完整性进行端点检测,并使用不同的超时阈值来判断终止条件。当用户查询语义不完整时,模型会应用更长的超时阈值,以避免过早终止响应。

音频编码器:用的是150M参数的Zipformer,之前还在10万多组内部ASR数据上训练过,能把原始语音波形转换成25Hz的“帧级特征”——简单说就是先把语音里的关键信息抽出来,方便后续处理。

适配器:就是两个线性层加个ReLU激活函数,专门解决“音频特征和文本特征对不上”的问题。它先把编码器输出的音频特征,按几帧拼一块做下采样,再转成LLM能“看懂”的文本embedding,最后输出适配好的特征。

LLM:用的是Qwen2.5-0.5B-Instruct,给它喂两样东西:一是适配器处理好的音频特征,二是文本提示(比如告诉它“你是个VAD,要判断用户是不是还在说”),最后让它输出两个结果:要么是“Continue Speaking”(用户还在说),要么是“Stop Speaking”(用户说完了)。

Sliding Window:

滑动窗口策略仅使用每个窗口内的音频进行预测,从而降低了对整个输入序列的依赖。与处理整个序列相比,它能够进行增量式的分块预测,在延迟方面具有潜在优势。同时,该模型可以利用每个窗口内的信息,为语义推理提供足够的局部上下文,并支持流式推理。

针对100Hz的语音特征序列,窗口设成256帧(对应2560ms),每次往前挪32帧(320ms);训练的时候,只盯着每个窗口“最后一个chunk”做监督——不用等整段语音,就能一块一块增量预测,既保留了局部的语义上下文,又能减少延迟,刚好满足实时交互的需求。

在训练过程中,音频编码器被冻结,仅训练适配器和 LLM。LLM 骨干网络使用 LoRa 进行微调,以增强其多模态推理能力。训练目标使用标准交叉熵损失进行优化

Data:

造文本:结合内部的文本资源和ChatGPT API,生成两种文本:一种是“语义完整”的(比如“帮我查一下最新的订单信息”),一种是“语义不完整”的(比如“帮我查<停顿>最新的订单信息”);

合成音频:用Index-TTS工具把文本合成语音,为了模拟不同人的声音,还从库里随机选了1007个英语、1010个中文说话人的声音模板;另外还故意插点静音段,还原真实聊天里的“犹豫、中断”场景;

标标签:用Paraformer工具给每个字标上时间戳,再根据“用户停止说话”的时间点,标两种训练标签:“Continue”(还在说)和“Stop”(说完了)。还特别设置了不同的超时阈值:语义完整的话,等400毫秒就判断“说完了”;不完整的话,等1000毫秒,避免提前打断用户。

Experiments:

用40万条音频(总共570小时)训练,然后拿2000条“语义完整”+2000条“语义不完整”的音频做测试:

语义不完整的场景里,准确率98.5%,“说完了”的F1分数0.918,“还在说”的F1分数0.992

语义完整的场景更稳,准确率98.6%,“说完了”F1 0.905,“还在说”F1 0.993

简单说就是,判断“用户还在说”几乎不会错,判断“说完了”也很靠谱。

对比其他开源VAD:

消融实验

如果把滑动窗口的步长从320毫秒缩到160毫秒(更细的粒度),性能会下降——因为太细的粒度会让判断更犹豫,还会放大时间戳标注的误差;如果适配器只在ASR数据上训练,也不如“联合训练”效果好,因为ASR数据只关注“语音转文字对不对”,缺了“判断说话边界”需要的时间线索。

Phoenix-VAD最核心的价值就是:靠LLM的语义理解能力,加上滑动窗口的实时 trick,弄出了一个“靠谱、实时、能随便用”的语义端点检测模块,刚好补上了全双工语音交互的短板。以后优化方向:一是让模型能过滤“没用的声音”(比如背景噪音、无意义的嘟囔);二是用真实场景的录音再训练,让它在实际聊天里更好用;最后打算把它装到端到端的对话系统里,让整个交互更顺畅。

Xiaomi-MiMo-Audio:小米端到端语音大模型

五年前,GPT-3 首次展示了通过自回归语言模型+大规模无标注数据训练,可获得强大 In-Context Learning(ICL)能力 [模型只靠上下文里的提示和少量示例,就能快速适应新任务,不必重新训练] ,并能通过少样本迁移到新任务,从而使语言开启通用人工智能(AGI)新纪元。然而在语音领域,现有模型仍严重依赖大规模标注数据,难以快速适应新任务达到类人智能。

这一瓶颈如今被打破。小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio,它基于创新预训练架构上亿小时训练数据,首次在语音领域实现基于 ICL [ In-context Learning ] 的少样本泛化 [通过在 prompt 中放少量示例,利用模型在大规模预训练中学到的“上下文学习”能力,让模型无需再训练就能适应新任务。],并在预训练观察到明显的“涌现”行为。后训练进一步激发了 Xiaomi-MiMo-Audio 的智商、情商、表现力与安全性在内的跨模态对齐能力,语音对话在自然度、情感表达和交互适配上呈现极高的拟人化水准。

核心:

  1. 如何完整的表征语音,不能损失任何语音声学/语义信息,需要建立一个无损传递语音信息的模型架构
  2. 大规模数据扩展(scaling up),将训练数据扩展到上亿小时持续扩大预训练数据的规模将带来性能的持续提升,并可能产生意想不到的涌现能力

Introduction

现有的音频语言模型通常依赖于针对特定任务的微调来完成特定的音频任务。相比之下,人类只需少量示例或简单指令就能将能力推广到新的音频任务上。GPT-3 已经证明,通过扩展下一个 token 预测的预训练可以在文本上实现强大的泛化能力,我们认为这一范式同样适用于音频领域。通过将 MiMo-Audio 的预训练数据规模扩展到超过一亿小时,我们观察到其在多种音频任务上出现了少样本学习能力。我们对这些能力进行了系统评估,发现 MiMo-Audio-7B-Base 在开源模型中,在语音智能和音频理解基准上均实现了SOTA性能。

除了标准指标外,MiMo-Audio-7B-Base 还能泛化到训练数据中未出现的任务,例如语音转换、风格迁移和语音编辑。它还展现了强大的语音延续能力,能够生成高度逼真的脱口秀、朗诵、直播及辩论内容。在后训练阶段,我们整理了多样化的指令调优语料,并在音频理解与生成中引入了思维机制。

最终,MiMo-Audio-7B-Instruct 在音频理解基准(MMSU、MMAU、MMAR、MMAU-Pro)、语音对话基准(Big Bench Audio、MultiChallenge Audio)以及指令式 TTS 评测中达到了开源 SOTA 水平,接近或超越了闭源模型。

语音领域中基于下一个 token 预测(next-token prediction)的预训练有两个关键要素。

1、能够无损传递语音信息的模型架构。为了充分发挥 next-token 预测范式的潜力,我们希望语音信号中的全部信息都能在模型中循环流动。这意味着我们不能采用会导致副语言信息(如情感、语调、说话风格等)丢失的语音表示方式。这一点使我们的方法与当前主流方案Kimi- Audio[基于ASR任务训练的语义编码器+预训练的whisper声学编码器] 和 Step-Audio 2[encoder 基于speech and audio understanding tasks 进行训练]有所不同。

2、第二个关键要素是大规模扩展(scaling up)持续扩大预训练数据的规模将带来性能的持续提升并可能产生意想不到的涌现能力。因此,我们将训练数据扩展到超过上亿小时的音频,这一规模比现有最大开源语音模型所使用的数据量大一个数量级。

预训练

预训练的目标是让模型具备语音领域的任务泛化能力——也就是说,模型在训练阶段学习到一系列基础的“原子技能”,并在推理阶段利用这些能力快速适应或识别任何语音任务。我们在预训练方法上的指导原则是:确保语音信号中的所有信息都能被完整保留并在模型架构中无损流动。

  • Tokenizer(分词器):我们认为,音频分词器最重要的评判标准是其重建保真度(reconstruction fidelity),同时其生成的 token 应该便于下游语言建模使用。基于这一理念,我们提出了 MiMo-Audio-Tokenizer。该模型包含 12 亿参数(1.2B),采用基于 Transformer 的架构,由编码器、离散化层和解码器组成,以 25Hz 的帧率运行,并通过 8 层残差向量量化(RVQ) 每秒生成约 200 个 token。我们在训练中结合了语义与重建双重目标,从零开始在一个 1000 万小时规模的语音语料库上进行训练,获得了优异的重建质量,同时显著提升了下游语言建模的效果。
  • 架构(Architecture)。为了提升对高 token 速率序列(200 token/秒)的建模效率,并缓解语音与文本模态间的长度差异,我们提出了一种创新架构,将 patch 编码器(patch encoder)大语言模型(LLM)patch 解码器(patch decoder) 相结合。Patch 编码器将连续 4 个时间步的 RVQ token 聚合为一个 patch,从而将序列下采样为 6.25Hz 表示,输入至 LLM。Patch 解码器则以自回归方式(autoregressive)重建完整的 25Hz RVQ token 序列
ps:OR 表示模型选择性地使用其中一个输入(Audio 或 Text),
或者在不同模式下激活不同输入分支。但一次只走一个分支
  • 训练。为了实现统一的理解与生成预训练范式,并赋予模型更强的“语音智能”,我们设计了一个两阶段训练策略,并以 MiMo-7B-Base 作为初始化模型:阶段1 专注于语音理解任务,阶段2 将理解与生成统一于一个框架中,进行联合训练
  • 数据。将预训练语料规模扩展至超过 1 亿小时的语音数据,这一规模比现有任何开源语音模型的数据量大一个数量级。这一庞大数据集的获取和处理依托于我们自研的端到端数据管线,涵盖预处理、标注与数据筛选全过程。
  • 评估。构建了一个全面的评测基准(benchmark),用于严格评估模型在语音领域的上下文学习能力。该基准涵盖模态不变的常识知识、听觉理解与推理能力以及多样化的语音到语音生成任务多个维度。

经过大规模预训练后,MiMo-Audio-7B-Base 展现出强大的少样本学习能力。在我们构建的 SpeechMMLU 基准上(该基准源自 MMLU,并将其任务合成为语音形式),MiMo-Audio-7B-Base 在“语音智能(Speech Intelligence)”和跨模态对齐(modality alignment)方面表现出极高的水准。

语音输入与输出条件下,它取得了接近文本版 MMLU 的卓越成绩,文本任务的性能仅出现极小幅度下降。更重要的是,它在未见过的任务上也具有优异的泛化能力只需在上下文中提供少量示例,它就能完成包括语音转换、风格迁移、语速控制、去噪以及语音翻译等任务。

MiMo-Audio-7B-Base 还展现出强大的语音延续能力(speech continuation),能够生成高度逼真且语义连贯的独白或多说话人对话,涵盖脱口秀、演讲、辩论、播客以及游戏解说等多种场景。

后训练

后训练(post-training)的核心目标是将模型在预训练阶段获得的泛化能力与指令跟随能力对齐。为此,我们构建了一个高度多样化的音频指令微调语料库,涵盖音频理解与生成任务,并整合了来自多个领域的高质量开源与自建数据。

为了进一步增强模型的跨模态推理能力(cross-modal reasoning),我们还为音频理解和生成任务构建了高质量的“思维链”数据集。

同时,为了获得类人、可控风格的语音对话数据,我们训练了一个基于超过 700 万小时语音数据MiMo-TTS-7B 模型,用于将文本对话转换为语音形式。

主要贡献

  • 首次提供了实证证据,证明将基于无损压缩的语音预训练规模扩展至前所未有的 1 亿小时,能够激发出任务泛化的涌现能力,具体体现为强大的少样本学习能力(few-shot learning)。我们认为,这标志着语音领域迎来了类似 GPT-3 时刻(“GPT-3 moment”) 的重要突破。
  • 提出了首个全面且可复现的生成式语音预训练方案,包括全新的音频分词器、可扩展的模型架构、分阶段的训练策略、系统化的整体评测体系
  • 首次在语音理解与生成的建模过程中引入了“思维机制(thinking)”,实现了从感知(perception)到复杂认知任务(complex cognitive tasks)之间的桥接,为语音模型的发展开辟了新的方向。

Model Architecture

MiMo-Audio-Tokenizer

现有音频分词方法的一个主要挑战在于如何有效平衡音频信号中语义信息与声学信息之间的固有权衡语义 token 通常来源于自监督学习模型或 ASR 模型,它们与语言内容高度相关,有助于与文本模态对齐。然而,其主要缺点是丢失了细粒度的声学信息,限制了原始波形重建的质量。声学 token 则由神经音频编解码器生成,能够实现高保真音频重建,但难以与文本语义空间建立有效对齐。

MiMo-Audio-Tokenizer 将语义和声学统一,同时捕获语义信息并实现高保真音频重建,通过扩大模型参数规模和训练数据量,进一步缓解语义-声学表示冲突,从而提升跨模态对齐能力语音重建质量

架构

MiMo-Audio-Tokenizer 的架构由四个主要组件组成:音频编码器(audio encoder)、离散化模块(discretization module)、音频解码器(audio decoder)以及声码器(vocoder)

音频编码器:双向注意力Transformer编码器,在输入和输出端各配备 2 层下采样,包含 32 层、20 个注意力头,使用 Rotary Position Embeddings(RoPE)GELU 激活函数,模型维度设为 1280,前馈网络(FFN)内维度设为 5120。为缓解语义信息与声学信息之间的冲突,将第 3 层的隐藏状态通过元素级求和加入到最终层输出中。

离散化模块:20-layer残差向量量化器,前两层码本(codebook)大小为 1024,其余层码本大小为 128

音频解码器:结构与编码器镜像,但采用因果自注意力(causal self-attention),以支持流式生成

声码器:采用 Vocos 设计,将 ConvNeXt骨干替换为 Transformer,从而支持序列打包(sequence packing)以提高训练效率。Transformer 参数:16 层、16 个头,模型维度 256,FFN 维度 1024。集成 RoPE滑动窗口注意力(sliding window attention),窗口大小为 [40, 10],分别对应 [6.4 秒, 1.6 秒] 的感受野

前向流程

  1. 对采样率为 24 kHz 的单通道音频波形 𝑋 进行梅尔谱图(melspectrogram)转换,帧率为 100 Hz。
  2. 将该谱图输入音频编码器,转化为长度为 𝑀 的连续表示序列(frame rate 25 Hz)。
  3. 离散化模块中的 RVQ 将连续表示量化为二维索引矩阵 𝐴 ∈ ℕ^{M×R},其中 R 为 RVQ 层数。
  4. 利用码本查找并求和对应的嵌入向量,从而重建量化表示 Q
  5. 最后,音频解码器声码器根据 Q 重建音频波形 𝑋̂

Training

采用两阶段训练范式(two-stage training paradigm)以提升训练效率,如图 2 所示。

阶段 1:

模型在大规模数据集上进行多任务学习(multi-task learning)[包括A2T跟语音重建任务],训练数据规模扩展至 超过 1100 万小时。通过这一大规模训练,模型能够联合编码语义信息与声学信息,实现对音频信号的全面表征。

统一表示学习:在阶段 1 中,将音频重建任务(audio reconstruction task)音频到文本任务(audio-to-text, A2T)结合,以对齐音频与文本的表示空间,同时确保声学信息的完整保留。为 A2T 任务提供监督,我们引入了一个 LLM,与 MiMo-Audio-Tokenizer 联合训练。MiMo-Audio-Tokenizer 与 LLM 的所有参数均 从零开始训练

A2T 目标被形式化为 下一个 token 预测损失(next-token prediction loss),作用于 LLM 的文本输出,具体定义如下:

其中,𝑇 = [𝑡₁, …, 𝑡ₙ] 表示目标文本序列, 表示量化后的音频表示,𝑁 为文本序列的总长度。对于音频重建任务,采用多尺度梅尔谱图重建损失,定义为 L₁ 距离(𝐿₁ distance)

其中,S𝑖 表示尺度 𝑖 下的梅尔谱图(mel-spectrogram),具有 2^i 个频带,通过STFT, Short-Time Fourier Transform计算得到,窗长为 15·2^(i−1),步长为 15·2^(i−2)。尺度集合定义为 𝑒 = {5, 6, 7}

还额外增加一个训练loss:commitment loss,这个主要是约束encoder的输出和embedding空间保持一致,以避免encoder的输出变动较大(从一个embedding向量转向另外一个)。commitment loss也比较简单,直接计算encoder的输出ze(x)和对应的量化得到的embedding向量ek的L2误差:

阶段 1 的总损失被定义为各项损失的加权和:

阶段 2

冻结音频编码器和离散化模块的参数。引入判别器训练音频解码器声码器,重点提升原始音频波形的细粒度重建质量,并消除声码器生成的伪影(vocoding artifacts)。

对抗微调(Adversarial Fine-tuning):引入了额外的判别器进行对抗训练(adversarial training),以提升音频波形重建质量。在该阶段,音频分词相关的所有参数均被冻结,以保持音频 token 空间的语义结构。

采用多任务 GAN 训练方案,联合优化以下目标:梅尔谱图重建损失、对抗损失、判别器特征匹配损失,为了在时域(time domain)和频域(frequency domain)同时提供监督,使用了Multi-Period Discriminator 和 Multi-Scale STFT Discriminator,训练框架采用 Hinge-GAN

真实波形 𝑋生成波形 𝑋̂,判别器的目标可被形式化为:

生成器的对抗目标:

特征匹配(feature matching):

生成器的训练目标结合了多任务 GAN 训练中的各项损失

Evaluation

使用 说话人相似度 、Short-Time Objective Intelligibility、语音质量感知评估来评估音频分词在保留声学信息方面的表现。考虑到下游 MiMo-Audio 模型仅使用 MiMo-Audio-Tokenizer 前八个码本(codebooks) 生成的音频 token,我们在评测中也仅使用这八个码本解码波形,从而真实反映下游语言模型可访问音频的保真度。

结果(Results)表 1 所示。MiMo-Audio-TokenizerSeed-TTS-Eval 上展现出出色的重建质量。关键在于,这些提升是在下游建模所使用的码本上测得的,说明 MiMo-Audio 完整保留了语音信息的声学特性,从而在各种语音任务中展现出强大的泛化能力

MiMo-Audio

MiMo-Audio 是一个统一的生成式音频-语言模型(generative audio-language model),能够同时建模文本 token音频 token 序列。

ps:OR 表示模型选择性地使用其中一个输入(Audio 或 Text),
或者在不同模式下激活不同输入分支。但一次只走一个分支

该模型既可以接收文本 token,也可以接收音频 token 作为输入,并以自回归的方式预测文本或音频 token,从而支持各种文本与音频模态任意组合的任务,例如:

  • 语音识别(ASR)
  • 语音合成(TTS)
  • 语音翻译
  • 声音编辑
  • 多模态对话生成

这种统一建模方式使得 MiMo-Audio 能够在理解和生成任务之间实现无缝切换,成为通用的语音-语言基础模型。

𝑇 = [𝑡1, . . . , 𝑡𝑁] 表示文本序列,语音序列用 𝐴 = [𝐴1, . . . , 𝐴𝑀], 𝐴𝑖 ≜ (𝑎𝑖,1, . . . , 𝑎𝑖,𝑅′), 𝑁 表示文本序列长度,𝑀 表示音频序列长度,𝑅′ = 8 表示在大语言模型(LLM)训练中使用的 RVQ码本数量

由于音频序列的信息密度较低,单个音频帧所包含的信息量远小于一个文本 token。
为了缓解不同模态间粒度不匹配的问题,并促进跨模态知识迁移,我们将音频序列划分为由连续 𝐺 个帧(frames) 组成的分组,称为 audio patches

𝑃 = [𝑃1, . . . , 𝑃𝑀/𝐺], 𝑃𝑖 = [𝐴(𝑖−1)𝐺+1, . . . , 𝐴𝑖𝐺].

MiMo-Audio 的输入是交错排列的文本 token 与音频 patch 序列S=[s1​,…,sL​] 为交错序列,其中每个元素 si 要么是一个文本 token,要么是一个音频 patch。模型采用自回归方式进行训练:

这种统一建模策略使模型能够无缝处理任意的文本-音频混合序列

MiMo-Audio 主要由三个核心组件构成:

  • Patch 编码器(Patch Encoder)
  • LLM 主干网络(LLM Backbone)
  • Patch 解码器(Patch Decoder)

Patch Encoder

Patch 编码器将每个 patch 内的音频 token 转换为一个隐藏向量。我们维护 R′ 个独立的embedding表{Er​}r=1R′​,用于将音频 token 映射到对应的嵌入向量。对于每个音频 token ai,r,其嵌入表示为: ei,r​=Er​(ai,r​),然后,将该帧在所有 RVQ codebook 上的嵌入进行聚合,形成统一表示:

得到的每个 patch 内的序列会经过一个 Transformer 编码器,该编码器共有 Lenc​=6 层。
每层的隐藏维度为 1024,注意力头数为 64,前馈层(FFN)的维度为 4096。该编码器采用双向自注意力(bidirectional self-attention),使模型能够捕获 patch 内帧级的局部上下文信息。随后,patch 中所有帧的输出被拼接并通过一个线性变换层,以匹配 LLM 输入的维度。

Large Language Model

采用 MiMo-7B-Base 作为 LLM 主干网络。该模型在每个位置上都可以接收两种类型的输入:

  • 文本 token 的嵌入向量,或
  • 由 patch 编码器生成的音频 patch 表示

模型输出的隐藏状态(hidden states)可以有两种用途:

  • 经过 输出投影层(output projection layer),用于 文本 token 预测
  • 或输入至 patch 解码器(patch decoder),用于 音频 patch 生成

Patch Decoder

音频生成过程中,patch 解码器 以自回归(autoregressive)的方式在每个 patch 内生成音频 token。该解码器由 𝐿_dec = 16 层 Transformer 组成,每层的结构参数如下:

  • 隐藏维度(hidden dimension):1024
  • 注意力头数(attention heads):64
  • 前馈层维度(FFN dimension):4096

解码器的自注意力机制中采用 因果掩码,以确保生成过程的自回归特性。此外,patch 解码器与 patch 编码器共用相同的 𝑅′ 个embedding tables,每个嵌入表对应一个 RVQ 码本。为支持 RVQ token 的生成,Transformer 配备了 𝑅′ 个独立的输出头,每个输出头专门负责预测对应 RVQ 码本中的 token。

具体来说给定来自 LLM 的隐藏状态 h,设要生成的音频 patch 为 P=[A1,A2,…,AG],即由连续的音频帧组成。一个朴素的生成方式是:在时间维度上对每个音频帧进行自回归生成,其概率建模为:

其中,每个音频帧 Ai的概率又可以在 RVQ 的各个码本之间分解:

然而,由于 不同 RVQ 层(codebook layer)之间的 token 存在依赖关系,在每个时间步同时预测所有 RVQ token 会导致生成质量下降,音频往往不自然或带噪。

为缓解这一问题,论文引入了 音频 token 延迟生成机制。具体地,为每个 RVQ 层设置一个层特定的延迟向量:𝐷 = [𝑑1, . . . , 𝑑𝑅′],其中 dr表示 RVQ 第 r 层的生成延迟(以时间步为单位)。引入延迟后,延迟后的音频 patch 表示为:

其中:

其中,i∈[1,G+max⁡(D)],r∈[1,R′]。符号 0 表示“空 token”,在编码和解码阶段都会被忽略。最终,patch 解码器(patch decoder) 按上述方式对延迟后的音频 patch 进行自回归建模,并在解码过程中保持相同的延迟模式,从而改善不同 RVQ 层之间的依赖建模和音频生成质量。

Pre-Training

Data

预训练语料库包含三类数据:单模态数据:文本-only语音-only多模态数据语音–文本配对。语音模态目标是为模型提供大规模、高质量、多样化的音频数据。开发了一个完整的数据处理流水线用于确保预训练语料既丰富又可靠,为模型的语音理解与生成能力奠定坚实基础。

数据处理

预训练数据包含数亿小时的“野外采集(in-the-wild)”音频数据,并确保数据在来源和内容上的多样性:

  • 来源多样性:数据涵盖公开播客、有声书、新闻广播、访谈、会议录音等,保证模型不会偏特定的录音环境或说话风格。
  • 内容多样性:数据涵盖的话题包括日常交流、娱乐媒体、商业与创业、艺术与文化、科学研究等。

为了将大规模原始音频转化为高质量训练数据,我们设计并实现了一个高效且可扩展的自动化流水线,包括以下模块:

  • 音频标准化
  • 说话人分离
  • 语音活动检测
  • 自动语音识别
  • 音频质量评估

数据标注

构建了一个自动化标注系统,覆盖语义(semantic)与非语义(non-semantic)两个维度,为每条数据生成丰富且结构化的属性标签:

语义维度:基于 ASR 等模块的转写结果,我们构建了文本质量评估模型(text quality assessment model)。该模型可以从多个角度对内容的语义价值进行评分,例如:

  • 会话质量(conversational quality)
  • 知识密度(knowledge density)
  • 逻辑推理能力(logical reasoning)

非语义维度:为获取非语义层面的信息,我们训练了一个音频描述模型,模型能够直接生成音频的丰富自然语言描述:音色特征、情绪风格、背景环境。

双维度标注方法不仅可以评估数据质量,还为语料库提供了更细粒度的属性信息,从而支持更高效、目标更明确的筛选和训练。

数据整理

对多维度数据标注进行数据筛选采样。

  • 低质量数据过滤:噪声过多/低质量音频/不安全内容
  • 高质量数据采样:综合语义和非语义维度的评分指标,设计采样策略,确保模型能够高效地从高质量语料中学习

训练

基于MiMo-7B-Base 模型 ,为了在最大程度保留其文本能力的同时,使模型具备语音理解与生成能力,MiMo-Audio 采用了渐进式的两阶段预训练方法

理解阶段训练

在第一阶段中,我们训练模型的 patch encoderLLM 组件。该阶段的目标是让模型掌握语音理解能力

我们共构建了一个 总计 2.6 万亿(T)token 的数据集,其中包括 1.2T 的文本 token1.4T 的语音相关 token(以 6.25Hz 的语音帧率计算)。数据涵盖四种任务格式:

  • 语音-文本交错数据
  • 自动语音识别数据
  • 通用音频描述数据
  • 仅文本预训练数据

在该阶段中,我们仅对文本 token 计算损失(loss)
如表 3 所示,patch encoder 的学习率设为 2e-4LLM 的学习率设为 3e-5,并使用常数学习率调度器。每个 batch 包含 1680 万个 token,训练的上下文长度为 8192

理解-生成联合训练

在第二阶段,我们训练模型的所有参数,包括 patch encoder、LLM 和 patch decoder。该阶段旨在赋予模型语音理解与生成的综合能力

  • 训练数据集
    总计 5 万亿(T)token,其中 2.6T 为文本 token2.4T 为音频 token(按 6.25Hz 语音帧率计算)。
    数据涵盖七种任务格式:
    • 语音续写
    • 语音-文本交错数据
    • 自动语音识别(ASR)
    • 文本转语音(TTS)
    • 通用音频描述
    • 指令跟随 TTS(instruction-following TTS)
    • 文本预训练数据
  • 损失计算
    对文本和音频 token同时计算损失。
    • 文本 token 的损失权重为 100
    • 各 RVQ token 的权重分别为 12, 8, 6, 4, 2, 2, 1, 1
  • 学习率与调度(如表 3 所示)
    • patch encoder 和 decoder 学习率:2e-4
    • LLM 学习率:3e-5
    • 学习率调度器采用 余弦衰减(cosine decay)
  • 其他设置
    • batch 大小和上下文长度与阶段 1 保持一致。

评估

我们对 MiMo-Audio-7B-Base 进行了两类评估:

  1. 少样本上下文学习评估(Few-Shot In-Context Learning Evaluation)
  2. 语音续写评估(Speech Continuation Evaluation)

Few-shot In-context Learning

从三个维度评估模型的语音–文本能力:

  1. 模态无关的通用知识
  2. 听觉理解与推理
  3. 语音到语音生成

模态无关的通用知识:模型无论输入或输出模态为何(语音或文本),都能访问并表达相同底层知识的能力。为了跨语音与文本评估这一能力,我们构建了 SpeechMMLU数据集:

基于 MMLU原始数据集,将问题与选项合成为语音,保持语义一致。按主题与长度筛选后,共包含 8,549 条样本,覆盖 34 个学科。使用多样化声音的商用 TTS 系统进行语音合成。数据集划分为四个平行子集,便于在相同问题下进行跨模态对照测试:

  • 文本 → 文本(T2T):评估模型是否在语音–文本联合预训练后仍保留文本理解与生成能力;同时为语音相关任务提供性能上界参考。
  • 语音 → 文本(S2T):衡量模型从语音输入中提取语义并以文本输出作答的能力,反映语音到语义映射的跨模态代价
  • 文本 → 语音(T2S):检验模型能否在文本到语音生成中保持语义一致性与表达可控性。
  • 语音 → 语音(S2S):综合测量模型在端到端语音交互中的潜力,完整覆盖“听—思考—说”的循环过程。

听觉理解与推理:基于MMAU数据集, 包含 音频信息抽取推理问答 两类任务,覆盖语音、环境声音、音乐三个领域。

语音到语音生成:MiMo-Audio 使用高保真音频 token 表征语音,这些 token 既用于感知,也用于生成,构成了语音理解与生成的统一接口。这种机制将预训练过程视为对大规模语音语料的高保真压缩。我们假设:只要压缩机制足够有效,模型便能自然地具备上下文学习(in-context learning)能力,并能在无需参数更新的情况下泛化至各种下游语音到语音任务。

为验证这一假设,我们设计了一种 few-shot 语音到语音生成评测协议

  • 模型仅以配对语音示例(speech exemplars) 作为上下文条件;
  • 无需文本提示或梯度更新;
  • 直接生成目标语音。

语音续写

“续写”能力是自回归语言模型的基础能力之一。通过在大规模文本语料上进行生成式预训练,诸如 GPT-3等文本语言模型能够从输入提示中生成语义连贯的文本续写。

MiMo-Audio 经过在大规模语音语料上的生成式预训练,对高保真音频 token 进行语言建模,从而具备了通用的语音续写能力
当输入一段简短的语音提示时,MiMo-Audio-7B-Base 能够生成在语义上连贯且在声学特征上自然衔接的续写语音,同时保持输入语音的关键声学属性,包括:

  • 说话人特征 —— 如身份、音色等个体化特征;
  • 韵律特征 —— 包括节奏、语调与语速;
  • 环境声学特征 —— 包括空间声效与非语音音素(如掌声、笑声、叹息声等)。

为评估这种能力,我们从多个领域采集了语音提示样本,涵盖:

  • 单人独白类:脱口秀公众演讲新闻播报诗歌朗诵有声书叙述学术讲座
  • 多人对话类:辩论访谈戏剧表演

结果

涌现能力:在多个评测基准上观察到了显著的能力涌现现象,包括 5-shot SpeechMMLU(T2S 与 S2S)16-shot 语音转换、以及 16-shot 语音到语音翻译

在训练的早期阶段(即当训练数据量尚未达到约 0.7 万亿 tokens 时),模型在这些任务上的表现几乎可以忽略不计,表明它尚未具备解决这些复杂任务所需的基本原子能力。
然而,当训练数据规模超过这一临界阈值后,模型的性能出现了显著的非线性跃升,表现出典型的“相变”特征。

在经历这一突变后,模型性能持续稳步提升,并最终趋于稳定,表明模型已经完全掌握并巩固了这一新能力这种从近乎零起点的能力涌现,而非循序渐进的提升,直接体现了模型通过大规模学习自主形成高级泛化能力的过程。
这一发现强有力地支持了我们的核心观点:

这标志着语音领域的 “GPT-3 时刻”——
通过足够大规模、无损压缩式的预训练,模型能够自发学会解决复杂、前所未见的任务,从而实现任务泛化

语音智能:MiMo-Audio 模型在语音智能任务中展现出了卓越的性能,其优势主要体现在SpeechMMLU 得分和模态差距两个关键维度

1、SpeechMMLU 评估模型直接以语音作为输入或输出时,执行复杂推理与知识问答(QA)任务的能力。MiMo-Audio 在三个主要指标上均取得了最高分

相比之下:

  • Step-Audio2 mini-base 虽在 S2T 上取得了 67.8 的相对竞争力成绩,但在 S2S 上骤降至 51.8,显示出跨任务不稳定性。
  • Kimi-Audio-baseS2T 上表现一般(67.9),但在 S2S 上存在明显短板。
  • Baichuan-Audio-base 在两项任务中表现均较低(31.9 与 29.9)。

综上,MiMo-Audio 是唯一能在所有语音推理任务中保持高水平性能的模型,体现了其在语音理解与生成间的深度整合能力。

模态差距:模态差距衡量模型在语音模态与文本模态间能力一致性的程度。

Modality Gap = Text2Text Score − Speech2Speech (S2S) Score

结果如下:

  • MiMo-Audio:3.4
  • Step-Audio2 mini-base:22.3
  • Kimi-Audio-base:58.9
  • Baichuan-Audio-base:39.2

MiMo-Audio 的模态差距最小,说明其在语音与文本两种输入模态之间能高度保持一致的推理与理解能力。这也表明其模型架构设计在跨模态知识迁移与能力保持方面最为高效,有效实现了语音与语言智能的统一

通用音频理解MiMo-Audio 在当前所有开源模型中展现出了最强的通用音频理解能力
这一优势不仅体现在整体得分上,也体现在各子任务上的性能均衡性。在 MMAU 总得分 上,MiMo-Audio 取得了 66.0 分,比排名第二的 Step-Audio2 mini-base(60.3 分) 高出 5.7 分。相比 Kimi-Audio-base(28.6 分)Baichuan-Audio-base(25.9 分),MiMo-Audio 的成绩有显著优势。这种总分上的领先直观地体现了模型整体性能的优越性

MiMo-Audio 在通用音频理解上表现尤为突出,展现出均衡且稳健的能力分布

  • 语音(Speech):67.6
  • 音效(Sound Effects):65.2
  • 音乐(Music):65.3

三者之间没有明显短板,说明模型在多类型音频场景中都能保持高质量表现。

语音任务泛化16-shot in-context learning 设置下,模型在语音转换(Voice Conversion)语音到语音翻译(Speech-to-Speech Translation)任务中的结果说明:MiMo-Audio 的语音到语音生成能力模态无关知识能力在相似的训练规模上同时出现。这种一致性表明,模型在大规模训练中正在形成一种统一的语音理解能力,能够泛化至控制层面的语音特征变换,如说话人身份、情感、语速等。

语音续写:在多种场景下(游戏直播、教学、朗诵、歌唱、脱口秀、辩论等),
MiMo-Audio-Base 都能进行自然流畅的语音续写,无需任何参数调整。

具体表现包括:

  • 歌唱续写:生成旋律连贯、音色悦耳的歌声;
  • 脱口秀续写:在适当时机生成观众掌声与笑声;
  • 双人辩论续写:生成两人立场一致、语义流畅、韵律平衡的对话;
  • 方言续写:保持一致的口音特征;
  • 游戏直播 / 教学场景:生成具备情绪张力和口语化表达的语音,适时插入语气词或结巴;
  • 朗诵续写:生成具备专业朗诵语气和情感表达的语音。

Post-Training

Data

后训练阶段的数据策略目标,是通过一系列有监督的指令微调数据集,激活预训练模型在不同任务上的理解与生成能力。

音频理解

为了激活模型的音频理解与推理能力,我们整合了多个涵盖语音、声音和音乐的开源数据集。针对这些数据中存在的标签噪声任务单一性问题,我们设计了一套基于 LLM 的数据清洗与增强管线。通过该管线,我们生成了大量多样化的音频理解数据,涵盖任务类型包括音频描述音频问答等。

语音生成

为了激活模型的语音生成能力,我们从预训练数据中提取了一个高质量语音子集,并基于音频描述构建了指令数据
在这一任务中,模型需要根据给定的文本指令生成匹配的音频。这种训练方式旨在增强模型的指令遵循能力,从而实现可控且高质量的语音生成

口语对话

为了激活模型在不同对话场景下生成多样化、富有表现力语音的能力,我们构建了一个大规模口语对话数据集,涵盖单轮与多轮对话。这些对话包含用户提问与助手回复,内容主要来源于经过严格筛选的文本数据,以确保质量可靠。

为使 MiMo-Audio 能适应多样化的会话风格,我们首先对问答对进行口语化风格重写,然后使用内部的 MiMo-TTS 系统合成具有相应风格与情感的语音。
在合成过程中,我们从包含大量音色的语音库中随机选择提示音频(prompt audio),以覆盖不同的声音表现力范围。

训练

在后训练阶段,模型的所有参数——包括 patch encoder(音频块编码器)LLM(语言模型)patch decoder(音频块解码器)——都进行了微调。

为此,我们构建了一个规模达 1000 亿 tokens 的综合训练数据集,涵盖以下 六种任务形式

  • 自动语音识别(ASR)
  • 语音合成(TTS)
  • 音频理解(Audio Understanding)
  • 口语对话(Spoken Dialogue)
  • 指令驱动语音生成(Instruction-Following TTS)
  • 文本对话(Text Dialogue)

其中,ASR、TTS 和文本对话的数据来源于开源数据集;而其余任务使用了上面中介绍的高质量自建数据集。

在损失加权方面,文本 token 的权重设为 100,音频 token 的权重分别为 12、8、6、4、2、2、1、1,与预训练第二阶段保持一致。

模型的训练上下文长度为 8192 tokens,batch size为 210 万 tokens

评估

在后训练阶段完成后,我们对 MiMo-Audio-7B-Instruct 模型进行了系统性的综合评估,涵盖了以下主要任务领域:

  • 音频理解
  • 口语对话
  • 语音识别与生成(Speech Recognition & Generation)

各类任务的具体评测配置列于 表 7

音频理解:采用MMSU 基准评估多任务语音理解,采用MMAU基准评估声音/音乐等更广泛的音频理解任务。采用 MMARMMAU-Pro基准用于评估模型处理混合音频输入(如语音、音乐与环境音)以及理解音频知识的能力。

口语对话:借鉴 OpenAI 的评估流程来评估模型在多轮对话中遵循用户指令与完成任务的能力。使用 Big Bench Audio基准衡量音频语言模型的智能水平,模型的回答质量通过基于 GPT 的自动评估获得。对于语音形式的回答,首先使用 Whisper-Large-V3模型将其转写为文本,然后由 GPT-4o-mini 进行质量评估。为了测试模型在更复杂对话任务中的表现,使用 Multi-Challenge 数据集,该数据集要求模型生成与上下文语义一致的、符合情境的对话回应,以评估模型的多轮语音交互能力,对该数据集进行语音版本转换,构建了 MultiChallenge Audio

  • S2T(speech-to-text):对话历史以文本形式呈现;
  • S2S(speech-to-speech):对话历史完全以语音形式呈现。

语音识别与生成ASR采用了广泛使用的 LibriSpeech test-clean 集合来评估英语识别性能,并使用 AISHELL-1 测试集来评估中文识别性能。ASR 任务的评估指标为 词错误率(WER)。除了识别能力外,我们还评估了 MiMo-Audio-7B-Instruct 的语音生成能力。
首先,在 SeedTTS基准上测试其 TTS 性能,该基准涵盖中英文两个子集,并包含一个更具挑战性的中文 hardcase 子集。除传统的 TTS 评估外,我们还在 InstructTTSEval 基准上进行了更高级别的测试,用以衡量模型根据自然语言风格控制指令生成相应语音的能力,从而联合评估其保真度与表达力

在 TTS 任务中,同样采用 WER 作为基本评价指标:生成的语音首先通过 ASR 模型转录为文本,然后与参考文本进行比较。此外,InstructTTSEval 还利用基于 Gemini 的评分体系进一步评估生成语音与输入指令之间的匹配度,从而更全面地反映模型的语音生成理解与控制能力。

结果

在音频理解任务中,如表 8 所示,MiMo-Audio-7B-Instruct 在 MMSUMMAU 基准上的结果显示出卓越表现,在语音、音频与音乐问答任务上均取得领先成绩。该模型在这两个基准上的总体得分不仅超过了所有开源模型,也超过了部分闭源模型,如 Gemini 2.5 FlashGemini 1.5 Pro

对于更具挑战性的音频推理任务,MiMo-Audio-7B-Instruct 在 MMAU-ProMMAR 基准上同样表现领先,其结果已接近 Gemini 2.5 Flash。这些结果共同表明,MiMo-Audio-7B-Instruct 是一个通用且强大的音频理解模型,具备广泛的跨模态推理与理解能力。

口语对话:MiMo-Audio-7B-Instruct 在 Big-Bench-AudioMulti-Challenge-Audio 两个任务上,均在开源模型中表现最佳,并且性能接近闭源模型 gpt-4o。在 Big-Bench-Audio 基准上,MiMo-Audio-7B-Instruct 分别取得 72.90(S2T)60.20(S2S) 的分数,仅次于 gpt-4o,但显著优于所有其他开源模型。同样地,在 Multi-Challenge-Audio 基准上,该模型分别取得 15.15(S2T)10.10(S2S),再次以明显优势领先开源阵营。

总体而言,MiMo-Audio-7B-Instruct 不仅在开源模型中遥遥领先,还进一步缩小了与最先进的闭源模型 gpt-4o 之间的差距,展现出极强的竞争力与实际应用潜力。

语音识别与生成(Speech Recognition and Generation)
如表 9 所示,MiMo-Audio-7B-Instruct 在开源大规模语音模型中,在 ASR(语音识别)TTS(语音合成) 任务上均展现出强劲性能。

在 ASR 与 TTS 的基准测试中,其表现与其他开源模型(如 Step-Audio2-miniKimi-Audio-Instruct)相当。但在 InstructTTS 评测中,MiMo-Audio-7B-Instruct 在英语与中文两个子集上均超越了 gpt-4o-mini-tts,尤其在综合指标上表现尤为突出。这些结果充分证明了 MiMo-Audio-7B-Instruct 在可控文本转语音生成方面的高效性,确立了其作为领先的开源语音生成解决方案的地位

结论

在本研究中,我们展示了在大规模、无损音频数据上进行“下一个 token 预测”预训练,是实现通用语音智能的可行路径。通过在超过 1 亿小时的前所未有的数据语料上进行预训练,MiMo-Audio 成功突破了现有音频语言模型以任务特定微调为主的局限性。

主要贡献是实证验证了在语音领域同样可以出现类似 GPT-3 的“临界时刻”。我们观察到,在跨越关键数据量阈值后,模型的少样本学习能力显著涌现,使其能够在无需任务特定训练的情况下泛化到广泛任务,包括复杂的语音转换、风格迁移以及语音编辑等。此外,我们提出了这一范式的完整蓝图,包括:新颖的统一高保真音频编码器、可扩展模型架构以及分阶段训练策略。MiMo-Audio-7B-Instruct 在多个基准测试中取得了最先进的性能,并可与闭源系统媲美。

总体而言,本研究为构建真正多功能的音频语言模型提供了基础方法论。我们认为,这标志着向创建更自然、灵活、智能的系统迈出了重要一步,使其能够以类人适应性理解和生成语音。

限制与未来工作

有限的上下文学习能力
MiMo-Audio-Base 的上下文学习能力仍受限。虽然预训练模型可以通过上下文学习完成许多超出预训练范围的新任务,但在某些场景下表现不佳,例如带背景音乐的语音生成和复杂声事件的处理。未来,我们计划提升 MiMo-Audio 在通用音频生成方面的能力。

不稳定的语音对话性能
MiMo-Audio-Instruct 在语音对话中存在一些限制,包括音色不连续、音质不稳定、发音错误以及对系统提示的响应不一致。尤其在复杂符号和公式的发音上容易出错,对话中的风格控制也不稳定。未来,我们将利用强化学习(RL)来提高模型性能的稳定性。

有限的思维能力表现
在引入思维机制后,MiMo-Audio-Instruct 仅在语音相关理解任务中表现改善,而在声音与音乐理解任务中性能反而下降。我们对失败案例分析发现,这种现象源于模型在思维过程中产生的幻觉。未来,我们计划通过强化学习(RL)进一步增强模型的音频理解能力。

WenetSpeech-Chuan:用于方言语音处理的大规模、注释丰富的四川话语料库

📑 Paper    |    🐙 GitHub    |    🤗 HuggingFace
🎤 Demo Page    |    💬 Contact Us

WenetSpeech-Chuan 包含10000小时大规模川渝方言语音语料,标注丰富,是目前川渝方言语音研究最大的开源资源。涵盖十大领域:短视频、娱乐、直播、纪录片、有声读物、戏剧、访谈、新闻等。开发并开源了Chuan-Pipeilne(方言语音数据处理框架), 收集了大规模的、自然界中的语音录音,涵盖故事讲述、戏剧、评论、视频博客、美食、娱乐、新闻和教育等多个领域。这些长录音通过语音音频检测 (VAD) 被分割成短片段,从而生成用于转录和质量评估的话语级数据。

Chuan-Pipeline

 WenetSpeech–Chuan 流程概览

 Chuan-Pipeline流程能系统地将原始、未标注的音频转化为一个内容丰富、标注完善的语料库,用于语音识别(ASR)和语音合成(TTS)。

Pre-Processing and Labeling

管道的初始阶段主要关注数据获取、分割,以及为语音片段添加多维副语言标签。原始数据的获取始于从在线视频平台挖掘元数据,以识别可能包含四川方言的内容。经过初步人工审核以确认目标方言的存在后获取的音频流将进入多阶段处理流程

  1. VAD 与分割:使用语音活动检测(VAD)将长音频流切分为 5–25 秒的片段,同时去除沉默和噪声等非语音部分
  2. 单说话人选择与聚类:首先使用 pyannote 工具包隔离单说话人片段。随后,使用 CAM++ 模型提取说话人嵌入,并进行聚类,为同一说话人的所有语句分配一致的说话人 ID
  3. 副语言注释
  • 性别识别:使用预训练分类器(准确率 98.7%)确定说话人性别。
  • 年龄估计:基于 Vox-Profile 基准评测,将年龄划分为儿童、青少年、青年、中年和老年阶段。
  • 情绪标注:通过 Emotion2vec 和 SenseVoice 的预测结果进行多数表决,覆盖七类情绪:高兴、愤怒、悲伤、中性、恐惧、惊讶和厌恶

质量评估

自动化质量评估:用时间戳对齐的语音作为输入,提取音频时长和信噪比(SNR)等指标。随后,这些特征用于计算词级虚拟主观评价分数(WVMOS),作为感知音频质量的替代指标。低质量的音频样本将被丢弃。

LLM-GER纠错处理

为了提高自动语音识别(ASR)转写的准确性,并在已有研究的基础上,我们提出了一套针对四川方言的鲁棒 ASR 转写框架。我们的方法被称为 基于大语言模型生成的错误纠正 ROVER(LLM Generative Error Correction based ROVER, LLM-GER)旨在将多个 ASR 系统的输出融合为单一、准确且可靠的转写结果。

首先,三套不同的 ASR 系统(FireRed-ASR、SenseVoice-Small 和 TeleASR)生成初步候选转写。随后,这些转写由 Qwen3 进行融合,利用其强大的方言理解能力,并结合我们精心设计的提示(prompt)进行错误纠正,同时保持原始语义和 token 长度不变。

通过这种方法,充分发挥了大语言模型(LLM)在规范化四川方言表达方面的能力,同时整合了多套 ASR 系统的互补优势。这样的组合为 WenetSpeech-Chuan 数据集生成了高质量的转写结果。对测试集的计算结果显示,与单一 ASR 系统的转写相比,LLM-GER 平均可将转写准确率提高约 15%。

标点符号预测

带标点的准确转写对于 TTS 训练至关重要,但仅依靠文本的标点预测往往与实际语音停顿不匹配。为此,我们提出了一种结合音频与文本模态的多模态标点预测方法

音频模态方面,我们使用 Kaldi 模型对音频与文本进行强制对齐,从而获得每个词的时间戳和停顿时长并根据阈值将停顿划分为短停顿或长停顿(例如,短停顿 0.25 秒,长停顿 0.5 秒)。

在文本模态方面,我们使用 BiLSTM 标点模型在停顿候选位置预测标点:短停顿对应逗号,长停顿对应句号、问号或感叹号。阈值通过人工反馈进行迭代优化,以确保标点与实际语音停顿保持一致。

ps:该方法存在的的问题:由于不涉及语音信息,单模态模型时常无法获知说话人的情感态度,这会导致模型在一些句子末尾难以抉择以句号还是问号作为结束符。

WenetSpeech-Chuan Corpus

通过将 Chuan-Pipeline 应用于收集到的多源原始数据,我们构建了 WenetSpeech-Chuan 语料库,这是一个面向四川方言的大规模、多标签、多领域的资源。本节将详细介绍该语料库,包括其元数据、音频格式、数据多样性以及训练集和评估集的设计原则。

为每个音频片段分配一个置信度,用于衡量自动语音识别(ASR)转录的质量。 如表 1 所示,我们选取了 3,714 小时的强标签数据(Strong Label),其置信度大于 0.90。 6,299 小时的弱标签数据(Weak Label),置信度介于 0.60 与 0.90 之间,被保存在我们的元数据中,用于半监督训练或其他用途。 总的来说,WenetSpeech-Chuan 共包含 10,013 小时的原始音频

WenetSpeech-Chuan 的来源领域,共包含 9 个类别。 其中,短视频占比最大(52.83%),其次是 娱乐(20.08%)直播(18.35%)。 其他领域包括纪录片、有声书、访谈、新闻、朗读和电视剧,占比较小,但提升了数据集的多样性。

基于 WVMOS 指标 计算得到的音频质量评分主要集中在 2.5 到 4.0 区间,其中 3.0 到 3.5 之间存在一个显著峰值。 这一分布表明,语料库的大部分音频属于 中高质量语音,在干净录音与真实环境声学条件之间取得了平衡,从而使其在训练通用语音模型时具备较强的鲁棒性。

WenetSpeech-Chuan Eval Benchmark:

ASR 评测集:人工标注9.7 小时的评测集划分为 Easy 和 Hard 两个子集

TTS 评测集:

  • WSC-Eval-TTS-easy:包含来自多个领域的方言词句子;
  • WSC-Eval-TTS-hard:由长句子和大语言模型(LLM)生成的多样化风格句子组成,例如绕口令、俗语和情感化语音。

Experiments

ASR

如表 3 所示,不同类型的模型在四川方言测试集上的表现存在差异。 首先,在所有开源模型中,FireRedASR 在多个评测集上表现出相对稳定的识别性能。 值得注意的是,FireRedASR-AED 在所有测试集上的平均词错误率(WER)为 15.14%,成为表现最优的开源模型。 相比之下,Qwen2.5-omnikimi-audio 等模型在 MagicData-Dialogue 测试集 上的错误率显著偏高,表明其对方言语音的适应性不足。

我们经过微调的模型展现出明显的性能提升。在 WenetSpeech-Chuan 上对 Paraformer 和 Qwen2.5-omni 进行微调后,整体性能分别提升了 11.7% 和 11.02% ,彰显了 WenetSpeech-Chuan 在提升方言识别能力方面的显著效果。此外,在额外使用 1000 小时内部数据进行持续微调后,Paraformer 在所有测试集上均达到了 13.38% 的平均 CER,达到了当前最佳水平 ,这证明了 ASR 模型在使用高质量方言数据训练时具有强大的迁移能力和适应性。

综上所述,我们的评估结果清楚地表明,在保持普通话识别能力没有明显下降的同时,WenetSpeech-Chuan 大大增强了模型识别四川方言的能力。

Speech Synthesis

CosyVoice2-WSC 在客观和主观指标上均展现出极具竞争力的表现。在简单分类下,其 CER 达到 4.28%,接近 Qwen-TTS 的 4.13%,同时实现了更高的感知质量和最佳的说话人相似度。在困难分类下,其 CER 上升至 8.78%,而 Qwen-TTS 仅为 7.35%,但仍保持了更高的感知质量,SIM 高于 62%,在挑战性场景中展现出更佳的鲁棒性。

与错误率较高的 Step-Audio-TTS 和 CosyVoice2 基线相比,CosyVoice2-WSC 在准确率和感知质量之间取得了更佳的平衡。经过微调后,CosyVoice2-WSC-SFT 取得了进一步的提升。在简单划分中,其 CER 最低,为 4.08%,SIM 最高,为 78.84%,同时 MOS 家族得分也处于领先地位。在困难划分中,其 CER 降至 7.22%,并保持了最佳 AMOS 得分,这表明微调能够同时提升准确率和感知质量。

总而言之,这些结果证实了 WenetSpeech-Chuan 数据集为构建稳健、高质量的四川方言 TTS 系统奠定了坚实的基础。

结论

WenetSpeech-Chuan,这是目前中国最大的四川方言开源语料库,包含超过 10,000 小时的多维语音标注。为了构建该数据集,我们开发了 Chuan-Pipeline,这是一个功能全面的数据处理工具包,能够支持这一大规模资源的创建。

FunAudio-ASR 语音识别大模型-解决幻觉/语种混淆,支持热词

技术报告:https://github.com/FunAudioLLM/FunAudioLLM.github.io/blob/master/pdf/FunAudio-ASR.pdf

魔搭社区体验:https://modelscope.cn/studios/iic/FunAudio-ASR

个人一些看法:1、关于语种混淆问题,目前的语音识别大模型确实存在较为严重的语种混淆,一般可以通过指定语种缓解该问题。 FunAudioLLM 提出的将CTC 的第一遍解码结果作为 Prompt 输入给 LLM,可以有效缓解该问题,这个后面可以尝试下,但个人感觉CTC能力可能不会很强,技术报告中说的CTC本身发生串语种的概率极低,这个个人表示存疑。另外关于语种混淆,感觉跟LLM本身翻译能力可能无关,应该是部分语种某些发音以及说话人发音不规范导致语种识别错误。2、对于“幻觉”问题,可以通过加入纯噪声/纯背景声进行训练。3、热词这块结合RAG,确实是个好的办法,毕竟直接注入上千的热词势必会对模型的识别产生不可控的影响,通过检索增强生成,只将少量相关性高的热词进行注入,可以避免无关信息干扰,但关键是如何利用ctc的粗解码结果检索出相关的热词,做到不漏检。4、ASR性能提升的核心还是数据,论文中无论是优化抗噪能力/幻觉问题/热词能力/混合中英语言等,基本上都依靠设计生成对应的高质量的数据!!!5、关于语音编码器的训练范式和数据量:自监督+监督学习,上千万小时的训练数据。

阿里巴巴通义实验室推出了FunAudio-ASR端到端语音识别大模型。这款模型通过创新的Context模块,针对性优化了“幻觉”、“串语种”等关键问题,在高噪声的场景下,幻觉率从78.5%下降至10.7%,下降幅度接近70%。FunAudio-ASR使用了数千万小时的音频数据,融合了大语言模型的语义理解能力,从而提升语音识别的上下文一致性与跨语言切换能力。

Abstract

FunAudio-ASR,一个结合大规模数据、超大模型、LLM整合和强化学习的先进ASR系统。该系统不仅在复杂语音场景中实现了最先进的识别性能,还通过针对实际部署的优化增强了流式处理、噪声鲁棒性、混合语言【中英】、和热词自定义能力,验证了其在真实应用环境中的高效性和可靠性。

Introduction

数据规模扩展模型规模扩展以及与大型语言模型(LLM) 共同推动ASR系统的能力提升:

  • 数据规模扩展被证明是ASR提升的基础驱动力;
  • 模型规模扩展,尤其是模型参数数量的增加,进一步放大了数据规模扩展的优势;
  • 与LLM的深度整合代表了ASR方法论的一次范式转变,不再将ASR视为独立任务,而是利用LLM丰富的语言知识和上下文理解能力来增强语音识别,例如,Seed-ASR和FireRedASR展示了引入LLM可以显著提升ASR性能,尤其在解决语义歧义和生成更连贯、上下文更合理的转录结果方面表现突出。这些模型有效地弥合了语音理解与文本理解之间的鸿沟。

FunAudio-ASR ,这是一个基于 LLM 的大规模 ASR 系统,可在大规模数据上进行训练。FunAudio-ASR 具有以下关键特性:

  • 规模化与创新性LLM整合。
  • 最先进的语音识别准确率。通过在数据规模、模型规模以及与LLM的创新架构整合方面的协同进展,FunAudio-ASR在多语言和多声学领域实现了前所未有的识别准确率,确立了ASR系统的新一代最先进水平。
  • 面向实际生产的优化。经过精心设计,以满足真实部署场景的复杂需求:
  1. 高效流式ASR架构:FunAudio-ASR采用高度高效的流式识别架构,支持低延迟实时处理,可无缝集成到视频会议、实时字幕和语音控制设备等应用中。
  2. 噪声鲁棒性增强:通过多阶段方法,显著提升系统在嘈杂环境下的识别能力。
  3. 先进的混合语言处理能力:能够在同一句话中无缝处理中英文切换这对于全球商业环境中的多语言用户至关重要。
  4. 可定制的热词识别允许用户定义特定领域的术语或短语,以提高识别准确率。该功能在医疗、企业及汽车技术等专业领域尤为有价值。

Model Architecture

FunAudio-ASR由四个关键组件组成:

  1. 音频编码器(Audio Encoder):用于从输入语音中提取特征表示,采用多层Transformer编码器实现。
  2. 音频适配器(Audio Adaptor):用于将音频编码器的输出与LLM连接,采用两层Transformer编码器实现。
  3. CTC解码器(CTC Decoder):基于音频编码器构建,用于生成初步识别参考,该参考将用于热词自定义。
  4. 基于LLM的解码器(LLM-based Decoder):在音频条件和CTC预测的基础上生成最终输出。

提出了两种不同规模的模型:FunAudio-ASR [0.7B参数的编码器7B参数的LLM解码器]和 FunAudio-ASR-nano[0.2B参数的编码器0.6B参数的LLM解码器],用以满足不同的计算资源约束和推理效率需求

Data【核心】

Pre-taining Data

预训练数据集包括约数千万小时的音频数据,涵盖无标注音频和带标注的音频-文本数据。无标注音频覆盖了人工智能、生物技术、电子商务、教育、娱乐、金融、交通等领域的广泛真实场景。对于带标注的数据,采用了完整的数据处理流程,包括:

  1. 语音活动检测(VAD),识别语音片段;
  2. 多系统伪标签生成,利用多种ASR系统(如 Paraformer-V2、Whisper 和 SenseVoice生成伪标签;
  3. 逆文本正则化(ITN)将文本恢复为标准化格式。

带标注数据的主要语言为中文和英文。

Supervised Fine-tuning Data

有监督微调(SFT)数据规模约为数百万小时,具体包括以下几类:

  1. 人工转写数据:由人工标注的高质量语音转写。
  2. 伪标签数据:由ASR系统自动生成的标注数据。
  3. 环境噪声数据:覆盖各种真实噪声场景。
  4. CosyVoice3生成的TTS数据:由TTS合成的补充语音数据。
  5. 流式模拟数据:用于优化实时流式识别能力。
  6. 噪声增强数据:通过数据增强方法引入不同类型的噪声。
  7. 热词定制数据:支持特定领域和应用场景的热词识别。

Training

Pre-training of Audio Encoder

为了开发一个强大而有效的音频编码器,以便集成到基于 LLM 的 ASR (LLM-ASR) 系统中,采用了自监督+监督学习结合的方法如上图所示,通过利用自监督学习和监督学习范式来生成高质量的语音表示,并使其能够与 LLM 中的语言知识有效匹配。

Stage 1: 基于Best-RQ的自监督学习训练encoder

Best-RQ是一种先进的语音表示学习方法,它通过对语音单元进行掩码和重建,并利用量化模块将连续表示离散化,从而在不依赖标注数据的情况下学习通用语音表示,使其能够大规模扩展到海量无标注音频数据。

创新点在于 初始化策略:发现预训练文本LLM的层可有效用于ASR系统编码器的初始化。使用 Qwen3模型的部分层参数来初始化Best-RQ编码器。该跨模态初始化策略的假设是:LLM中蕴含的深层语言与语义知识能够为语音表示学习提供有益的归纳偏置实验表明,与随机初始化相比,采用预训练文本LLM进行初始化可以显著加快训练收敛速度,并提升所学习语音表示的质量。

补充关于语音encoder的训练:

SeedASR也使用自监督学习进行预训练,特点是contrastive-loss[对比损失]和 codebook-diversity-loss去训练模型的speech representation和codebook。

Seed-ASR endoer training

Best-RQ的自监督学习方法:为了使用类似BERT的方式自监督训练语音识别,需要把语音连续的语音信号搞成类似文本text这样的离散的token,常用的手段是通过学习语音表征的方法,BEST-RQ使用一个离散的随机量化器来近似的表示连续的语音信号这个随机的量化器训练阶段是固定不变的,这样就不用再像wav2vec 2.0中使用contrastive-loss[对比损失]和 codebook-diversity-loss去训练模型的speech representation和codebook。

主要特点在于:不在使用contrastive loss去学习音频表征(无contrastive-loss),极大简化了SSL训练的过程,并且因为量化器是随机初始化并固定的,因此codebook和训练的encoder模型解耦了。

BEST-RQ 训练范式

Stage 2: 基于encoder-decoder (AED) 进行 Supervised pre-training 

参考SenseVoice-Large的训练方法,编码器在大规模标注的 ASR 数据集上进行端到端训练,使用标准的序列到序列学习目标。目标是获得一个从转录语音数据中学习到丰富的声学和语言特征的编码器,训练好的该编码器将用于初始化下游 LLM-ASR 系统中的音频编码器。

通过上述预训练阶段,减少了从头开始进行大量低级特征学习的需要,从而加速了训练收敛。

Supervised Fine-tuning

监督微调(SFT)包括四个连续的阶段:

阶段 1保持预训练的音频编码器和 LLM 参数冻结,仅训练适配器模块,使音频编码器的输出表征能够与 LLM 的语义空间对齐。本阶段的训练数据约为 20 万小时

阶段 2:依然冻结 LLM 参数,同时训练音频编码器和适配器模块,以学习更好的语义表征。本阶段使用约 1000 万小时的低成本 ASR 训练数据,并训练 1 个 epoch

阶段 3冻结音频编码器和适配器模块,仅使用 LoRA(低秩适配)更新 LLM 参数LoRA 微调的目的是在保持模型文本生成能力的同时,缓解对预训练知识的灾难性遗忘。本阶段使用 2 万小时的 ASR 数据

阶段 4对音频编码器和适配器进行全参数微调,同时对 LLM 采用 LoRA 进行微调。在此阶段,仅使用 高质量数据 300 万小时语音)。这些转录数据由 Whisper-Large-V3、FireRed-ASR 和 SenseVoice 三个不同的 ASR 模型进行评估

阶段 5:如图 2 所示,我们在音频编码器之上添加了一个 CTC 解码器。在该训练阶段,音频编码器保持冻结,仅训练 CTC 解码器该 CTC 解码器通过 贪心搜索(greedy search)生成初始识别假设。随后,这个一次性解码结果被用于 检索增强生成(RAG),以获取上下文信息。

此外,通义实验室发现,给语音大模提供必要的上下文,可以减少文本生产时候的幻觉现象。为此,设计了 Context 增强模块该模块通过 CTC 解码器快速生成第一遍解码文本,并将该结果作为上下文信息输入 LLM,辅助其理解音频内容。由于 CTC 结构轻量且为非自回归模型,几乎不增加额外推理耗时。此外,观察到幻觉问题在高噪声场景中更易发生,因此在训练数据中加入了大量仿真数据。我们构建了一个包含 28 条易触发幻觉音频的测试集,经优化后,幻觉率从78.5% 下降至 10.7%。 

 上下文监督微调

作为 内容先验(content prior),上下文信息可以有效帮助模型在 ASR 任务中

  1. 识别关键文本内容从易混淆的发音中消除歧义
  2. 提高长时连续语音识别的准确性尤其在复杂场景下表现显著

因此,在完成 SFT 训练后,我们进一步在 具有上下文信息和长时语音 的数据上训练 FunAudio-ASR,以增强其 上下文建模能力

  • 音频样本的时长可达 5 分钟
  • 对于较长的样本,我们将其进行切分,并将前一段的转录文本添加到当前音频段的前面,作为提示(prompt)。

由于高质量上下文音频数据严重匮乏,通过以下步骤构建了 超过 5 万小时的带上下文内容的 SFT 数据

步骤 1:关键词提取。为了生成与当前对话内容相关的上下文信息,我们首先使用 Qwen3-32B从转录文本中提取关键词。关键词通常包括实体、专业术语以及特定时间段等,这些是 ASR 系统容易识别错误或遗漏的词汇。

步骤 2:相关上下文生成。利用 Qwen3-32B 模型生成上下文内容:

  • 给定当前对话内容和提取出的关键词,提示 Qwen3-32B 合成多个、多样化的上下文内容,这些内容应与口语对话特征相符。
  • 对合成的上下文内容,通过 关键词匹配 筛选,剔除未包含指定关键词的片段
  • 如果在第一步中未提取到任何关键词,则仅根据当前对话内容提示 LLM 合成上下文

步骤 3:无关上下文混合。为了防止模型对上下文过度依赖,从数据集中为每条对话随机抽取 五条无关上下文片段,并与生成的相关上下文混合,形成最终的上下文 SFT 训练数据。

Reinforcement Learning

设计了 FunRL,一个专为 大规模音频-语言模型(LALMs) 定制的高效强化学习(RL)框架。与文本 LLM 不同,作为 LALM 的 FunAudio-ASR 包含一个音频编码器,用于将语音转换为嵌入向量,而现有的 RL 框架或 Trl原生并不支持这一组件。

如图 4(a) 所示,FunRL 使用 Ray 协调音频编码器、rollout 和策略模块,使它们能够交替使用 GPU 资源:

  1. 音频编码器推理阶段
    • 将所有输入音频批量处理,通过基于 Torch 的编码器提取音频嵌入。
    • 提取的嵌入从 GPU 转移到 CPU。
  2. SGLang LLM Rollout
    • GPU 控制权转交给 SGLang Rollout 模块,根据音频嵌入和指令文本 token 生成多个假设序列。
    • 每个假设根据预定义规则分配奖励(奖励规则将在后文详细说明)。
  3. FSDP LLM 策略优化
    • 利用音频嵌入和生成的假设序列计算输出概率,并通过 RL 进行策略优化。
    • 每次更新后,将优化后的策略同步回 Rollout 模块,保证 RL 过程保持 on-policy

我们在 8 块 A100 GPU 上评估了 FunRL 的训练效率(如图 4(b)):

  • 对大约 1 小时输入音频,每个训练步骤约需 54.6 秒,对应实时因子(RTF)约为 0.015
  • 如图 4(b) 所示,SGLang Rollout 阶段占据了大部分计算时间,而设备切换开销仅占总时间的不到 6%。

这表明 FunRL 的交替 GPU 利用策略非常高效,使其成为 大规模音频-语言模型 RL 训练的可扩展且有效的解决方案

GRPO-based RL for ASR

基于 FunRL 框架,对 FunAudio-ASRGRPO(Generalized Reinforced Policy Optimization) 强化学习算法进行了增强。

策略优化采用 裁剪目标(clipped objective) 并直接施加 KL 惩罚项(KL penalty term)

我们观察到,当 WER(词错误率) 被用作值函数时,GRPO 与 最小词错误率(MWER, Minimum Word Error Rate) 方法非常相似,MWER 是 ASR 社区广泛采用的优化标准。在本文中,我们进一步设计了一组新的值函数 {Rk(yi,yi)}k=1K,以同时提升 ASR 性能和用户体验:

  1. ASR 准确率(R1i
    • 为直接优化识别质量,我们以 1−WER(y∗,y) 作为基础值函数,其取值范围为 [0,1]。
  2. 关键词准确率与召回率(R2i
    • 由于关键词对用户体验影响显著,我们将 关键词召回率 作为奖励组件。每条语音的关键词可通过人工标注或 LLM 自动识别获得。
    • 仅使用召回率可能会增加插入错误,因此我们同时加入 关键词准确率,以平衡精度与召回。
  3. 噪声鲁棒性与幻觉抑制(R3i
    • 在 LLM ASR 系统中,幻觉(hallucination)是常见问题,尤其在嘈杂环境下。
    • 为缓解这一问题,通过正则表达式匹配检测幻觉内容,并按幻觉片段长度施加惩罚。
  4. 语言一致性(R4i​)
    • 某些情况下,模型可能错误生成语音翻译而非转录。
    • 为保证语言一致性,如果输出语言与源语言不匹配,则最终奖励设为 −1

R4i外,所有函数结果会求和得到最终的 Ri​。虽然 R2iR4i的效果在一定程度上可由 ASR 准确率反映,但实验结果表明,加入这些规则能显著改善用户体验,并在困难样本上降低 WER。

构建 RL 训练数据

针对应用场景中的实际问题,我们采用以下方法构建一个小但高质量的 RL 训练数据。

困难样本(Hardcase Samples)

  • 收集大量未标注语音,并使用 FunAudio-ASR(上下文 SFT 后) 以及其他三个独立 ASR 系统(Whisper、FireRed-ASR、SenseVoice)进行转录。
  • 当三个外部系统输出一致(WER < 5%),但与 FunAudio-ASR 差异显著(WER > 10%)时,将该样本识别为 困难样本,并纳入 RL 训练集。

长时语音样本(Long-duration Samples)

  • 选择时长超过 20 秒 的音频片段,以提升模型对长语音输入的识别能力。
  • 现实应用中长语音常见,但训练数据中比例不足(<10%)。

幻觉相关样本(Hallucination-related Samples)

  • 特别包括基础模型出现幻觉的语料,例如输出明显长于真实文本或出现重复片段
  • 同时加入参考转录中存在长重复词或短语的语句,这类样本与幻觉类似,但是真实存在,用于帮助模型区分 真实模式虚假模式

关键词与热词样本(Keyword and Hotword Samples)

  • 对于没有预设热词的语句,使用 Qwen-2.5 7B 识别显著关键词。
  • 热词特定训练中,将参考转录中的热词作为目标关键词。

常规 ASR 数据(Regular ASR Data)

  • 包含部分标准 ASR 数据,以缓解 灾难性遗忘,并在 RL 训练中保持通用识别性能。

面向生产的优化

Streaming Ability

为了增强大规模音频语言模型 FunAudio-ASR流式识别能力,我们构建了 流式训练数据,显式模拟流式解码过程,从而减少训练与推理之间的不匹配。

具体方法如下:

  1. 从离线训练语料中抽取一个子集。
  2. 将训练语料转化为 增量分块输入(incremental, chunked inputs),每个块仅暴露过去的上下文信息。
  3. 将这种模拟流式训练数据与原离线训练数据结合进行微调,从而提升模型在流式解码场景下的性能。

Noise Robust Training

鉴于现实部署场景的多样性,FunAudio-ASR 必须在 复杂声学环境(如餐厅、火车站、商场等)下保持可靠性能,且不出现显著性能下降。然而,要构建一个能完整覆盖真实噪声环境复杂性和多样性的语料库几乎不可能。

为应对这一挑战,我们采用了 大规模噪声数据增强策略

  1. 从内部语料库中选择约 11 万小时低噪语音1 万小时噪声样本
  2. 将它们组合生成约 11 万小时离线模拟噪声语音,平均信噪比(SNR)为 10 dB,标准差为 5 dB。
  3. 为进一步提升数据多样性,随机选择 30% 训练语音 进行 在线数据增强,在训练过程中混入环境噪声。

通过这种综合性的噪声鲁棒性训练策略,在复杂噪声评估集上平均实现了约 13% 的相对性能提升

多语言 ASR

不同语言的训练数据可用性差异显著。资源丰富的语言,如 中文(普通话)英语,数据充足;而 越南语泰语 等语言的数据相对有限。

FunAudio-ASR 的主模型为中文-英语模型。为提升多语种 ASR 性能,我们训练了额外的 多语种 FunAudio-ASR 模型(FunAudio-ASR-ML),支持以下语言:

  • 中文(普通话)
  • 英语
  • 越南语
  • 泰语
  • 印尼语

训练策略如下:

  1. 对中文和英语数据进行 下采样,减少过度占比。
  2. 对越南语、泰语和印尼语数据进行 上采样,平衡数据分布。
  3. 多语种数据集总量约 50 万小时音频
  4. 训练方法与中文-英语 FunAudio-ASR 模型相同。

混合语音(code-switched)

混合语(code-switched)语音的识别一直是 ASR 的挑战。为优化 中文-英语混合语 的 ASR 性能,我们通过以下步骤合成混合语训练数据:

  1. 收集关键字
    • 收集超过 4 万条英语关键词或短语,覆盖技术、教育、金融、体育等常见领域。
  2. 生成混合语文本
    • 使用 Qwen3模型,根据从上述池中随机选择的关键词,生成中文-英语混合语文本。
  3. 合成语音
    • 利用 文本转语音(TTS)模型,为 LLM 生成的混合语文本合成多种声音的语音数据,从而得到最终的 混合语训练语料

热词定制

FunAudio-ASR 中,我们实现了基于 RAG(Retrieval-Augmented Generation)热词定制机制。具体方法如下:

  1. 构建热词词表
    • 每个预设热词通过预定义词典被转换为 音素序列(中文)或 子词序列(其他语言)。
  2. 热词检索
    • 推理阶段,根据 CTC 假设输出 与热词词表条目的 音素级或子词级编辑距离,检索热词候选。
  3. 生成定制输出
    • 将检索到的热词候选、音频输入和 CTC 预测结果一起作为 LLM 的输入(如图 2 所示),生成热词定制的最终输出。

定制化识别通过提高特定词汇(如人名、术语等)的识别优先级,来提升它们的召回率,同时不影响整体准确度。

传统方法直接将用户词表输入大模型,虽然简单,但词量增多时干扰增强,效果下降。为解决这一问题,通义实验室采用RAG(检索增强生成)机制:

  • (1)构建知识库:将用户配置的定制词构建成专属RAG库;
  • (2)动态检索:依据CTC第一遍解码结果,从RAG库中抽取相关词汇;
  • (3)精准注入:仅将相关词汇注入大语言模型的提示词中,避免无关信息干扰。

该方法可在不增加计算负担的前提下,支持上千定制词,并保持高识别效果。

缓解幻觉

尽管通过训练将声学特征对齐到文本特征空间,由于声学特征 Embedding 与真实的文本 Embedding 仍然存在这一定的差距,这会导致LLM在生成文本时发生幻觉的现象。

在 ASR 中,幻觉(hallucination) 指模型生成的文本并未出现在输入音频中。这一问题在 静音段、说话者突然打断噪声环境 下尤为严重,模型可能在没有语音的情况下产生虚假转录。

为缓解幻觉问题,FunAudio-ASR 采用以下策略:

  1. 数据增强阶段引入零填充(zero-padding)
    • 在向音频信号添加噪声前,先在音频中插入零填充,从而生成 纯噪声前缀片段
  2. 模型学习纯噪声识别
    • 该策略迫使模型学会识别仅含噪声的输入,并将输出与实际音频对齐,从而降低幻觉文本生成的概率。

实验表明,这种方法显著提升了 FunAudio-ASR 在多样声学条件下的 鲁棒性、准确性和稳定性

此外,通义实验室发现,给语音大模提供必要的上下文,可以减少文本生产时候的幻觉现象。为此,设计了 Context 增强模块该模块通过 CTC 解码器快速生成第一遍解码文本,并将该结果作为上下文信息输入 LLM,辅助其理解音频内容

由于 CTC 结构轻量且为非自回归模型,几乎不增加额外推理耗时。此外,观察到幻觉问题在高噪声场景中更易发生,因此在训练数据中加入了大量仿真数据。我们构建了一个包含 28 条易触发幻觉音频的测试集,经优化后,幻觉率从78.5% 下降至 10.7%。 

测试结果:

  • 错误识别结果:你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你我说不尽的春风吹又生
  • ours 大模型识别结果:离离原上草一岁一枯荣
  • FunAudio-ASR识别结果:是我说不尽的中国味。
  • 豆包大模型识别结果:别急别慌。我说不见的。

“串语种”问题

“串语种”是语音大模型落地中的另一类典型问题。具体表现为:输入音频内容为英文,模型输出却为中文文本。这是因为文本 LLM 本身具备翻译能力,在声学特征映射不够精确时,模型可能在推理过程中“自动启动”翻译功能,从而影响语音识别的准确性。

在 FunAudio-ASR 的 Context 增强模块中,CTC 解码器经过高质量数据训练,本身发生串语种的概率极低。通过将 CTC 的第一遍解码结果作为 Prompt 输入给 LLM,可有效引导模型聚焦于语音识别任务,缓解“翻译”行为的发生。

Evaluation

我们在开源 ASR 基准数据集和真实工业评测集上对 FunAudio-ASRFunAudio-ASR-ML 进行了评测。
在开源评测方面,我们使用了 AIShell-1、AIShell-2、Librispeech 、Fleurs、WeNetSpeech、Gigaspeech2 等数据集的相应测试集。然而,这些开源数据集长期公开,存在数据泄漏进入模型训练集的风险。为保证评测的可靠性与无泄漏性,我们额外收集了 2025年6月30日之后YouTubeBilibili 新上传的视频,并进行人工转写,构建了一个独立的测试集。

在噪声鲁棒性评测方面,我们使用了真实环境下采集的音频,覆盖多种场景:食堂、餐厅、会议室、办公室、户外、公园、商店、街道、地铁、超市和步行街。这些数据进一步按声学条件和话题进行分类,以更全面地评估系统在复杂多样场景下的表现。

Overall results

我们首先在开源基准上评测了近期发布的 ASR 系统,结果如表 1 所示。在这些数据集上,所有模型的 WER(词错误率)都非常低,甚至有一些开源模型在 LibrispeechAIShell 数据集上的表现超越了商业 API。
然而,如表 2 所示,在真实的工业评测集上,Seed-ASR-API 在多数场景,尤其是噪声环境下,表现出明显优势。这表明 在开源测试集上的表现并不能可靠反映真实世界的 ASR 能力,因此需要定期更新评测集以避免数据泄漏。

相比开源模型与商业 API,我们的 FunAudio-ASR 在开源基准(表 1)和工业数据集(表 2)上均取得了 SOTA(最优)性能
由于所有训练数据都在 2025年6月30日之前 收集,确保了评测过程中 无数据泄漏,使得结果可信且可复现。值得注意的是,FunAudio-ASR-nano(仅 0.8B)也超越了开源模型,并且在性能上接近 Seed-ASR

Streaming ASR Performance

为了评估 FunAudio-ASR 模型的流式识别能力,我们在与离线语音识别相同的测试集上进行了实验,结果如表 3 所示。与 Seed-ASR 相比,我们的 FunAudio-ASR 模型在不同测试集和不同场景下都表现出更优异的性能。

Evaluation on Noise Robustness

表 4 中展示了 噪声鲁棒性评估。结果表明,噪声鲁棒训练(NRT) 对于工业应用至关重要。在餐厅、超市等复杂环境中,NRT 能带来超过 30% 的相对提升,这是因为基于大模型的 ASR 系统在此类声学条件下容易生成幻觉式输出。此外,强化学习(RL) 进一步增强了模型的噪声鲁棒性。

Code-switching Evaluation

用两个测试集 A 和 B 来评估构建的语码转换训练数据的有效性:

热门词汇定制评估

热词评测 中,我们选择了一些带有特殊主题的音频,包括 生物、数学、宗教、食品、姓名、天文学、化学、哲学和物理,因为技术术语的识别对大多数 ASR 系统来说仍然是关键但具有挑战性的任务。表 6 的结果表明,FunAudio-ASR 可以从热词定制中显著受益。在大多数主题上,FunAudio-ASR 的 召回率(recall)可以提升到 0.97 以上。在 姓名 主题上,召回率甚至可以从 0.75 提升到 1.0。这表明 热词定制不仅仅是提供上下文信息,而是真正激发并强化了目标关键词的识别

Multilingual ASR Results

我们还在多个开源测试集和内部行业测试集上评估了我们的多语种 ASR 模型 FunAudio-ASR-ML。表 7 给出了测试结果。由表 7 可见,在 中文和英文的开源测试集及内部行业测试集 上,我们的多语种 ASR 模型 FunAudio-ASR-ML 相较于 Kimi-Audio具有更优或相当的效果。我们还将该模型与其他多语种 ASR 模型进行了比较,例如 Whisper large v3 、dolphin-small和 seamless-m4t large v2 。与这些模型相比,我们的 FunAudio-ASR-ML 同样能够获得 SOTA 性能

Effect of Reinforcement Learning

表 8 显示,RL 在 FunAudio-ASR 训练中发挥了关键作用,在离线和流式条件下分别带来了约 4.1% 和 9.2% 的相对提升。对于离线 ASR,相较于干净或开源数据,在嘈杂和复杂环境下的音频上性能提升更为显著。值得注意的是,在流式 ASR 设置中,改进幅度更大。RL 有助于抑制插入和删除错误,这些错误往往源于模型在完整发音尚未结束前的过早终止或预测。

如表 6 所示,RL 还能 有效增强热词集成,在大多数测试集上都提升了准确率和召回率。在某些领域(如哲学和宗教),RL 模型的准确率或召回率可能略低于基线模型;然而,整体 WER 仍然降低。这是因为在 RL 训练过程中,关键词的选择基于实际转录而非输入提示,从而使 FunAudio-ASR 能够更好地识别领域特定术语——即便这些专业词汇未被显式包含在热词列表中。

Limitations and Future Plans

尽管我们的 FunAudio-ASR 模型在多项评估中都取得了优异的成绩,但仍存在一些局限性。首先,它主要针对中文和英文进行优化,尤其是在流媒体性能和启动词自定义方面,因此对其他语言的支持仍然有限。其次,有效上下文窗口受限;如果没有外部语音活动检测 (VAD) 模块,系统难以稳健地处理长时间录音。第三,当前版本不支持远场或多声道音频。我们计划在未来的工作中解决这些局限性。

Qwen3-ASR:语音识别大模型

Qwen3-ASR-Flash实现了⾼精度⾼鲁棒性的语⾳识别性能,⽀持11种语⾔和多种⼝⾳。与众不同的是,Qwen3-ASR-Flash⽀持⽤户以任意格式提供⽂本上下⽂,从⽽获得定制化的 ASR 结果,同时还⽀持歌声识别。

Qwen3-ASR-Flash 单模型支持多种语言、方言和口音的精准转录:

  • 中文:包括普通话以及四川话、闽南语、吴语、粤语等主要方言。
  • 英语:支持英式、美式及多种其他地区口音
  • 其他支持语言:法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语和阿拉伯语。

为获得定制化的ASR结果,用户可提供任意格式的背景文本来获得倾向性ASR结果,Qwen3-ASR-Flash无需对上下文信息进行格式预处理。

支持的格式包括但不限于:

  • 简单的关键词或热词列表。
  • 任意长度和来源的完整段落或整篇文档。
  • 以任意格式混合的关键词列表与全文段落。
  • 无关甚至无意义的文本(模型对无关上下文的负面影响具有高度鲁棒性)。

 性能表现:

核心特性:

  • 领先的识别准确率:Qwen3-ASR-Flash在多个中英文,多语种benchmark测试中表现最优。
  • 惊艳的歌声识别能力:支持歌唱识别,包括清唱与带bgm的整歌识别,实测错误率低于8%。
  • 定制化识别:用户可以以任意格式(如词汇表、段落或完整文档)提供背景文本,模型能智能利用该上下文识别并匹配命名实体和其他关键术语,输出定制化的识别结果。
  • 语种识别与非人声拒识:模型能精确分辨语音的语种,自动过滤非语音片段包括静音和背景噪声
  • 鲁棒性:面对长难句、句中语言切换和重复词语等困难文本模式,以及在复杂的声学环境中,模型仍能保持高准确率

WenetSpeech-Yue:大规模粤语语音语料库

论文题目:WenetSpeech-Yue: A Large-scale Cantonese Speech Corpus with Multi-dimensional Annotation

  • 论文预印版:https://arxiv.org/abs/2509.03959
  • 仓库地址:https://github.com/ASLP-lab/WenetSpeech-Yue
  • Demo展示:https://aslp-lab.github.io/WenetSpeech-Yue/
  • WenetSpeech-Yue数据集地址:https://huggingface.co/datasets/ASLP-lab/WenetSpeech-Yue
  • WSYue-ASR-eval: https://huggingface.co/datasets/ASLP-lab/WSYue-ASR-eval
  • WSYue-TTS-eval: https://huggingface.co/datasets/ASLP-lab/WSYue-TTS-eval
  • ASR模型地址:https://huggingface.co/ASLP-lab/WSYue-ASR
  • TTS模型地址:https://huggingface.co/ASLP-lab/WSYue-TTS

背景动机

语音理解与生成的飞速发展离不开大规模高质量语音数据集的推动。其中,语音识别(ASR)和语音合成(TTS)被公认为最首要的任务。但对于拥有约 8490 万母语使用者的粤语而言,受限于标注资源匮乏,研究进展缓慢,ASR 与 TTS 的表现始终不尽如人意。现有公开的粤语语料库在规模、风格和标注维度上普遍存在不足。例如 Common Voice 和 MDCC 等项目过度依赖人工标注,仅能提供小规模数据;评测集大多局限于短句,缺乏对复杂语言现象的覆盖。同时,这些语料往往只提供语音-文本对齐信息,缺乏说话人属性或声学质量等元数据,极大限制了其在自监督学习、风格建模和多任务训练中的应用,导致主流 ASR 与 TTS 系统在粤语任务上表现欠佳,并在真实场景中泛化能力不足。

为解决上述问题,西北工业大学音频语音与语言处理研究组(ASLP@NPU)联合中国电信人工智能研究院、希尔贝壳、香港科技大学和Wenet开源社区,提出了 WenetSpeech-Pipe ——一个面向语音理解与生成、支持多维度标注的大规模语音语料构建一体化流程。该流程包含六个模块:音频采集、说话人属性标注、语音质量标注、自动语音识别、文本后处理与识别结果投票,能够生成丰富且高质量的标注。基于该流程,构建并发布了 WenetSpeech-Yue ——首个大规模粤语多维标注语音语料库,涵盖 21800 小时、10 大领域的粤语语音数据,并包含 ASR 转录、文本置信度、说话人身份、年龄、性别、语音质量评分等多种标注信息。同时,我们还发布了 WSYue-eval,这是一个全面的粤语评测基准,包含两个部分:WSYue-ASR-eval(人工标注集,用于评测短句/长句、粤英转换及多样声学条件下的 ASR 性能),以及 WSYue-TTS-eval(基础与覆盖子集,用于标准测试与泛化能力测试)。实验结果表明,基于 WenetSpeech-Yue 训练的模型在粤语 ASR 与 TTS 任务中表现优异,性能超越最先进(SOTA)的系统,并与商业系统相媲美,凸显了该数据集与流程的重要价值。

WenetSpeech-Pipe

 WenetSpeech-Pipe 框架如图 所示,由六个模块组成:(A) 音频采集,(B) 说话人属性标注,(C) 语音质量标注,(D) 自动语音识别,(E) 文本后处理,以及 (F) 识别结果投票。

音频采集: WenetSpeech-Pipe 首先从多个领域(如故事、影视、评论、Vlog、美食、娱乐、新闻和教育)大规模采集真实语音数据。由于原始录音多为几十分钟至数小时的长音频,不适合直接用于模型训练或对齐,因此系统通过语音活动检测(VAD)自动切分为短音频片段,从而生成可用于转写和质量评估的语句级数据,为后续处理奠定基础。

说话人属性标注:为了丰富数据集,使其具备多说话人建模和风格感知合成所需的说话人级别元数据,WenetSpeech-Pipe 引入了 说话人属性标注阶段。首先,利用 pyannote 工具包 进行说话人分离,为同一录音中的短片段分配局部说话人标签,实现录音内的说话人区分
其次,利用 Vox-Profile对每个片段的说话人进行年龄和性别估计,从而生成说话人属性注释。该流程最终得到带有说话人身份、年龄和性别信息的语句级片段,形成多维度的元数据,有助于监督建模和可控风格的语音建模

语音质量标注:WenetSpeech-Pipe 在语音质量评估阶段结合三种方法:Brouhaha 计算信噪比、DNSMOS 预测主观质量分、带宽检测分析频谱特性,从而为每个片段生成包含 SNR、MOS 与频谱参考的结构化质量标注,支撑高保真语音建模。

ps:关于 Brouhaha: multi-task training for voice activity detection, speech-to-noise ratio, and C50 room acoustics estimation:
代码:https://github.com/marianne-m/brouhaha-vad
给定一个音频片段,Brouhaha 可以提取:语音/非语音片段,语音噪声比 (SNR),C50,测量环境混响程度。

DNSMOS:基于多阶段自我学习(multi-stage self-teaching) 的无参考感知客观指标:DNSMOS,用来评估噪声抑制模型的语音质量。基于 CNN;输入为语音频谱;训练以人类主观评分为目标,采用自我学习提升性能.

自动语音识别:单一 ASR 系统通常会因架构限制、训练数据不足或领域不匹配而表现出系统性偏差和错误模式。为了缓解这些问题并提升转写可靠性,WenetSpeech-Pipe 采用 多系统集成识别 方法,结合不同的识别范式。具体来说,每个音频片段会被 独立输入到三个高性能粤语 ASR 系统:开源模型 SenseVoice、Whisper,以及商用系统 TeleASR。这些系统在架构、训练数据和优化目标上各不相同,因此能够形成互补的错误分布和多样的语言假设。最终输出为每条语句的三份并行转写,作为后续融合与优化的基础输入。

文本后处理:WenetSpeech-Pipe 通过文本后处理统一多系统转写结果:使用 OpenCC 繁转简,去除符号与标签,规范数字和日期格式,并在中英文间加空格。这样生成的规范化转写确保 ROVER 融合时不会受表层差异干扰。

  • 使用 OpenCC 将繁体字统一转换为简体字
  • 去除所有标点和特殊符号
  • 基于规则重写统一数字与日期表达
  • 在粤语与英语单词之间插入空格,便于双语建模。

经过上述步骤,系统获得了跨三套 ASR 的标准化转写,作为 ROVER 模块的鲁棒输入,避免表层差异干扰语音与词汇层面对齐。

为了确保不同 ASR 系统之间的转写格式一致,我们提出了一个集成的文本后处理框架,包含四个关键操作:

  1. 标点去除:通过正则表达式匹配,删除符号类字符
  2. 繁转简:利用 OpenCC 库实现繁体到简体的转换;
  3. 文本规范化:使用 an2cn 工具进行数字的标准化转换;
  4. 合理分词:借助 Pangu 工具实现恰当的词间空格。

这四个步骤共同作用,能够在不同 ASR 系统输出存在差异的情况下,保证生成标准化的文本格式。

识别结果投票:虽然文本后处理统一了转写表层形式,但在词汇选择、分词和音素表示上仍存在差异。为了得到统一且高精度的参考转写,WenetSpeech-Pipe 采用了 ROVER (Recognizer Output Voting Error Reduction) 框架 ,通过多系统投票提升转写精度。

在实现上,标准 ROVER 流水线被扩展以更好地适应粤语:

  • 使用动态规划对三套系统的转写结果进行对齐;
  • 引入候选过滤模块,计算某系统输出与其余两套平均转写的编辑距离,若超过阈值则剔除该系统结果;
  • 在每个对齐位置,选择最常出现的词,并将整体投票频率作为语句级置信度;
  • 并行引入 基于拼音的投票,结合字符级投票,保证音素一致性。

为进一步提高转写准确率,系统引入 大语言模型 Qwen3-4B,在共识输出的基础上进行最小化的上下文感知修正,仅在语法、用词或命名实体方面做必要调整,保持口语内容的完整性。

字级别时间戳对齐:最后,使用预训练声学模型在字符级别上强制对齐修正后的转写与原始音频,从而获得精确的逐字符时间戳支持更精细的语音处理和下游任务

Meta Data Example:

将所有音频的元数据以标准化的 JSON 格式进行存储。核心字段包括:

  • utt_id每个音频片段的唯一标识符)、
  • rover_result来自三个 ASR 转写结果的 ROVER 融合结果)、
  • confidence文本转写的置信度分数)、
  • jyutping_confidence粤语拼音转写的置信度分数)、
  • duration音频时长)。

说话人属性(Speaker attributes)包含参数:speaker_id性别(gender)和年龄(age)。音频质量评估指标包括专业测量项:采样率(sample_rate)DNSMOSSNR。时间戳信息(timestamp)精确记录了起始时间(start)和结束时间(end)。此外,在 meta_info 字段下还扩展了更多元数据,包括:program(节目名称)、region(地理信息)、link(原始内容链接)、以及 domain(领域分类)。

WenetSpeech-Yue

数据集分布

元数据:所有元数据存储在单一 JSON 文件中,字段包括音频路径、时长、文本置信度、说话人身份、信噪比(SNR)、DNSMOS 分数、年龄、性别以及字符级时间戳。这些字段具有可扩展性,未来可进一步加入新的标签。

领域分布:WenetSpeech-Yue 的语料来源大致涵盖十个领域:故事、娱乐、戏剧、文化、Vlog、评论、教育、播客、新闻及其他,具体分布如图2所示。

时长分布:整个语料库共包含 21,800 小时音频,既包括长录音也包括短片段,切分后平均时长为 11.40 秒。

置信度:我们仅保留文本置信度高于 0.6 的标注,并根据confidence区间划分为三类:强标注(confidence> 0.9,6,771.43 小时)、中等标注(0.8 ~ 0.9,10,615.02 小时)和弱标注(0.6 ~ 0.8,4,488.13 小时)。

语音质量:我们评估了语料的音质:DNSMOS 分数范围为 2.0–4.4,SNR 范围为 -5–80 dB,采样率分布为 8,000–32,000 Hz。为确保生成式任务的可用性,我们过滤后仅保留 DNSMOS > 2.5 且 SNR > 25 dB 的样本,共得到约 12,000 小时高质量语音,可用于 TTS、声码器或语音转换等任务。

说话人属性:语料库在性别与年龄上分布不均,以男性为主,尤其集中在中年群体(50.6%),而女性在各年龄段中比例相对较低。

WSYue-eval

为应对粤语的语言特性,我们提出 WSYue-eval,一个同时涵盖 ASR 与 TTS 的综合评测基准,用于全面检验模型在粤语处理上的表现。

ASR 评测集(WSYue-ASR-eval)该测试集经过多轮人工标注,包含转写、情感、年龄、性别等信息,并划分为 短语音(0–10 秒,9.46 小时,2861 位说话人)和 长语音(10–30 秒,1.97 小时,838 位说话人)两个子集,覆盖粤英转换及多领域场景。

TTS 评测集(WSYue-TTS-eval)该基准专为零样本粤语 TTS 设计,包含两个子集:

  • Base:1000 条来自 CommonVoice 的提示-文本对,用于测试日常场景;
  • Coverage:由于 CommonVoice 主要包含日常对话数据,其对不同领域和语言现象的覆盖范围有限。为了解决这个问题, Coverage 子集由人工与 LLM 生成文本组成,覆盖日常、新闻、娱乐、诗歌等多领域,并包含多音字、变调、语码转换、专名、数字等复杂语言现象。

模型训练策略:

模型均采用两阶段训练策略:初始阶段使用混合的中高置信度标签实现快速收敛,之后在高置信度标签上进行微调以最大限度地提高转录准确率。这种设置既降低了训练成本,又直接反映了数据集的质量影响。

分2阶段ASR任务训练效果

阶段 1 在混合置信度数据集上训练,已经能够取得非常具有竞争力的粤语 ASR 性能,而阶段 2 在高置信度数据上进行微调,则在 WSYue-ASR-eval 的两个测试集上都带来了显著提升。这些观察结果验证了高置信度标签是性能提升的主要驱动力。我们认为保留置信度信息至关重要,因为它能够支持灵活的训练策略:高置信度子集可用于主导微调,而低置信度片段经过谨慎利用,则可以在半监督或领域自适应场景下提高模型的鲁棒性

模型效果:

ASR任务:

采用混合错误率(MER)作为评测指标,其中中文按字级、英文按词级计算错误,用于比较基于 WenetSpeech-Yue 训练的模型与各类基线模型的表现。表1的实验结果显示:

  1. 在所有模型规模(small、medium、w/ LLM)下,我们的模型在大多数评测集上表现最佳;
  2. 在小规模模型中,SenseVoice-small-Yue 和 U2pp-Conformer-Yue 均表现优异,其中 SenseVoice-small-Yue 尽管规模较小,却超过了所有基线模型,说明该语料库能显著提升低容量模型的效率;
  3. 在不带 LLM 的组别中,U2pp-Conformer-Yue、Whisper-medium-Yue 和 SenseVoice-small-Yue 均优于大规模基线模型;
  4. 在带 LLM 的组别中,U2pp-Conformer-LLM-Yue 始终达到当前最先进水平。

总体来看,WenetSpeech-Yue 不仅显著提升了整体性能,还能充分释放不同规模模型的潜力,验证了其在传统 ASR 和 LLM 增强型 ASR 中的广泛价值。

TTS任务:

表2的实验结果表明,基于 WenetSpeech-Yue 微调的 Llasa-1B-Yue 和 CosyVoice2-Yue 在客观和主观指标上均显著优于各自的预训练基线:CosyVoice2-Yue 在 MER 和自然度(UTMOSv2)上表现最佳,并取得最高的可懂度(I-MOS),而 Llasa-1B-Yue 则在说话人相似度(S-MOS)和口音自然度(A-MOS)方面领先,体现了更自然的韵律与风格。整体上,两种模型在多维度上均大幅提升了粤语 TTS 的质量,验证了 WenetSpeech-Yue 在推动粤语语音合成方面的有效性。

MOSS-TTSD 中英双语口语对话合成模型

当前的文本到语音(TTS)模型在单句或孤立段落的语音生成效果上取得了令人瞩目的进展,合成语音的自然度、清晰度和表现力都已显著提升,甚至接近真人水平。不过,由于缺乏整体的对话情境,这些 TTS 模型仍然无法合成高质量的对话语音。

MOSS-TTSD 是一个口语对话语音生成模型,实现了中英双语的高表现力对话语音生成,支持零样本多说话人音色克隆,声音事件控制以及长语音生成。与传统 TTS 模型只能生成单句语音不同,MOSS-TTSD 能够根据完整的多人对话文本,直接生成高质量对话语音,并准确捕捉对话中的韵律变化和语调特性,实现超高拟人度的逼真对话语音合成。

亮点

  • 高表现力对话语音:基于统一语义-声学神经音频Codec、预训练大语言模型、百万小时TTS数据与约40万小时的真实/合成对话语音数据,MOSS-TTSD能够生成高表现力,高自然度,具有自然对话韵律的拟人对话语音。
  • 双说话人零样本声音克隆:MOSS-TTSD支持零样本双说话人克隆,按脚本精确进行角色/声线切换。只需要提供10到20秒的参考音频片段。
  • 中英双语:MOSS-TTSD支持中英两种语言的高表现力语音生成。
  • 长音频生成:得益于低码率Codec与训练框架优化,MOSS-TTSD在长音频生成场景进行了大量训练(训练最大长度达到960s),能够单次生成超长音频。

模型概览

1 模型结构概览:基于Qwen3-1.7B-base模型进行训练,使用八层RVQ码本进行语音离散化,使用自回归加Delay Pattern进行语音token生成,最后使用Tokenizer的解码器将语音token还原为语音。

MOSS-TTSD 使用完全离散化的方式进行语音生成。我们训练了一个8层 RVQ 的音频 Codec:XY-Tokenizer,来对原始音频进行量化。 XY-Tokenizer 能够同时编码语音的语义和声学信息,并具有较低的比特率(1kbps),这使得LLM能够有效地学习音频序列并建模细节声学特征。 在序列建模方面,受到 MusicGen 和 VOICECRAFT的启发,我们使用自回归建模加多头 Delay 的方式进行语音 token 生成

语音离散化: XY-Tokenizer

为了统一建模语音的语义和声学信息,并实现低比特率,我们构建了 XY-Tokenizer,它使用了双路 Whisper Encoder 进行语音编码,8层 RVQ 量化,两阶段多任务学习的方式进行训练。实现了 1kbps 的比特率和 12.5Hz 的帧率[1024码本大小]。

XY-Tokenizer 采用了两阶段多任务学习的方式进行训练。第一阶段(上半部分)训练ASR任务和重建任务,让编码器在编码语义信息的同时保留粗粒度的声学信息。第二阶段(下半部分)我们固定住编码器和量化层部分,只训练解码器部分。通过重建损失和 GAN 损失,利用生成式模型的能力补充细粒度声学信息。

我们扩展了Codec训练的数据量,使用了10万小时带有转录文本的语音数据进行训练。下表对比了在LibriSpeech测试集上不同 Codec 在语义和声学性能上的表现。WER为ASR任务中的词错误率,WER越低表示语音 token 的语义信息与文本对齐程度更好。粗体为低比特率 Codec 组中的最优或次优性能。

XY-Tokenizer 是在1kbps,12.5Hz的帧率下同时建模语义和声学信息性能最好的 Codec ,在语义和声学指标上都取得了最优或次优的结果。

为了更好地编码和重建复杂的对话音频,我们扩展了50万小时无转录音频数据进行增强训练,扩展 Codec 对于复杂音频和场景的处理能力。

益于Codec的超低比特率,我们模型的训练长度最长达到了960s的音频,这使得我们的模型可以一次性地生成超长的语音,避免了拼接语音片段之间的不自然过渡。

数据工程

TTS 模型的性能与训练数据的质量和数量有着密切的关系,为了规模化高质量 TTS 数据和 TTSD 数据,我们设计了高效的数据处理流水线,可以从海量原始音频中准确筛选出单人语音和多人对话语音并进行标注。

对于原始音频,我们首先使用内部的说话人分离模型进行语音分段和说话人标注。 基于预训练基模,我们的说话人分离模型性能已经优于开源说话人分离模型 pyannote-speaker-diarization-3.1 及其商用版本 pyannoteAI 。

说话人分离模型在不同数据集上的 DER(Diarization Error Rate) 结果(越低越好),我们的模型在四个测试集上都取得了最优性能

我们使用 DNSMOS 分数来作为语音质量的评估标准,我们假设 DNSMOS 分数高的语音大概率不包含背景噪声。 为了保证语音的质量和较少的噪声,我们只保留 DNSMOS >=2.8的语音片段。 对于高质量的音频片段,我们直接对语音进行转录,作为 TTS 训练数据。 此外,我们设计了一套规则来将 Diarization 分离的语音片段组合成双人对话的片段用作 TTSD 训练,这样得到的对话片段我们称之为粗粒度对话片段。 虽然说话人分离模型能够较准确地分离说话人,但是我们发现它对一些较短的 Backchannel 不是特别敏感,存在漏分离的情况。 此外,当前的 ASR 模型无法准确地转录对话中重叠的语音。 因此,受 Parakeet[4] 的启发,我们训练了中文版的 Whisper-d 模型来对中文数据进行细粒度说话人标注和文本转录。对于英文数据我们直接使用 Parakeet 的开源 Whisper-d。 最终,我们使用说话人分离模型的粗粒度标签和 Whipser-d 模型的细粒度标签来将短对话片段组成长对话片段。

TTS 预训练

TTS 预训练模型在 Seed-tts-eval 测试集上的词错误率对比(越低越好),加粗的结果代表最优和次优的性能; WER(Norm) 表示我们针对 ASR 的同义结果做了规则修正,减少了 ASR 模型错误导致的误判; CER(Norm) 表示我们将中文文本转为拼音后再计算词错误率,即 PER 指标,我们认为这是更加合理的方式; SparkTTS 和 Cosyvoice2 的结果为我们本地使用官方推理代码重新测试的结果;

我们使用了110万小时的中英文 TTS 数据对模型进行了预训练,大规模的 TTS 预训练可以显著增强 TTSD 模型的语音韵律和表现力,并提升模型泛化能力。 我们使用了 Seed-tts-eval评测了 TTS 预训练模型的性能,取得了和当前顶尖闭源模型 Seed-TTS 相当的性能。 经过 TTS 预训练后的模型已经有了较强的语音生成能力和零样本音色克隆能力。

TTSD 后训练

最终,我们收集了10万小时中文对话数据和27万小时英文对话数据。 此外,为了增强模型的说话人切换准确率,我们合成了4万小时中文对话数据和4万小时英文对话数据。 为了增强模型对于中文标点符号的感知能力,我们使用 Gemini 对部分数据(约7万小时)中的转录文本进行了修正。

在训练阶段,我们基于 TTS 预训练的检查点,使用 WSD Scheduler 进行训练,我们没有针对 Decay 阶段做特殊的数据规划。 此外,我们发现无法通过验证集挑选表现最好的检查点,因此我们通过人工评估的方式挑选了主观表现最好的检查点。