VibeVoice-ASR:微软多任务语音识别模型

概述

VibeVoice-ASR 是微软开源的90亿参数统一语音识别模型,基于Qwen2 Decoder架构,采用64K token超长上下文窗口与7.5 Hz超低帧率语音分词技术,实现了ASR(自动语音识别)、说话人分离(Diarization)和时间戳标注(Timestamping)三大任务的端到端联合建模。该模型支持中英双语,可单次处理长达60分钟的连续音频,输出”Who-When-What”结构化转录结果,并通过自定义热词功能适配医疗、法律等专业领域

🕒 60 分钟单次处理
不同于传统 ASR 模型需要将音频切分为多个短片段(这通常会导致全局上下文丢失),VibeVoice ASR 在 64K token 长度限制内 可直接接收最长 60 分钟的连续音频输入,从而在整段音频范围内保持说话人一致性语义连贯性

👤 自定义热词(Customized Hotwords)
用户可以提供自定义热词(例如人名、专业术语或背景信息)来引导识别过程,显著提升特定领域内容的识别准确率。

📝 丰富的结构化转写(Who / When / What)
模型联合完成 语音识别(ASR)说话人分离(Diarization)时间戳标注(Timestamping),输出结构化结果,清晰标注是谁在什么时间说了什么内容

当前主流的长音频处理方法采用级联流水线架构,将连续语音切分为短片段(通常小于 30 秒)进行独立处理,尽管这种 “分而治之” 的策略具备实用性,但存在两个根本性缺陷上下文碎片化流水线复杂度。首先,片段独立处理会切断全局语义依赖,使模型丢失跨语句上下文信息,这对于消除同音词歧义、解决长对话中的指代消解问题是致命的。其次,传统系统将自动语音识别(ASR)说话人分轨(Diarization)和时间戳标注视为相互独立的任务,由互不相关的模型分别处理。调和其输出往往需要复杂的启发式规则,进而导致错误传播:一旦分段或说话人分轨出现错误,就会污染最终转录结果。 为弥补这一差距,我们提出 VIBEVOICE-ASR,一个面向高保真长语音理解的统一通用框架。

Method

模型

VibeVoice-ASR采用声学-语义双编码器架构:

  • 声学编码器:基于VAE结构,将16kHz音频压缩为7.5 Hz离散token(码本大小8K),捕捉音色、语调等声学细节
  • 语义编码器:类似HuBERT架构,提取语音的语义表示,确保内容理解准确性

双编码器特征融合后,通过声学连接器(Acoustic Connector)映射至LLM语义空间,实现声学信息与语言知识的深度耦合。

传统梅尔频谱以50 Hz帧率提取特征,1小时音频产生18万帧,超出Transformer处理能力。VibeVoice创新性地采用7.5 Hz帧率,压缩比高达2133:1,将长音频转化为LLM可处理的token序列。这种超低帧率设计不仅解决长度瓶颈,更通过连续语音分词器保留韵律与语气信息,为后续TTS任务提供统一表征基础。

这种超低帧率至关重要,一小时连续音频可换算为:3600 秒×7.5 token/秒=27000 个 token这一长度可以轻松放入现代大语言模型的单遍上下文窗口中。

大语言模型主干( Qwen 2.5-7B)处理,自回归地生成目标序列。

Pre-training

预训练数据英文占比最高66%,中文占比 14%,覆盖了 50 余种语言。该流水线包含三个阶段:分段与转录说话人分轨以及质量过滤

首先,利用 Silero 语音活动检测(VAD)将长录音切分为最长 30 秒的片段,再使用 Whisper-large-v3-turbo 进行转录,得到带标点的文本与词级时间戳;通过在标点结束时间戳(如句号、问号、感叹号)处进行切分,进一步优化分段边界,使其与说话人轮次更好对齐。 随后,使用 WeSpeaker 工具包 中的 vblinkp 模型执行说话人分轨:从重叠帧(窗口 1.5 秒,步长 0.75 秒)中提取说话人嵌入,使用 HDBSCAN进行聚类,并将质心余弦相似度大于 0.67 的簇进行合并优化,得到最终的说话人轮次标注。

最后,为保证标注可靠性,我们使用另一套 ASR 模型 对片段重新转录;若超过 30% 的片段词错误率(WER)高于 20%,或语音时长占总时长不足 60%,则将该条录音丢弃。 为验证数据处理流水线的有效性,我们将其与两种广泛使用的音频处理流水线 WhisperX和 Emilia 进行了对比实验。实验在三个常用的公开多人会议数据集上开展:AMI 、AliMeeting 和 AISHELL-4 ,并同时报告说话人分轨错误率(DER)与分轨不变词错误率(WER)。为保证公平对比,我们关闭了 Emilia 中的数据过滤模块,因其默认配置会剔除大量音频样本。

如表 1 所示,在大多数测试数据集上,本文提出的数据流水线相比两个基线系统均能持续获得更低的 DER 与 WER。结果表明,在不同声学环境下,我们的流水线在分段、说话人分轨与转录任务上均具备更稳健的性能。

对大语言模型的输入序列长度采用了课程学习策略,从 8192 个 Token 逐步增加到 65536 个 Token。

SFT

构建了四类高质量数据进行微调:

  1. 标准语音与音乐数据集:提升多说话人识别与音乐场景鲁棒性;
  2. 上下文感知合成数据:用 GPT‑5 生成带上下文提示的中英混流对话脚本,再通过 VIBEVOICE 合成约 6000 小时高质量音频;
  3. 长语音修复数据:用 GPT‑5 对碎片化转录做全局语义校正,并标注非语音片段以抑制幻觉;
  4. 最后按 0.5: 0.1: 0.1: 0.3 的比例混合训练,让模型在常规识别、音乐、上下文感知、长语音理解上能力更均衡。

流式处理与内存优化

通过VibeVoiceTokenizerStreamingCache缓存机制,模型在处理超长音频时采用分块编码策略:将60分钟音频切分为60秒块流式处理,缓存卷积层状态,最终统一采样确保块间一致性。配合FlashAttention-2技术,内存复杂度从O(N²)降至O(N),使得90亿参数模型可在单卡24GB显存环境下运行。

结果

在所有测试数据集上,VIBEVOICE‑ASR 在 DER 和 tcpWER 指标上均持续优于 Gemini‑2.5‑Pro 与 Gemini‑3‑Pro,表明其说话人建模能力更强、说话人轮次时间对齐精度更高。 在更直接反映模型说话人一致性保持能力的 cpWER 指标上,我们的模型在 16 个评测配置中的 11 个取得最优性能,显著优于两个 Gemini 版本,说明在多说话人场景下说话人区分效果更可靠。 在 WER 方面,我们的模型在 16 个配置中的 8 个取得最低错误率,在其余数据集上仅出现小幅下降。

Limitations

监督微调中的多语言遗忘:虽然预训练覆盖了 50 余种语言,但监督微调阶段主要聚焦于英语、中文及语码切换数据。因此,对于未出现在指令微调中的低资源语言,模型性能可能出现下降。

重叠语音问题:当前架构生成序列化输出流,并未显式处理重叠语音(即 “鸡尾酒会问题”)。在多人同时说话的场景中,模型倾向于转录主要说话人内容,可能丢失次要信息。未来版本将探索带语音分离感知的建模方式来应对这一挑战。

对模型设计和数据的思考

多任务的模型设计

虽然模型命名为VibeVoice-ASR,但它并非单纯的语音转文字模型。VibeVoice-ASR集成了说话人日志、时间戳以及部分声音事件检测功能。

这样的多任务设计符合大模型时代的技术趋势,也契合未来的用户需求。如今,仅实现语音转录已远远不够。无论是底层模型还是上层应用,乃至用户对智能体验日益提升的期待,都要求我们从语音数据中提取更丰富的信息。用户对产品的追求不再停留在基础功能,而更多地转向情感价值与类人体验。

关注声音特性

声音在机器理解用户方面的价值被严重低估了。理解声音,是通往“世界模型”、理解世界不可或缺的一环。

遗憾的是,目前除了Gemini,我还没看到能与之比肩的系统。我也认为这是谷歌布局未来重要的一步。(不得不提一句,至于那些号称超越的,或许在某些测试集和指标上能实现超越,这一点我并不否认。)

VibeVoice-ASR模型其实让我有所期待。至少,它是开源模型中明确对声纹进行建模(另外还有阿里的 SpeakerLM ,也是对声纹进行建模识别),并且在我真实测试集(家庭录音,包括男性、女性、儿童)中,在区分度较大的场景下是可用的。

  • “建模声纹很难吗?”“是的。”
  • “声纹识别现在做得很好了吗?”“并没有。”

声纹作为声音的底层属性,与语音语义有很大不同。识别一个人的声纹,对人类来说也并非易事。我们觉得容易,大多是因为我们接触的声纹往往是“已注册”的。从模型实现来看,声纹的做法看似简单,但实际效果并不理想,原因有多方面:

极易受环境干扰

与ASR相比,声纹更易受声学环境干扰。训练数据的覆盖范围、环境噪声、信道差异,以及注册与使用条件的不一致,都会影响最终效果。

声纹具有时变性

声纹会随时间发生漂移,比如儿童的声音变化最快,不同儿童之间的声音区分也很困难,成人的声音也会因状态(如感冒、情绪)而改变。

声纹数据自动标注困难

从数据标注角度看,由于历史上声纹模型效果一般,再加上上述难点,导致自动化标注很难做到准确。

幻觉问题较为突出

在体验VibeVoice-ASR模型的过程中,发现最明显的问题是幻觉。测试中,注意到一个特别的现象:数据中孩子的哭声极容易触发模型的幻觉。

这背后最主要的原因,应该还是接下来要谈的数据覆盖问题。

长度真的那么重要吗?

对于文本大模型,长度等于上下文,上下文窗口的确很重要。但对于语音模型,特别是偏重转录的模型,在当前阶段,长度是否真的如此关键,我持保留态度。

VibeVoice-ASR提出的理由是:当前的系统存在两个根本性局限:上下文碎片化(Context Fragmentation)与流水线复杂度(Pipeline Complexity)。首先,独立处理各个片段会割裂全局语义依赖,导致模型无法追踪跨句子的上下文信息。这在处理长对话时尤为致命——例如,难以消解同音词歧义,或无法正确解析跨句的指代关系。其次,传统系统通常将自动语音识别(ASR)、说话人日记化(Speaker Diarization)和时间戳标注视为相互独立的任务,由彼此分离的模型分别处理。要协调这些模型的输出,往往需要依赖复杂的启发式规则,这容易引发误差传播:一旦分段或说话人划分环节出现错误,最终的转写结果就会受到污染。

首先,关于上下文断裂问题——纯音频的上下文真能解决这个问题吗? 或许能部分缓解,但对多数场景来说,可能并非至关重要。文本层面的上下文或许已足以提升准确率。

其次,工程复杂度方面,文中提到的说话人日志优势我很认同,但这个和长度其实关系不是特别大,我认为更多的优势来自于识别+说话人的联合建模。短句说话人日志的确很困难,但几分钟的数据进行说话人相关的工作也没有太大问题。如果可以把效果做好,后续通过一个混淆矩阵进行相同说话人的聚类。如果长语音识别确实可以做的好,那么降低系统复杂度的优势肯定是有的。

综上所述,在当前条件尚不成熟的情况下,过度强调长度或许并不是最优先的。相比长度,我们更应关注模型的稳定性与准确性。 当然,如果能处理更长的音频,那自然是更好的。

“垃圾”数据也有价值

从我测试中遇到的幻觉问题,结合当前主流数据清洗流程的做法,会发现一个现象:

人们常用多个模型交叉验证,筛选出“有用且正确”的数据。

什么是“有用且正确”的数据?如果一条数据包含文字,且多个模型识别结果一致,就被认为是有价值且标注正确的。那么,那些被过滤掉的数据,其价值又该如何看待?

事实上,它们的价值在今天更应被重视。原因如下:

幸存者偏差

这种方式筛选出的数据,都是以往模型基础上的“幸存者”,数据质量虽高,但对模型来说难度较低。换句话说,大量这类数据对模型能力的提升并无太大增益。如果模型只用这类数据训练,那么无论输入什么,哪怕是人耳都难以听清的语音,模型都可能用最大似然的方式“猜”一个最可能的结果,而不是“承认困难”。一个懂得“示弱”的模型,或许也有其价值。

“垃圾”数据的价值

所谓“垃圾数据”,正是那些被自动标注流程过滤掉的数据,它们的价值应当被重新审视。比如我测试数据中的哭声片段,很可能会被清洗流程过滤掉。再加上这类声音重复性强,更容易导致模型产生幻觉。

在强化学习中,也应该加强对“坏”数据如何给予正确反馈的机制。

LLM-ForcedAligner:多语种长语音非自回归强制对齐器

  • 论文题目:LLM-ForcedAligner: A Non-Autoregressive and Accurate LLM-Based Forced Aligner for Multilingual and Long-Form Speech
  • 论文预印版:https://arxiv.og/pdf/2601.18220

背景

在语音处理中,强制对齐(Forced Alignment,FA)的目标是在给定相应转录文本的情况下,估计语音信号中每个词或字符的起始和结束时间戳。FA在众多应用中不可或缺,包括大规模语音语料库的构建与清理、自动字幕生成和词级高亮显示,以及语音合成中的时长建模和韵律分析。随着多语言和多模态应用的不断发展,高效且准确的FA变得日益重要。

现有的FA方法大致可分为两大类:传统混合系统和端到端模型。Montreal forced aligner(MFA)通常是一种混合高斯混合模型-隐马尔可夫模型(GMM-HMM)框架,通过维特比解码计算帧级音素到文本的对齐路径来获取时间戳。CTC是一种常见的端到端强制对齐方法,它利用基于CTC的自动语音识别(ASR)模型计算的帧到token对齐,采用动态规划在受限的搜索路径中找到与文本序列对齐的最优路径。CIF为每个编码器输出帧预测一个权重,并随时间对这些权重进行积分。当累积权重超过阈值时,会触发一个触发事件,此时计算累积的帧级声学向量的加权和,生成与输出token对齐的声学嵌入,从而能够为每个token分配相应的时间戳。WhisperX采用轻量级端到端音素识别模型对语音进行帧级音素分类,然后使用动态时间规整(DTW)将得到的音素序列与转录文本对齐,通过聚合音素级时间戳来获取词级时间戳。

然而,上述FA方法与特定语言的音素、词汇或结构设计紧密相关,这意味着在多语言场景中,部署通常需要一系列结构各异的独立系统,导致工程成本和维护复杂度随语言数量呈线性增长。此外,以往的FA方法可概括为一个先计算局部声学相似度,再进行单调路径搜索的过程。虽然这些方法能为短片段生成相当准确的边界,但在长语音中,它们往往会积累显著的系统性时间偏移。

大型语言模型(LLMs)在多语言文本理解和长序列处理任务中展现出了强大的能力,为支持多语言、跨语言和长语音的语音文本对齐提供了新的可能性。越来越多的研究探索将语音编码器与LLMs相结合,构建语音大语言模型(SLLMs),以在统一框架内处理语音和文本。然而,现有的SLLMs主要在高级语义任务上取得了成功,例如ASR、语音理解、语音合成和口语对话。对于对声学特征更为敏感的FA,这些SLLMs通常将其视为ASR的副产品,通过next-token prediction来生成词级或字符级的时间戳。这种模式容易产生时间非单调的幻觉,并且会导致显著的推理延迟。

LLM-ForcedAligner

提出了一种新的强制对齐(Forced Alignment, FA)框架,称为 LLM-ForcedAligner该方法将强制对齐重新表述为一种槽位填充(slot-filling)范式

将每个单词或字符的起始和结束时间戳视为离散的时间索引,并在转录文本中插入专门的特殊标记作为“槽位”。这样,在语音嵌入表示以及插入了这些槽位的转录文本作为条件输入的情况下,语音大语言模型(SLLM)可以直接在指定的槽位位置预测对应的时间索引。

这一新的强制对齐范式有效利用了大语言模型在槽位填充能力长上下文处理能力方面的优势,将传统基于纯声学、音素级别的对齐方法扩展为具备语义边界感知能力的字符级或词级对齐方法

在具体实现上,为了进行槽位填充,我们在训练阶段采用了因果注意力掩码(causal attention masking),且不对输入序列和标签序列引入任何偏移(shift)。这使得每个槽位可以基于其自身及其之前的上下文信息来预测对应的时间索引。同时,损失函数仅在槽位位置上进行计算。

此外,我们采用了一种动态槽位插入策略:在转录文本中,随机决定是否为每个单词或字符插入特殊标记,从而使 LLM-ForcedAligner 能够对任意单词或字符进行时间戳预测。

在推理阶段,LLM-ForcedAligner 支持非自回归(non-autoregressive)解码,相比自回归解码方式可以完全避免幻觉(hallucination)问题,并且实现更快的推理速度。

实验结果表明,在多语言、跨语言以及最长达 300 秒的长语音场景下,LLM-ForcedAligner 相较于以往的强制对齐方法,在累计平均偏移(Accumulated Averaging Shift, AAS)指标上实现了 69%~78% 的相对下降,同时仅带来了轻微的实时因子(Real-Time Factor, RTF)增加。

在训练过程中,我们将转录文本中词级或字符级的起始和结束时间戳替换为一个特殊标记 [time],将其作为“槽位(slot)”。同时采用动态槽位插入策略,随机决定忽略哪些词或字符对应的槽位。
由 AuT 编码器生成的语音嵌入(speech embeddings)随后与文本序列拼接,并输入到 LLM 中,在**因果注意力掩码(causal attention masking)**下进行训练。

Overall Architecture

LLM-ForcedAligner将FA构建为一种槽位填充范式:给定语音信号和一个添加了表示词级或字符级的开始和结束时间槽位特殊token“[time]”的转录文本,SLLM直接为每个槽位预测相应的离散时间戳索引。与以往首先进行帧级或音素级的对齐,然后将结果聚合为词级或字符级的时间戳FA方法不同,LLM-ForcedAligner则直接预测词级或字符级的时间戳索引。

训练LLM-ForcedAligner需要大量语音-转录文本对的词级或字符级时间戳标签;然而,由于人工标注成本过高,我们采用了由MFA生成的伪时间戳标签,因为MFA是现有对齐方法中准确率最高的。需要强调的是,MFA伪标签本身存在噪声和系统性偏移。

LLM-ForcedAligner并非简单复制MFA的输出,而是利用SLLM对这些伪标签进行提炼和平滑处理,从而实现更稳定、偏移更小的时间戳预测。

LLM-ForcedAligner 中的语音编码器来自AuT,其输出的每个语音嵌入帧对应80毫秒的语音信号。在将带有MFA伪标签的转录文本输入Tokenizer之前,我们用[time] 替换所有MFA伪标签时间戳。此外带有MFA伪标签的转录文本同时将每个时间戳除以80毫秒以离散成时间序列索引,作为模型训练时的标签。

时间戳预测层是一个线性层,具有3750个输出类(300秒除以80毫秒),用于预测整个输入序列的时间戳索引。

LLM-ForcedAligner的多语言和跨语言能力由AuT语音编码器和多语言LLM共同提供。具体而言,在大规模多语言语料库上预训练的AuT编码器能为多种语言生成有效的帧级语音嵌入,而多语言LLM则处理不同语言的语义信息。此外,特殊token[time]和时间戳预测层不依赖于特定语言的音素集或词典。因此,LLM-ForcedAligner能够处理多语言和跨语言的语音-文本对,克服了以往FA方法的特定语言限制。

训练策略

SLLM通常采用一种训练方案,即移除输出序列的最后一个标记和标签序列的第一个标记,使两个序列之间产生一个位置的偏移;然后计算交叉熵损失,从而实现标准的下一个标记预测范式。然而,这种范式并不适合填充时间戳槽位填充。

相反,我们采用因果训练,使输出和标签序列不发生偏移,这让LLM-ForcedAligner在训练过程中能够明确感知时间戳槽位,并预测要填充到这些槽位中的时间戳。此外,因果训练使LLM-ForcedAligner在预测当前槽位的时间戳时能够结合先前的上下文,确保时间戳预测的全局一致性。在训练过程中,我们仅在时间戳槽位位置计算交叉熵损失,从而将LLM-ForcedAligner的训练目标集中在时间戳槽位填充上。

此外,在训练过程中为每个词或字符持续插入开始和结束时间戳槽位,会导致LLM-ForcedAligner过度依赖之前预测的时间戳。我们提出了一种训练过程中的动态槽位插入策略,以增强LLM-ForcedAligner的泛化能力。具体而言,对于每个样本,我们以50%的概率决定是否应用动态槽位插入。当应用动态槽位插入时,样本中的每个词或字符有50%的概率在其后插入开始和结束时间戳槽位。该策略使LLM-ForcedAligner能够预测任意位置的词或字符的开始和结束时间戳。

非自回归推理

由于在训练过程中输出和标签序列保持不偏移,LLM-ForcedAligner能够使用非自回归解码同时预测转录文本中所有槽位的时间戳索引。具体来说,对于一个语音-转录文本对,用户可以在任意单词或字符之后自定义起始和结束时间戳槽位。给定用户定义的时间戳槽位位置,LLM-ForcedAligner通过非自回归解码预测其时间戳索引,然后将时间戳索引乘以80毫秒就转换为毫秒级时间戳。

实验

我们的实验基于56000小时的语音数据展开,涵盖10种语言:中文、英语、法语、德语、意大利语、日语、韩语、葡萄牙语、俄语和西班牙语。这些数据来源于内部和开源数据集的组合,覆盖了多种场景,如朗读语音、对话语音、播客和会议等。所有训练和测试数据集都标注了由MFA生成的伪时间戳,此外,我们还在一个带有手动标注时间戳的内部中文测试数据集上评估了LLM-ForcedAligner的性能。训练数据集中的转录文本要么来自人工标注,要么来自ASR模型的预测结果,这增强了LLM-ForcedAligner对不同质量转录文本的泛化能力。

LLM-ForcedAligner中的AuT编码器包含316.42M参数,其初始化源自Qwen3-Omni的AuT编码器,LLM使用的是Qwen3-0.6B,时间戳预测层是一个单一的线性层,具有3750个输出时间戳类别,包含3.84M参数

在训练过程中,AuT编码器、LLM和时间戳预测层联合优化。我们使用累积平均偏移(AAS)来衡量时间戳预测的性能。AAS值越低,表明时间戳预测性能越好。具体来说,AAS计算每个时间戳槽位的平均偏移,其定义为测试数据集中所有槽位的预测时间戳与真实时间戳之间的平均绝对差。

实验结果

表1和表2在多语言、跨语言和长语音场景下,基于MFA标注的测试数据集,将LLM-ForcedAligner与其他FA方法进行了比较。Monotonic-Aligner只支持中文,NFA和WhisperX需要根据不同的语言切换模型。我们观察到,LLM-ForcedAligner不仅支持多种语言且无需切换模型,而且与其他FA方法相比,在多语言原始语音上的AAS相对降低了66%~73%。此外,LLM-ForcedAligner在多语言和跨语言长语音上实现了极低的平均AAS,而在这种场景下,其他FA方法往往表现不佳。

表1 LLM-ForcedAligner和其他FA方法在MFA标注测试数据集上的毫秒级别AAS,每种语言的测试数据集均由该语言的开源测试数据集和内部测试数据集的原始语音组成
表2 LLM-ForcedAligner和其他FA方法在MFA标注测试数据集上的毫秒级别AAS,每种语言的测试数据集由该语言开源和内部测试数据集中的原始语音拼接而成,时长最长为300秒,“Mixed-Crosslingual”是由任意语言的开源和内部测试数据集中的语音拼接而成,时长最长为300秒

表3在人工标注的中文测试数据集上对LLM-ForcedAligner与其他FA方法进行了比较,涵盖了带噪声、跨语言和长语音场景。我们发现,在人工标注的测试数据集上,LLM-ForcedAligner的平均AAS相较于其他FA方法实现了68%~78%的相对降低,这表明使用MFA标注数据训练的LLM-ForcedAligner能够很好地泛化到真实世界的场景中。

表3 LLM-ForcedAligner与其他FA方法在人工标注测试数据集上的毫秒级别AAS,“Raw”指数据集中的原始语音;“Raw-Noisy”指添加了背景噪声的原始语音;“Mixed-60s”和“Mixed-300s”是将原始语音拼接成最大时长分别为60秒和300秒的语音;“Mixed-Crosslingual”是人工标注的原始语音与MFA标注的多语言语音的拼接

此外在表2中,MFA标注测试数据集上长语音的平均AAS略高于原始语音的平均AAS,这反映了MFA在长语音上的系统性偏移。相比之下在表3中,在人工标注的测试数据集上,长语音的平均AAS低于原始语音的平均AAS,这表明LLM-ForcedAligner并非简单复制MFA的时间戳预测,而是学习到了更稳健、更可靠的时间戳预测,能够在长语音场景中有效修正MFA的标签。此外,在长语音推理过程中,LLM-ForcedAligner可以利用更长的历史上下文来预测当前片段的时间戳,从而在人工标注的长语音测试数据集上取得了更优异的性能。

表4报告了在相同的推理条件下,LLM-ForcedAligner与其他FA方法的平均实时因子(RTF)。随着模型参数数量的增加,RTF略有上升。由于LLM-ForcedAligner采用非自回归推理的优势,它在AAS上实现了大幅降低,RTF仅略有增加。用户可以根据AAS与RTF的权衡来选择最合适的FA方法。

表4 LLM-ForcedAligner和其他FA方法在推理期间的平均RTF

表5展示了在MFA标注和人工标注的测试数据集上,使用不同时间戳token时长训练的LLM-ForcedAligner的平均AAS结果。当时间戳token时长为120毫秒时,时间戳预测层有2500个类别(300秒除以120毫秒);当时长为80毫秒时,有3750个类别(300秒除以80毫秒);当时长为40毫秒时,有7500个类别(300秒除以40毫秒)。随着时间戳token时长的缩短,MFA标注测试数据集上的AAS稳步下降,这表明更精细的时间戳预测更符合MFA标签。然而,在人工标注的测试数据集上,更精细的时间戳预测并没有带来更低的AAS,因为它更贴合MFA的时间戳分布,从而导致泛化能力下降。80毫秒的时间戳token时长是最佳选择因为AuT编码器输出的每个帧也代表80毫秒的语音,这有助于LLM-ForcedAligner根据语音边界更好地确定单词或字符的起始和结束时间戳。

表5 不同时间戳token时长的消融研究在MFA标记和人工标记测试数据集上的毫秒级别AAS,“Raw”指原始语音,“Mixed”指最长达300秒的单语和跨语言拼接语音

表6展示了LLM-ForcedAligner在MFA标注和人工标注的测试数据集上的平均AAS结果,并对比了训练期间有无动态槽位插入的情况。动态槽位插入会随机决定是否在每个单词或字符后插入时间戳槽位,使LLM-ForcedAligner能够在任意位置预测开始和结束时间戳并防止其过度依赖先前预测的时间戳。我们发现,动态槽位插入降低了两个测试数据集上的AAS,其中对长语音的改进更为明显。这一现象的原因是,动态槽位插入通过随机决定是否在每个单词或字符后插入时间戳槽位,避免了LLM-ForcedAligner过度依赖历史预测的时间戳,否则可能会导致系统性的时间偏移此外,动态槽位插入使LLM-ForcedAligner能够在任意位置为单词或字符预测开始和结束时间戳,支持用户自定义的时间戳预测。

表6 动态槽位插入的消融研究在MFA标注和人工标注测试数据集上的毫秒级别AAS,“Raw”指原始语音,“Mixed”指长达300秒的单语和跨语言拼接语音

图3展示了在 LLM-ForcedAligner 以不同动态槽位插入比例进行训练时,在人工标注的测试数据集上的AAS结果。当动态槽位插入比例低于训练样本的50%时,LLM-ForcedAligner的AAS较低,且随着比例的增加,AAS持续下降。然而,当该比例超过训练样本的50%时,AAS开始上升,在100%时达到最高值。因此,选择50%这一合适的动态槽位插入比例对于增强LLM-ForcedAligner的泛化能力至关重要。

图4展示了在不同参数设置下,LLM-ForcedAligner在MFA标注和人工标注的测试数据集上的AAS结果。当LLM-ForcedAligner的参数规模小于0.9B时,时间戳预测性能受到模型容量不足的限制。当参数规模超过0.9B时,MFA标注测试数据集上的AAS没有显著变化,而人工标注测试数据集上的AAS则有所上升,这表明LLM-ForcedAligner过拟合了MFA时间戳分布。因此,0.9B的参数规模是最优的。在这一规模下,LLM-ForcedAligner不会严格拟合MFA时间戳分布,而是学习到更平滑、更稳健的时间戳预测行为,具有更好的泛化性能。

图3 LLM-ForcedAligner在不同动态槽插入比例下,在人工标注测试数据集上的毫秒级别AAS
图4 不同参数设置下,LLM-ForcedAligner在MFA标注和人工标注测试数据集上的毫秒级别AAS

参考文献

  • [1] Michael McAuliffe, Michaela Socolof, Sarah Mihuc, Michael Wagner, and Morgan Sonderegger. 2017. Montreal Forced Aligner: Trainable Text-Speech Alignment Using Kaldi. In Proc. Interspeech, pages 498–502.
  • [2] Xian Shi, Yanni Chen, Shiliang Zhang, and Zhijie Yan. 2023. Achieving Timestamp Prediction While Recognizing with Non-Autoregressive End-to-End ASR Model. CoRR, arXiv:2301.12343.
  • [3] Max Bain, Jaesung Huh, Tengda Han, and Andrew Zisserman. 2023. WhisperX: Time-Accurate Speech Transcription of Long-Form Audio. In Proc. Interspeech
  • [4] Xian Shi et. al., Qwen3-ASR Technical Report, https://arxiv.org/abs/2601.21337

Qwen3-ASR 支持多语种识别大模型

Qwen3-ASR 是由Qwen开发的一系列功能强大的语音识别模型,包括两个强大且全面的语音识别模型 Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B,以及一个创新的语音强制对齐模型 Qwen3-ForcedAligner-0.6B。Qwen3-ASR 系列的语音识别模型支持 52 个语种与方言的语种识别与语音识别。

依托创新的预训练 AuT 语音编码器与 Qwen3-Omni 基座模型的强大多模态能力,Qwen3-ASR 实现了精准与稳定的语音识别,其 1.7B 模型在中文、英文、中文口音与歌唱识别等场景下达到 SOTA,具有复杂文本识别能力以及强噪声下的稳定性;0.6B 模型在性能与效率上实现了均衡,在保证语音识别准确率的情况下,128 并发异步服务推理能够达到 2000 倍吞吐,即 10 秒钟处理五个小时以上的音频。

强制对齐模型 Qwen3-ForcedAligner-0.6B 是基于 NAR LLM 推理的时间戳预测模型,支持 11 个语种的任意位置的灵活精准的强制对齐,其时间戳预测精度超越传统的 WhisperX,Nemo-Forced-Aligner 等模型,单并发推理 RTF 达到了高效的 0.0089。

Introduction

核心特性与贡献可概括如下:

  • 实现一体化 ASR 与 LID 的最先进性能。
    Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B 支持 30 种语言、22 种中文方言的自动语音识别,以及覆盖全球不同国家和地区的英语变体。这两款模型在复杂环境下同样具备鲁棒识别能力,包括但不限于歌唱语音与歌曲识别、噪声环境识别以及复杂文本模式(如混合语言、口语化表达等)的识别。
  • 提出新型语音强制对齐架构。
    首次引入了基于大语言模型的语音强制对齐器,可在灵活时间粒度下生成高精度时间戳,包括词级、句级和段落级。不同于现有工具(如 Montreal Forced Aligner, MFA 和 NeMo Forced Aligner, NFA),我们的 Qwen3-ForcedAligner-0.6B 提供统一的多语言解决方案,弥补了 Qwen3-ASR 系列中缺乏一体化强制对齐系统的不足,补全了综合口语语言处理体系中的关键功能模块。
  • 开源模型与完整的推理及微调框架。
    除发布三款模型权重外,我们还提供了一个完全开源、易于使用的代码框架,支持多种推理能力(如多粒度对齐、流式转写和多语言处理),并提供可复现的微调方案。我们希望这一统一工具链能够加速自动语音识别领域的研究与应用开发。

Qwen3-ASR

Architecture

Qwen3-ASR 系列模型以 Qwen3-Omni 作为基础模型,该模型已被验证具备强大的音频理解能力。待识别语音首先输入至 AuT 编码器AuT 编码器独立于 Qwen3-Omni 和 Qwen3-ASR 进行预训练。

如图 2(左)所示,AuT 是一种基于 Attention Encoder-Decoder (AED) 架构的 ASR 模型。其对 128 维 Fbank 特征进行 8 倍下采样,从而生成 12.5Hz token 率的音频表示。为兼顾流式与离线推理能力,我们采用 动态 Flash Attention 窗口机制,窗口大小在 1 秒至 8 秒之间自适应变化,使 Qwen3-ASR 既可处理短语音块进行流式推理,也可支持长语音的离线推理。

本次发布模型的整体架构如图 2(右)所示,具体如下:

  • Qwen3-ASR-1.7B
    由 Qwen3-1.7B 主干模型、一个 projector 模块以及一个参数规模为 3 亿(300M)、隐藏维度为 1024 的 AuT 编码器构成。该模型在多语言及方言语音识别任务上表现突出,同时在复杂声学环境和复杂文本模式下具有较强鲁棒性。
  • Qwen3-ASR-0.6B
    由 Qwen3-0.6B 主干模型、一个 projector 模块以及一个参数规模为 1.8 亿(180M)、隐藏维度为 896 的 AuT 编码器构成。该紧凑型模型在识别精度与推理效率之间取得良好平衡,在参数规模低于 10 亿的 ASR 模型中保持较强竞争力。

整体而言,该系列模型通过模块化音频编码器与大规模语言模型的融合,实现了高性能、多语言、可扩展的统一语音识别框架。

训练策略

Qwen3-ASR 的训练过程包括 AuT 预训练、Omni 预训练以及 ASR 后训练 三个阶段,其中前两个阶段与 Qwen3-Omni 完全一致。

(1)AuT 预训练

在该阶段,我们的目标是在 AED(Attention-based Encoder-Decoder)框架下,利用大规模标注数据训练一个预训练编码器。

我们使用了约 4000 万小时的伪标注 ASR 数据,其中大部分为中文和英文数据。实验表明,该预训练编码器在 动态注意力窗口大小 下能够提供通用且稳定的音频表示。


(2)Omni 预训练

我们以预训练好的 Qwen3-Omni 模型作为 ASR 训练的基础模型。

Omni 预训练在 多任务音频、视觉和文本数据 上进行。在该阶段,Qwen3-ASR-0.6B 和 Qwen3-ASR-1.7B 均使用 3 万亿 token 进行训练,从而获得多模态理解能力。

(3)ASR 监督微调(SFT)

在 SFT 阶段,我们对 ASR 的输入/输出格式进行风格迁移训练,所使用的数据规模显著小于预训练阶段,且与预训练语料不重叠

除标准的中文、英文和多语种 ASR 数据外,SFT 阶段还使用了:

  • 非语音数据
  • 流式增强数据
  • 上下文偏置数据

具体而言,我们将模型训练为一个 仅用于 ASR 的模型不遵循 prompt 中的自然语言指令,从而缓解指令注入(instruction injection)和指令跟随失败的问题

Qwen3-ASR 对给定音频的输出分为两种类型:

(4) ASR 强化学习(RL)

在最后阶段,我们采用 Group Sequence Policy Optimization(GSPO) 进一步提升识别质量。事实证明,强化学习在提升模型的抗噪声能力、转写稳定性以及处理复杂疑难语音的能力方面发挥了关键作用。

在强化学习阶段共使用约 5 万条语音数据,其中包括:

  • 35% 的中英文数据
  • 35% 的多语言数据
  • 30% 的功能性数据

该阶段的目标是在复杂环境下提升转写的稳定性。

特点

基于上述架构与训练策略,Qwen3-ASR 系列模型在以下方面表现突出:

Qwen3-ASR-1.7BQwen3-ASR-0.6B 支持 52 种语言和方言,包括 30 种语言和 22 种汉语方言。Qwen3-ForcedAligner-0.6B 支持 11 种语言。Seq. Len.表示单次推理的最大音频长度(以秒为单位),NAR 表示非自回归推理。

(1)高精度中英文识别
在各个训练阶段中,中英文数据占据了训练数据的主要比例。与众多竞争系统相比,该模型在多个基准测试中取得了领先的中英文识别性能。

(2)支持多语言与多方言
Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B 支持 30 种语言和 22 种方言,详见表 1。

(3)长音频与流式推理能力
Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B 原生支持最长不超过 20 分钟的单段语音输入,并支持流式与离线统一推理。

(4)歌声与歌曲识别能力
Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B 能够准确识别歌声与歌曲内容。除具备较强的歌声识别能力外,Qwen3-ASR 系列还支持在含有背景音乐(BGM)的情况下直接转写完整歌曲,体现出对伴奏和复杂音乐混合场景的鲁棒性。

推理效率

Qwen3-ASR 的速度基准测试在两种场景下进行:离线批量推理在线异步推理

  • 前者通过 vLLM 的离线批量生成方式进行评估;
  • 后者基于 vLLM Serve 的多并发请求设置进行评估,更贴近工业环境中的实际推理效率表现。

所有实验均基于 vLLM v0.14.0 运行,启用了 CUDA Graph,并采用 bfloat16 精度进行推理。表 2 的结果显示,在不同并发水平下,Qwen3-ASR-0.6B 的平均首 Token 延迟(Time-to-First-Token, TTFT)最低可达 92 毫秒

在并发数为 128 时:

  • 实时因子(Real-Time Factor, RTF)最低可达 0.064
  • 吞吐量最高可达 2000

这意味着该模型每秒可以处理 2000 秒的音频

Qwen3-ForcedAligner

Overview

Qwen3-ForcedAligner-0.6B 旨在在已知对应文本转写的情况下,估计语音中每个单词或字符的起始和结束时间戳。该模型将强制对齐(Forced Alignment)任务重构为一种槽位填充(slot-filling)形式。具体而言,在输入语音及其转写文本的基础上,在文本中插入特殊标记 [time],用于表示词级或字符级的起止时间槽位。随后,Qwen3-ForcedAligner-0.6B 直接预测每个槽位对应的离散时间戳索引

表 2: Qwen3-ASR 系列模型的效率。Qwen3-ASR-0.6B 和 Qwen3-ASR-1.7B 支持基于 vLLM 的离线批处理和在线异步推理模式,而 Qwen3-ForcedAligner-0.6B 仅支持 PyTorch 下的离线批处理推理。表中所有测量结果均基于时长约为 2 分钟(ASR)和 1 分钟(FA)的输入音频,所有推理均在单个典型计算资源上执行。Conc. 表示并发级别。TTFT p95 表示第 95 百分位 TTFT 延迟。

高精度时间戳预测
Qwen3-ForcedAligner-0.6B 在时间戳预测偏移方面显著降低误差。与其他强制对齐方法相比,在人工标注测试数据集上,其累计平均时间偏移实现了 67%~77% 的相对下降

广泛的应用场景
Qwen3-ForcedAligner-0.6B 支持 11 种语言 的语音输入,最长可达 300 秒,包括跨语言场景。同时,用户可以灵活地对任意单词或字符进行时间戳预测定制。

快速推理速度
Qwen3-ForcedAligner-0.6B 摒弃了传统的“下一个 Token 预测”范式,采用非自回归(NAR)推理方式进行时间戳预测,从而显著提升推理效率。

模型设计

如图 3 所示,Qwen3-ForcedAligner-0.6B 采用一个预训练的 AuT 编码器(AuT encoder) 来处理输入语音信号,并生成语音嵌入表示(speech embeddings)。转写文本会被重新格式化:为每个单词或字符添加起始和结束时间戳标签。随后,每个时间戳标签都会被替换为特殊标记 [time],并输入到分词器(tokenizer)中。此外,文本中的时间戳标签会通过将时间戳数值除以 AuT 编码器输出的 80ms 帧时长进行离散化,转换为对应的时间索引。

语音和文本的嵌入序列随后一起输入到 Qwen3-0.6B 大语言模型(LLM) 中处理,之后通过一个时间戳预测线性层,对整个输入序列的时间戳索引进行预测

在本工作中,时间戳预测的最大类别数为 3750,对应支持最长 300 秒的语音输入。

在训练阶段,会将随机掩蔽的时间戳槽位动态插入到 token 序列中,用以表示单词或字符的边界。随后,将组合后的序列输入到 Qwen3-0.6B 大语言模型(LLM) 中,并通过时间戳预测层为每个槽位预测对应的时间戳索引。在监督训练过程中,对同步对齐的标签序列与模型输出序列之间计算交叉熵损失(cross-entropy loss)

训练策略

训练 Qwen3-ForcedAligner-0.6B 需要大量带有词级或字符级时间戳标注的语音–文本对。然而,由于人工标注成本极高,本文采用 Montreal Forced Aligner(MFA)生成的伪时间戳标签。MFA 是当前最准确的强制对齐方法之一。

需要注意的是,MFA 生成的伪标签天然包含噪声和系统性偏移。Qwen3-ForcedAligner 并非简单复现 MFA 的输出,而是对这些伪标签进行蒸馏与平滑,从而获得更稳定、时间偏移更小的时间戳预测结果

传统的大语言模型(LALMs)通常采用一种训练方案:移除输出序列的最后一个 token 以及标签序列的第一个 token,在两者之间引入一个位置偏移,并基于此计算交叉熵损失,从而实现标准的“下一个 token 预测”范式。然而,该范式并不适用于时间戳槽位的填充任务。

Qwen3-ForcedAligner-0.6B 采用因果训练(causal training)方式,保持输出序列与标签序列不做位置偏移。这样,模型在训练过程中可以显式地识别时间戳槽位,并直接预测用于填充这些槽位的时间戳索引。

此外,因果训练使 Qwen3-ForcedAligner-0.6B 在预测当前时间戳槽位时能够利用之前的上下文信息,从而保证整体时间戳预测的全局一致性。交叉熵损失仅在时间戳槽位上计算,使训练目标专注于时间戳槽位填充这一核心任务。

此外,为了增强模型的泛化能力,Qwen3-ForcedAligner-0.6B 在训练过程中采用了动态槽位插入策略。具体而言,对于样本中的每个单词或字符,模型会随机决定是否在其后插入起始和结束时间戳槽位。

推理与可用性

由于训练过程中 token 序列保持未偏移(non-shifted),用户可以在任意单词或字符之后插入起始和结束时间戳槽位。Qwen3-ForcedAligner-0.6B 使用非自回归(NAR)解码,能够一次性同时预测文本中所有时间戳槽位对应的时间索引

当获得时间索引后,将每个索引乘以 80ms,即可恢复出实际预测的时间戳。

Qwen3-ForcedAligner 的速度基准测试基于 FlashAttention 和 bfloat16 进行。由于该模型是非自回归的,Transformers 与 vLLM 在推理速度上的差异相对较小,因此所有基准测试均使用 Transformers 进行。表 2 的结果表明,即使在高并发场景下,该模型仍能保持接近 0.001 的实时率(RTF),也就是说,它可以每秒处理 1,000 秒的音频。

Experiments

评估细节

基线系统

为验证 Qwen3-ASR 系列模型的性能,我们将其与当前最先进(SOTA)的闭源 ASR API 以及广泛使用的开源模型进行对比评估。具体而言,我们将 Qwen3-ASR 与三种领先的专有服务进行比较:

  • OpenAI 的 GPT-4o-Transcribe
  • Google DeepMind 的 Gemini 2.5 Pro
  • ByteDance 的 Doubao-ASR

此外,我们还纳入了多个多语言开源基线模型:

  • Whisper-large-v3
  • FunASR-MLT-Nano
  • GLM-ASR-Nano

这些基线系统涵盖了强大的商业系统以及具有竞争力的开源替代方案,从而能够在具有代表性的真实场景下对 Qwen3-ASR 进行全面评估。

采用四部分评估协议来衡量 Qwen3-ASR 系列模型的语音识别性能:

  • 公共基准测试(英语与中文)
  • 内部鲁棒性测试套件:全面的内部测试集,在具有挑战性的真实场景下对模型进行压力测试
  • 多语言评估
  • 歌声识别:重点关注长音频场景,即将整首歌曲作为单一输入

评估指标

  • 识别准确率:CER/WER
  • 语种识别准确率
  • 时间戳精度:使用 Accumulated Average Shift(AAS)作为评估指标。AAS 数值越低表示时间戳预测越准确。预测时间戳与参考时间戳之间的平均绝对差值:

English & Chinese ASR Performance

Opensource ASR Benchmarks

Qwen3-ASR 在英语、普通话和多种汉语方言基准测试中均表现出色。它不仅能与领先的商业 API 相媲美,而且性能远超广泛使用的开源基线模型。从 Qwen3-ASR-0.6B 扩展到 Qwen3-ASR-1.7B,性能提升显著且稳定,表明该模型能够有效受益于容量的增加。

在英语基准测试上,Qwen3-ASR 在多样化的真实场景数据(例如众包或网络采集语音)上表现尤为出色。这类数据相比朗读式语音(read-speech)通常存在更明显的分布偏移。在这些情况下,Qwen3-ASR-1.7B 在多个数据集上取得了整体最佳成绩,同时在诸如 LibriSpeech 等标准学术评测中也保持接近最优系统的表现。相比之下,一些商业 API 的性能在不同数据集之间波动较大,而 Qwen3-ASR 在广泛的英语场景下展现出更为稳定和一致的识别准确率。

在普通话基准上,Qwen3-ASR 展现出明显优势。它在表中大多数普通话评测数据集上取得了最佳整体表现,并在更具挑战性的大规模评测中依然保持稳定性能。尤其是在 WenetSpeech 数据集上(该数据集包含多样化声学环境和会议场景语音),Qwen3-ASR 相比现有基线模型取得了显著领先。

在中文方言基准上,Qwen3-ASR 在存在显著发音和词汇差异的情况下仍保持较强的识别精度。在粤语及其他方言数据集中,它始终位列表现最优的系统之一,并且在更具挑战性的长语句场景下表现尤为突出,体现出超越短句、干净测试条件的鲁棒性。尽管在少数特定方言场景中,一些专门优化的商业 API 略占优势,但总体而言,Qwen3-ASR 依然具有很强竞争力,能够在无需针对每种方言单独定制的情况下提供通用且高性能的解决方案。

总体而言,表 3 总结了 Qwen3-ASR 的三大优势:

  1. 在英语基准上具备强大的跨领域泛化能力,尤其是在超越精心筛选的朗读语音场景下表现突出;
  2. 在普通话多个公开数据集(包括大规模、噪声较多的会议语音)上达到当前最先进水平;
  3. 在中文方言处理方面表现稳健,尤其是在粤语以及长短语句混合的方言语音上具有显著优势。

这些结果表明,Qwen3-ASR 在多样化的公开基准测试中展现出强大且可复现的性能,同时在与顶级闭源商业 API 的对比中也保持了高度竞争力。

内部 ASR 基准测试

为进一步评估模型在真实部署环境下的鲁棒性,我们在内部鲁棒性测试套件上对 Qwen3-ASR 进行了评测,结果汇总于表 4。Qwen3-ASR 在所有子集上均表现出稳定而强劲的性能,并且从 0.6B 扩展至 1.7B 带来了持续且稳定的性能提升。

在带口音英语评测中,Qwen3-ASR 取得了所有对比系统中最低的词错误率(WER),优于商业 API 和开源基线模型,表明其对口音变化具有更强的泛化能力。在普通话评测中,Qwen3-ASR-1.7B 在所有测试子集上均取得最佳表现,展现出在复杂声学环境和多样说话条件下的鲁棒性。

在中文方言评测中,Qwen3-ASR 同样在粤语对话测试和 22 种方言汇总评测中取得最佳结果;尤其是在多方言混合场景下,性能提升更加显著,表明随着语言多样性的增加,模型的鲁棒性进一步增强。

总体而言,这些内部评测结果与公开基准测试的结论一致,进一步验证了 Qwen3-ASR 在高变异性场景下能够提供稳定且可靠的识别质量。

Multilingual ASR and Language Identification

 多语言自动语音识别性能

总体而言,Qwen3-ASR-1.7B 在大多数测试设置中取得了最佳的平均性能,展现出强大的跨语言和跨领域的泛化能力,而 Qwen3-ASR-0.6B 则提供了一个具有竞争力的轻量级替代方案。

在 MLS、Common Voice 和 MLC-SLM 基准测试中,Qwen3-ASR-1.7B 的性能始终优于所有评估的开源基线模型,包括广泛使用的 Whisper-large-v3,并且显著优于规模较小的多语言模型。对于涵盖更多语言和多样化录音条件的 Fleurs 数据集,Qwen3-ASR-1.7B 在 12 种和 20 种语言的子集上取得了最佳性能。然而,相对于 Whisper-large-v3,其在完整的 30 种语言设置下的性能有所下降,表明其在处理日益增长的语言多样性和长尾语言方面仍有改进空间。尽管如此,Qwen3-ASR-1.7B 仍然明显优于 0.6B 版本,这表明模型扩展能够提高其在更具挑战性的多语言环境下的鲁棒性。

Language Identification Performance

Qwen3-ASR 不仅能够将语音解码为文本,还可以在进行 ASR 解码之前,通过自然语言提示完成语言识别(LID)。在本节中,我们在 4 个多语言基准数据集上评估语言识别准确率:

  • FLEURS(30 种语言)
  • MLS(9 种语言)
  • Common Voice(13 种语言)
  • MLC-SLM(11 种语言)

各数据集所覆盖的语言种类详见第 2.3 节。

如表 6 所示,我们将 Qwen3-ASR-0.6B 和 Qwen3-ASR-1.7B 与 Whisper-large-v3 进行对比。Whisper-large-v3 是一个具备内置语言识别能力的强大多语言 ASR 模型。实验结果表明,两种 Qwen3-ASR 模型均优于 Whisper-large-v3,在这些主流语言上展现出稳定而有效的语言识别能力。

在 FLEURS 数据集上的剩余错误主要来源于对马来语(ms)和印尼语(id)的混淆。这两种语言在语言学上高度接近,且在声学特征上具有较高相似性,因此较易产生识别混淆。

Singing Voice & Songs Recognition Performance

 歌声识别和歌曲转录结果。表中列出了仅包含歌声的基准测试和包含背景音乐的长歌曲的词错误率 (WER) (%)。“N/A”表示由于性能不佳,该模型不支持长歌曲识别。

表 7 汇报了歌声转写以及带背景音乐的长时歌曲转写结果。总体来看,Qwen3-ASR-1.7B 在面对旋律引起的发音变化和音乐伴奏干扰时表现出较强的鲁棒性,在所评测的数据集上优于大多数商业 API 和开源基线模型。

在纯歌声(无伴奏)基准上,Qwen3-ASR-1.7B 在以下数据集上取得最佳表现:

  • M4Singer
  • MIR-1k
  • PopCS

在 OpenCpop 上,其表现略低于 FunASR-MLT-Nano,位列第二,但差距较小。这表明模型在不同演唱风格和录音条件下具有较强的泛化能力,并且对音高漂移、音素拉长以及节奏变化等歌声特有现象的敏感性较低。

在包含背景音乐的完整歌曲转写任务中,Qwen3-ASR-1.7B 显著优于开源基线模型;Whisper-large-v3 和 FunASR-MLT-Nano 在长时、音乐混合场景下性能明显下降。Qwen3-ASR-1.7B 在英语和中文歌曲上都取得了较高准确率:在中文数据集上排名第一,在英语数据集上也与表现最佳的商业系统保持竞争力。

这些结果表明,Qwen3-ASR 在真实含音乐场景下具有良好的适应能力,对背景音乐干扰具有较强鲁棒性,并在一定程度上缩小了传统语音识别与歌声/歌曲转写之间的性能差距。

Streaming Speech Recognition

本节在离线(offline)和流式(streaming)两种推理模式下评估 Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B 的性能。得益于动态注意力窗口机制,Qwen3-ASR 系列模型能够自然支持流式推理。

表 8 展示了在三个开源测试集上的评测结果,实验设置为:分块大小为 2 秒、5 个 token 回退(fallback),并保持最近 4 个分块处于未固定(unfixed)状态。

总体而言,Qwen3-ASR 提供了一个同时适用于离线与流式场景的统一模型架构,并且在流式推理模式下仍然保持了较强的识别准确率。

Precision of Timestamps

表 9 报告了 Qwen3-ForcedAligner-0.6B 与其他强制对齐(forced-alignment)方法在 MFA 标注和人工标注测试集上的 累积平均偏移(AAS, Accumulated Average Shift) 表现。

主要结论如下:

  1. 多语言覆盖与跨语言能力
    • 其他方法通常需要特定语言模型,支持语言数量有限。
    • Qwen3-ForcedAligner-0.6B 通过单一模型覆盖多种语言,并能处理跨语言和混合语言(code-switched)场景。
  2. 长短语音表现稳定
    • Qwen3-ForcedAligner-0.6B 对短句和长句均表现一致。
    • 基线方法在长句或长语音上,时间戳预测准确度显著下降。
  3. 训练来源与泛化能力
    • 虽然模型使用 MFA 伪标注训练,但在人工标注的测试集上依然保持较低的 AAS。
    • 表明模型具有 强大的实际场景泛化能力,能够稳健预测各类语音的时间戳。

简单总结:Qwen3-ForcedAligner-0.6B 在多语言、长语音及真实数据上的时间戳预测都优于传统方法。

结论

本文介绍了 Qwen3-ASR 模型家族,包括两款自动语音识别(ASR)系统和一款强制对齐(FA, Forced Alignment)模型,这些模型均在大规模语音语料上训练得到。

核心特点与贡献如下:

  1. 性能与训练策略
    • 利用基础模型 Qwen3-Omni 的强大音频理解能力,以及四阶段训练流程,
      Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B 在语音覆盖率和识别准确率上,均优于同等规模或更大规模的竞品模型及商业 API。
  2. 多语言与语音场景支持
    • 支持 30 种语言的语言识别(LID)和语音识别(ASR)。
    • 在复杂声学环境下表现稳健,对口音与方言具备鲁棒性。
    • 对唱歌语音及其他真实场景语音同样有效。
  3. 强制对齐模型
    • 引入 Qwen3-ForcedAligner-0.6B,基于 LLM 的非自回归(NAR)时间戳预测器,
      支持 11 种语言的强制对齐,端到端处理时间低于 5 分钟。
    • 在时间戳准确率、推理速度和语言覆盖方面,均优于三种主流端到端 ASR 基础的 FA 方案。
  4. 开源与易用性
    • 发布了三款模型权重,同时开源了统一、易用的推理框架。

总结:Qwen3-ASR 家族在真实场景评测和公开基准测试中均达到 最先进水平,而开源的强制对齐模型解决了语音技术栈中的关键空白。团队将持续提升该开源模型家族的准确性与功能性。

音频 Tokenizer的方法:Moshi 团队分享

原文链接:https://kyutai.org/codec-explainer

方案:将语言模型嵌入音频编码器/解码器对(=神经音频编解码器)中,使其能够预测音频的后续内容。

截至 2025 年 10 月,Speech LLM 的表现还很糟糕。许多 LLM 都提供了语音接口,但它们的工作流通常是:语音转文字,生成文本答案,再通过 text-to-speech (TTS) 读出来。这在很多场景下够用了(比如 Unmute),但这本质上只是一个 wrapper,并非真正的语音理解。模型无法感知你声音里的沮丧并共情地回应,无法在回答中强调重点,也听不出讽刺。

是的,现在确实有一些 LLM(如 Gemini、ChatGPT 的 Advanced Voice Mode、Qwen、Moshi)能够原生 (natively) 理解和生成语音。但在实践中,它们要么不够智能,要么其行为就像一个 text model wrapper。你可以试试用很高的音调问它们任何一个:“我说话的声音是低还是高?”,它们都答不上来。

显然,Speech LLM 的发展滞后于 Text LLM。但为什么呢?对于文本,我们几年前就发现,只要有海量文本数据、一个巨大的 Transformer 模型和大量的 GPU,就能得到效果惊人的文本续写模型。那为什么我们不能直接把 text 换成 audio,然后得到同样惊人的语音续写模型呢?

先卖个关子,如果你真的天真地这么做了,就会得到下面这种结果(警告,音量很大):

接下来,我们将探讨为什么 audio 比 text 更难建模,以及如何利用 neural audio codec 来降低建模难度。——这已是将 audio 输入和输出 LLM 的实际标准方法。通过 codec,我们可以将连续的音频信号转换成更大粒度的离散 token,然后训练模型来预测这些 token 的后续序列,最后再将这些 续写的token 解码还原成 audio:请看上面的动画。

Kyutai 的同仁们在这个领域做了大量工作,这也是我选择这个主题的部分原因。我们将从基础讲起,一直讲到我们的 neural audio codec——Mimi。它最初是为 Moshi 开发的,后来被其他模型所采用,包括 Sesame 的 CSM 模型

Text is easy

在文本分词方面,业界普遍采用一种称为字节对编码(Byte-Pair Encoding, BPE)的技术,并且极少对分词器进行更改。以 OpenAI 为例,自 GPT-4o 以来一直沿用同一套分词器——如果以大语言模型的发展节奏来衡量,GPT-4o 已可算作“相当久远”的模型。

A random text from Wikipedia tokenized via the GPT-4o tokenizer

即便完全不对文本进行分词、仅对单个字符进行逐字符预测,也能够取得相当不错的效果。早期让我对机器学习产生浓厚兴趣的一篇文章,是 Andrej Karpathy 于 2015 年发表的关于循环神经网络(RNN)有效性的博客。在那篇文章中,Karpathy 使用单块 GPU 训练了一个三层 LSTM 模型,使其能够生成结构上较为合理的代码与 LaTeX 文本。

要知道,这可是十年前的事了,那时候我们甚至还不知道 “attention is all we need”。现在,我们再来对比一下 Karpathy 的结果和 WaveNet 的样本,后者是 DeepMind 在一年后发布的模型:

从纯声学角度来看,这段音频的听感质量较高,但却几乎无法生成哪怕一个正确的英文单词。当然,我们也不应对 WaveNet 过于苛责。Karpathy 的 RNN 所生成的文本样本长度不过数千个字符,而这段 10 秒的音频却包含约 16 万个音频采样点;并且,WaveNet 是以逐采样点预测(sample-by-sample generation)的方式,极其细致地生成整段音频的。

一秒钟的音频通常包含数以万计的采样点,然而其语义内容往往只对应少量几个词语。(动画引自 WaveNet 博客文章。)

在如此长的时间尺度上维持生成内容的连贯性是极具挑战性的;同时,由于需要执行数量庞大的逐步预测,模型的运行开销也十分高昂。

因此,与其让模型直接逐采样点地进行预测,不如先训练一个模型,将音频压缩到更易处理的表示空间。具体而言,可以先对音频进行压缩,在压缩后的表示上利用大语言模型预测其后续内容,再将预测结果解压还原为音频信号。

Sample by sample

不过,在此之前,我们先构建一个基线模型,像 WaveNet 那样逐采样点生成音频。这些实验的代码均已开源,可在相应仓库中获取。我基于 Andrej Karpathy 的 nanoGPT 仓库进行了复现与扩展;该仓库是 GPT-2 的一个简洁实现版本。

从语言模型的视角来看,文本与音频在形式上并无本质区别:本质都是“输入 token,输出 token”。因此,我们需要做的仅是将连续的音频采样值量化为离散的取值区间。与 WaveNet 类似,我们采用 μ-law(μ律)算法,将连续振幅映射到 256 个离散桶(buckets),并将其视作 256 个可能的离散 token。

在此基础上,我们使用这种逐采样点量化后的音频 token 来训练一个语言模型。数据集方面,沿用 AudioLM(Neil Zeghidour 与 Eugene Kharitonov)的设置,采用 Libri-Light 数据集。该数据集的训练集总时长约为 5 万小时,但在本实验中我们仅使用其中 1000 小时的数据。采用逐采样点的离散化方式后,最终得到的训练数据规模约为 53GB。

模型方面,我们训练了一个规模相对较小的 Transformer,总参数量为 151.28M,与最小规格的 GPT-2 模型大致相当。当从该模型进行采样生成时,其输出表现为类似咿呀学语般的声音(提示:音量有时较大)。

模型往往会进入一种“噼啪杂音模式”(crackling mode),并且一旦陷入其中,似乎难以自行恢复:

我还训练了一个较小的模型,就是之前开头提到的那个。它容易生成令人不适的尖锐噪声(音量较大!)。

正如你所看到的,我们还远未达到通用人工智能(AGI)的水平。模型生成的音频听起来像是语音,但你几乎听不出任何单词,而且声音也在不断变化。这也不足为奇:模型的上下文长度为 2048,对于 16 kHz 的音频而言,仅相当于 128 毫秒,连一个单词的长度都不到。此外,这些 10 秒的音频样本在 H100 上生成耗时约 30 分钟——距离实时生成还有几个数量级的差距。

因此,我们需要构建一个神经音频编解码器(neural audio codec)来压缩音频。思路是:如果将采样率降低 100 倍,模型生成的内容也有望变得“100 倍更连贯”。在机器学习中,一个经典方法是使用自编码器(autoencoder):该模型接收输入,将其压缩到较小的“潜在空间(latent space)”,然后尝试重构原始输入。

在我们的场景下,需要一个潜在表示可量化(quantized)的自编码器,这样才能将潜在向量输入到语言模型中,并生成后续内容。当然,也可以使用未量化的潜在向量生成后续音频,但操作会更复杂——具体可参见“进一步阅读”部分。

Autoencoders with vector quantization (VQ-VAE)

请耐心一点,因为我们将从音频领域绕个弯:让我们基于 Fashion MNIST 的图像来构建一个量化的自编码器(quantized autoencoder)。我们会使用一个包含前三个类别的数据子集:T恤裤子套头衫

首先,我们先训练一个普通自编码器,将图像编码到二维潜在空间(2D latent space)中:

Training a regular autoencoder on Fashion MNIST

每一帧显示的是一个训练批次(有些批次被略过)。小图像表示自编码器对该批次图像的重构结果。我为三类图像添加了颜色标记(T 恤/上衣 = 蓝色、裤子 = 绿色、套头衫 = 黄色),但自编码器并没有接收类别信息作为输入——潜在空间自然会根据类别形成聚类。接下来,我们放大观察几张重构结果:

Original images (top) and their reconstructed versions (bottom)

如你所见,重构效果并不理想。图像比较模糊,而且前两张重构几乎完全相同。但我们使用的网络非常小——编码器和解码器各只有四层全连接网络,并且只将数据投影到二维空间,因此不能对模型期望过高。

接下来,我们将对这些潜在向量进行量化(quantization),方法是通过聚类实现。大致步骤如下:

  1. 类似 k-means:维护一个簇中心(cluster center)的位置列表。
  2. 簇中心初始化为随机位置。
  3. 对每个训练批次:
    • 查看每个潜在向量属于哪个簇(assignment),注意我们 不修改潜在向量,仅进行分配。
    • 将每个簇中心向其所属潜在向量的平均位置轻微移动(nudge)。
  4. 如果某个簇中心长时间未被分配到任何潜在向量,则将其重新“传送”到当前批次的某个随机潜在向量上,以避免簇中心陷入局部停滞。
Quantizing by fitting a clustering on top of the autoencoder

你可以看到,随着训练的进行,簇中心的重构效果逐渐被优化和细化。

接下来,我们希望让编码器(encoder)和解码器(decoder)在训练过程中更好地处理量化后的潜在向量(quantized embeddings)。目前,我们只是将聚类操作叠加在一个对量化“未知”的自编码器之上——也就是说,模型在训练时并没有意识到潜在向量会被量化。我们希望自编码器在训练过程中适应量化操作,从而生成更易重构的量化表示。目前的做法是:

x = get_batch()
z = encoder(x)
x_reconstructed = decoder(z)
loss = reconstruction_loss(x, x_reconstructed)

与其将未量化的潜在向量直接输入解码器,我们先将其映射到最近的簇中心

x = get_batch()
z = encoder(x)

z_quantized = to_nearest_cluster(z)     # 👈
x_reconstructed = decoder(z_quantized)  # 👈

loss = reconstruction_loss(x, x_reconstructed)

这里有一个问题:如果直接这样做,自编码器就无法继续训练了。原因是量化操作不可微,也就是说,损失函数的梯度无法传回编码器的权重。本质上,模型无法回答这个问题:“如果我想让损失减少一点,应该沿哪个方向调整编码器的权重?”

解决方法很巧妙:假装这个问题不存在。具体来说,我们将量化后的潜在向量 zquantized 看作是原向量 z 加上一个任意向量,但不影响梯度。这样, zquantized 的梯度就等同于 z 的梯度。这就是所谓的 straight-through gradient estimator(直通梯度估计器) 的原理。

x = get_batch()
z = encoder(x)

residual = z - to_nearest_cluster(z)
# .detach() means "forget that this needs a gradient"
z_quantized = z - residual.detach()
x_reconstructed = decoder(z_quantized)

loss = reconstruction_loss(x, x_reconstructed)

在前向传播(forward pass)中, zquantized ​ 的取值与之前相同,但关键是:z 的梯度现在被设置为等同于 zquantized ​ ​ 的梯度,而不是因为不可微的 to_nearest_cluster(z) 操作而为 0。

这种“假装”做法是有代价的:在训练时,编码器的权重会根据重构损失进行更新,但更新的方向是假设量化不存在的方向,因此不一定是最优的梯度方向。但只要潜在向量大致保持在各自簇中心附近,这个梯度方向仍然是“基本正确”的。

为了让编码器生成更容易量化的潜在向量,我们可以引入承诺损失(commitment loss)对每个潜在向量根据其距离簇中心的远近施加惩罚。这一损失的梯度会将潜在向量推向对应的簇中心,从而提高量化友好性。

通过在训练时进行量化并加入承诺损失,模型不再只是单纯在嵌入上做聚类,而是自编码器本身被训练成对量化友好,从而在后续生成和压缩中表现更好。

An autoencoder trained explicitly to be easy to quantize

你会注意到,训练动态发生了变化:加入承诺损失(commitment loss)为潜在向量增加了一定的“约束力(stiffness)”,使它们不再像之前那样自由移动。

下面是使用量化潜在向量进行重构的效果:

注意前两张图被重构成了完全相同的图像。这只是因为它们的潜在向量被分配到同一个簇,因此量化后取到了相同的值。

这里描述的模型被称为 VQ-VAE(向量量化变分自编码器)。其中的“变分(variational)”一词在这里已经没有实际意义,只是历史遗留的命名。

Residual vector quantization

为了提高重构的保真度,我们可以简单地增加簇中心的数量。但如果簇中心过多,计算和内存开销会变得非常昂贵。因此,我们采用一个巧妙的做法:如果希望潜在向量有 2^20(约 100 万)种可能值,我们不会直接创建 2^20 个簇。相反,我们使用两个独立的量化器(quantizer),每个量化器有 2^10=1024 个簇,然后将它们的结果组合起来。这样,每个潜在向量就量化为两个整数的元组(每个在 0–1023 之间),总共有 2^20 种可能组合。

那么具体怎么做呢?回想一下我们在直通梯度估计器(straight-through estimator)中使用的残差变量:residual=z−to_nearest_cluster(z)

它表示在量化到最近簇中心时,原向量 z 中未被捕捉到的部分。

对于批次中的每个潜在向量,我们都有对应的残差向量。解决方案很自然:用与原始潜在向量相同的方法对残差向量进行量化,通过训练另一个向量量化器实现。

这一次,由于我们需要组合两个量化器,单个量化器的二维簇位置并不再对应图像,因此我们将其可视化为点的分布即可:

这是二级量化(two-level quantization)的思路:在第一级量化器量化后的残差(residuals,也就是第一级量化器的误差)上,再训练一个量化器进行进一步量化,从而更精细地表示潜在向量。

这样,每张图像就可以用潜在向量所在簇的索引残差簇的索引来表示。接下来,我们用这个二级量化器尝试重构几张图像:

原始图像(顶部)、一级量化重构(中部)、二级量化重构(底部)。这些图像在二级量化下分别被编码为索引对:(4, 3)、(4, 5)、(16, 21) 和 (30, 3)。

前两张图像的重构仍然相似,但不再完全相同:第一张图被编码为 (4, 3),第二张图为 (4, 5)。换句话说,它们在第一级量化器上使用相同的 token,但在残差的量化上有所不同。由于差异较为微小,下面是一级量化与二级量化重构效果的对比

我想强调的是,第二级量化作用在潜在向量(embedding)上,而不是直接修改输出像素。这一点可以从最左和最右的图像看出,它们分别编码为 (4, 3) 和 (30, 3)。也就是说,它们使用了相同的残差编码 3,但对两张重构图像的影响却不同。

显然,重构效果仍然不够精确。潜在向量未量化时的重构质量才是上限,因此如果自编码器本身性能不好(我们的就是如此),改进量化方法也无法带来显著提升。

到这里我们先暂停,但这个思路的自然延伸是超过两级量化:对二级重构的残差继续量化,依次我们在这里就先停下。不过,这个思路的一个自然扩展是引入多于两级的量化。只需要对 two-level reconstruction 的 residual 再次进行量化,如此反复即可。这个广义的 Residual Vector Quantization 算法形式如下:

def rvq_quantize(z):
    residual = z
    codes = []

    for level in range(levels):
        quantized, cluster_i = to_nearest_cluster(level, residual)
        residual -= quantized
        codes.append(cluster_i)

    return codes

残差向量量化(Residual Vector Quantization, RVQ)最早在 SoundStream 中应用于神经音频编解码器,但这一思想其实早在 1980 年代就已出现。

Now let’s tokenize audio

将 RVQ 应用于音频是相当直接的。作为我们的自编码器(autoencoder),我们将使用一个类似于 Jukebox 所使用的卷积神经网络(CNN)。这里的架构细节并不太重要。重要的是,这是一个能接收 t 个采样点的音频,并将其转换为形状为 (t/128, 32) 的向量的网络。换句话说,它以 128 倍的系数进行降采样(downsamples),并为我们提供 32 维的浮点数表示。然后,解码器(decoder)接收这个 (t/128, 32) 的嵌入(embeddings),并将它们解码回 t 个采样点。

audio = get_batch()               # shape: [B, T]
z = encoder(audio)                # shape: [B, T/128, 32]
audio_reconstructed = decoder(z)  # shape: [B, T]

和之前一样,我们将在编码器之后添加一个 RVQ。与处理图像的唯一区别是,对于每个音频样本,我们有 t/128 个嵌入向量,而不仅仅是像图像那样只有一个。我们只需独立地对这些向量进行量化(即使编码器“看到”的音频范围比单个向量所对应的范围要广)。在训练期间,我们还有一个批次维度(batch dimension),所以我们的模型现在看起来是这样的:

audio = get_batch()                         # [B, T]
z = encoder(audio)                          # [B, T/128, 32]

# Combine the batch and time dimensions
z = rearrange(                              # [B*T/128, 32]
    z, "b t_emb d -> (b t_emb) d"
)

codes = rvq_quantize(z)           # integers, [B*T/128, levels]
z_quantized = codes_to_embeddings(codes)    # [B*T/128, 32]
z_quantized = rearrange(                    # [B, T/128, 32]
    z_quantized, "(b t_emb) d -> b t_emb d"
)

audio_reconstructed = decoder(z_quantized)  # [B, T]

在我们训练第一个神经音频编解码器(neural audio codec)之前,最后缺少的一块是损失函数(loss function)。关于选择哪一个损失函数,我们可以深入探讨一整套复杂理论,但我们将避开它,只使用一个非常简单的。我们会计算原始音频和重建音频的对数振幅谱图(log amplitude spectrogram),然后取它们的差值。这个差值的均方值就是损失。

为了让模型更难对这个损失函数过拟合,我们使用三种不同的短时傅里叶变换(short-time Fourier transform)参数来计算谱图,并将我们的损失设为这三个子损失的平均值。这被称为多尺度频谱损失(multi-scale spectral loss)

最后,让我们来训练一些编解码器(codecs)吧!我们将观察改变 RVQ 的层级(levels)数量如何影响重建质量。正如我们所预期的,增加层级数量有助于降低频谱损失(spectral loss):

让我们听听这些编解码器听起来怎么样。我们将使用这三个编解码器来重建来自 Expresso 数据集的这段音频:

原始音频

重建结果:

4 RVQ levels 
8 RVQ levels
12RVQ levels

显然,随着增加更多的残差向量量化(RVQ)级数,音频质量逐渐提升。

即便使用 16 级量化,仍然会出现一些噼啪杂音,音频听起来有些闷,并伴随持续的高频噪声。后续我们会讨论进一步改进编解码器的方法,但出于演示目的,目前的效果已经足够。

为什么要关心音频

所以现在我们有了一个 神经音频编解码器:我们可以把音频转换成适合 LLM 的 token,然后再还原回音频。这里的 “Codec” 本质上就是音频的 分词器(tokenizer),但我们用 “codec” 这个词,是因为它在经典压缩格式(比如 MP3)里已经被使用。我会把 codec 和 tokenizer 交替使用。

回到我们最初想做的事情:建模音频。具体来说,我们要做一个模型,它可以接受一段音频前缀,然后生成一个合理的续段。

提醒一下,我们的目标是训练优秀的音频 LLM,使模型能够 原生理解并生成语音,理解情绪、重音等特征。它们还可以进一步微调成 文本转语音、语音转文本、翻译模型 等。

既然你已经相信音频 LLM 是通向 AGI 的路径,那我们就开始训练几个模型吧。

在数据集方面,我们将使用 Libri-Light,就像之前训练逐样本模型时用的那样。这一次我们会使用 10000 小时音频,而不是之前的 1000 小时。这个数据集是 公共领域有声书,所以如果我们训练出了一个不错的模型,也许能生成更多故事(不过不要抱太大希望)。我们唯一需要做的,就是把音频数据集转换成 离散 token 序列,以便输入到 LLM 中。

处理多个层级(levels)

我们将使用我们的 8 层 RVQ codec 来实现这一点。对于一个有 t 个采样点的音频,我们将得到一个形状为 (t/128, 8) 的 token 数组。但现在有一个问题:如何处理在每个时间步(time step)不是一个而是 8 个 token 的情况?在文本 LLM 中我们无需处理这个问题,因为我们只有一个 token 序列。

我们将采取最简单的方法,直接将该数组展平(flatten)成一个形状为 (t/128 * 8) 的一维数组,并让我们的 LLM 在不同的时间步中预测这八个层级。

lattening a three-level RVQ to allow it to be fed into a language mode

这样做的一大缺点是我们损失了一部分时间压缩(temporal compression)能力。我们将音频降采样了 128 倍,但现在通过展平层级,又将其“膨胀”了 8 倍。这使得推理(inference)效率降低,并且可能导致质量下降,因为有效上下文大小(context size)减小了。我们将使用 8 层的 RVQ codec 而不是 16 层的,以避免让压缩情况变得更糟。

你也可以一次性预测单个时间步的所有 RVQ 层级(“并行模式”,parallel pattern),但这也会让模型更难处理,因为它必须一次性决定所有层级。人们还尝试了许多其他方案来平衡压缩与质量。以下是 MusicGen 中尝试过的几种方案:

有趣的是,截至 2025 年,还没有一个“胜出”的统一解决方案:每篇论文的做法都不同,而且这些方案可能变得相当复杂。看看这个来自 MiMo-Audio 的图表就知道了,这是一个在 2025 年 9 月发布的模型:

处理 多个 RVQ 级别 的方法可能会相当复杂。

Finally, let’s train

终于到了训练一个封装了 codec 的语言模型的时候了!正如我所提到的,我们的代码基于 Andrej Karpathy 用于训练文本 LLM 的 nanoGPT 代码库。我们只需要修改它以接受音频作为输入。但这很简单,因为 LLM 并不关心你输入的是哪种 token——对它来说都只是数字而已。一旦我们将数据集标记化(tokenized)并将其展平(flattened)为一维序列,我们就可以开始了。以这种方式标记化后,我们 10000 小时的音频占用了 134 GB 的空间。相比之下,将这么多数据存储为未压缩的音频将需要超过 1 TB。

我们将使用与逐样本(sample-by-sample)模型完全相同的模型架构和超参数(hyperparameters):唯一的区别在于标记化(tokenization)方式。我们的数据集也大了 10 倍,但逐样本模型甚至连 1000 小时的数据集都无法容纳,所以更多的数据也救不了它。

我用 8 个 H100 显卡训练了这个模型大约 5 天。为了得到一些样本,我决定用 Michael Field 的诗《七月》中的两行 Libri-Light 朗读样本来提示(prompt)模型。(在做这个项目时我了解到,Michael Field 是 Katherine Harris 和 Edith Emma Cooper 的笔名。)让我们看看能从我们的模型中得到什么样的诗歌:

可以看到一些“生命的迹象”,但我们还没有一个真正的“诗人”。听起来就像有人在 帘幕后面说话:你无法完全听清它在说什么,但 语调是存在的——听起来像有人在朗读书本,而这正是模型训练时的内容。

它还能保持 连贯的声音,直到最后几秒才切换到另一个声音。这也与训练数据一致:我们从所有有声书中 剪切片段并混合在一起 来采样训练数据,所以模型确实会遇到 不同说话人之间的界限

一个 codec 能带我们走多远?

我们的 codec 是有意设计得非常简单的,这也解释了为什么结果不尽如人意——但在过去四年里,关于神经音频编解码器的研究已经相当丰富,我们可以加以利用。我们不会在这里实现所有的改进,而是看看当我们使用 Mimi 作为分词器(tokenizer)时会发生什么。

Mimi 是 Kyutai 为我们的音频语言模型 Moshi 构建的一款现代神经音频编解码器。此后,它也被用作其他模型的分词器,如 Sesame CSM、VoXtream 和 LFM2-Audio。

不出所料,Mimi 听起来比我们之前训练的自制 codec 好得多。

Mimi 没有使用多尺度频谱损失(multi-scale spectral loss),而是使用了像 GAN 一样的对抗性损失(adversarial loss)。有一个判别器网络(discriminator network)试图将音频分类为原始的或由 codec 重建的,而 codec 的目标就是骗过这个判别器。

Mimi 增加的另一个改进是使用 RVQ dropout:它使用 32 个 RVQ 层级,但在训练期间,重建有时会随机截断到较少的层级数。这使得我们可以在推理时以较少的 RVQ 层级运行 Mimi,并且仍然获得不错的结果,因为它不依赖于所有层级的存在。而对于我们的自制 codec,我们必须分开训练。

让我们听听用 Mimi 重建的示例音频:

Original:

重建:

4 RVQ levels
16 RVQ levels
32 RVQ levels

就我们的目的而言,层级较少的变体可能更容易建模,因为它压缩程度更高。让我们用 8 层和 32 层的 Mimi 来训练模型,并比较结果。

我训练了和之前完全相同的模型架构,唯一改变的是分词器。数据集仍然是来自 Libri-Light 的 10000 小时音频,就像我们使用简单 codec 时一样。Mimi 的采样率是 24 kHz,但 Libri-Light 使用的是 16 kHz,这限制了声音的最高品质,因为我们丢失了音频的更高频率部分。

Mimi 对音频的降采样(downsample)也更激进:它的帧率是每秒 12.5 帧,而我们的 codec 是每秒 125 帧——高了 10 倍!这意味着数据集在磁盘上的体积也更小。用我们的 codec,它占了 134 GB,但用 Mimi,“仅仅”是 54 GB。

这是一首用在 Mimi 标记化数据上训练的模型生成的诗。我和之前一样,用诗中的两行来提示它:

这是我尽力尝试的转录:

When the grass is gone
And corn still grassy;

Illness worried in the fur
this and pelan in stones
during the turan’s ciscerey
headforths nepet Paul Twain.
He sees zin in them.

对我来说有点太超现实主义了,但也许刘易斯·卡罗尔会喜欢。

语义 token (Semantic tokens)

我得坦白一件事:我刚才对你撒谎了。但只是一点点,而且是为了教学目的。实际上,上面的模型是在一个 31 层的 Mimi 音频上训练的,我省略了第一层,也就是包含 “semantic token” 的那一层。

这个 token 的作用是表示音频的语义信息,而不一定有助于重建。我不会深入探讨它们的工作原理,但简单来说,Mimi 的 semantic tokens 是从 WavLM 中提炼出来的,你可以把它看作是语音领域的 BERT。

为了感受 semantic tokens 编码了什么信息,让我们以这个示例音频为例,将其通过 Mimi 处理:

现在,让我们训练一个基于完整 Mimi(包括 semantic tokens)的语言模型。我们将以一种特殊的方式运行模型:保留原始音频的 semantic tokens,但丢弃其他所有 token,然后让模型来预测它们。这意味着来自 semantic tokens 的信息是固定的(“teacher-forced”),但模型可以根据它认为合理的延续自由决定其他 token。

通过固定 semantic tokens 并让模型重新生成其余部分,我们可以了解 semantic tokens 中包含了哪些信息。

听听我们用这种方式得到的两个不同的重建版本:

声音完全不同,但说的内容是一样的!这意味着 semantic tokens 编码了说话者在说什么,但与嗓音无关。这很有用,因为它帮助模型专注于 说什么,而不是 怎么说。在这方面,它们更接近于文本 token,因为文本 token 也不包含关于嗓音、语调、时间或情感的信息。

让诗歌更具语义

现在,让我们用在包含语义的 Mimi 上训练的模型来完成这首诗:

When grass is gone
and corn still grassy;

from the man was nothing moan.
The low death and heart
She came fyde wood.
A finteriest, a fall,
all them
.

它仍然会编造词汇,句子也不太连贯,但很明显,真实单词的比例高了很多;模型变得“更具语义”了。声音质量和之前一样,这也符合我们的预期。

让我们听第二首诗:

When grass is gone
and corn still grassy;

hope won and she
who is just a night in Tatan
in doe ock-ohm?
the whom?

确实,the whom?

语义与声学的权衡 (Semantic–acoustic tradeoff)

我们可以 牺牲一些声学质量 来提升语义效果,通过 减少 RVQ 级别的数量。我们选择 8 级。这样一来,我们获得了 更高的音频压缩率,同时损失中 语义 token 占比也相应提高,因为现在是 1/8 的 token,而不是之前的 1/32。

我对这个模型的第一印象之一是,它学会了 记忆 Librivox 的版权声明,所以有时它会生成类似这样的内容:

Chapter 6 of The Founday, by R. Auclair.
This is a Librivox recording. All Librivox recordings are in the public domain. For information, or to volunteer, please visit librivox.org.
Reading by: Kelvert

重复训练数据通常不是你想要的,但在我们的案例中,这是一个极好的生命迹象,因为之前的模型甚至连这个都做不到。它还编造了书名、作者和朗读者,所以这里仍然有创新性。

现在,让我们尝试创作更多的诗:

When grass is gone
and corn still grassy;

When so we could say
that in fairy interesting wife
who lay there and gone
that save the rosy light of life
Jay Dien, the antique mollity
and a mollity the beast of gray failed summon

end of poem.

This recording is in the public domain.

[different voice]
So we have formed a float that sent in would rattle down. The piece of opportunity reading and assimila—

这太棒了。有几个迹象表明这个模型比之前的更好。我喜欢它编造了“mollity”这个词,然后在下一行重复它。而且,它意识到自己正在背诵一首诗,并在该部分结尾加上了 “end of poem”。然后它认为这是章节/部分的结尾,并以“This recording is in the public domain.”的声明结束。之后,它换了个声音继续说话。这是合理的,因为在训练过程中,来自不同有声读物的片段只是被随机打乱并连接在一起,所以在这里模型模拟了一个片段边界。

如果我们给 semantic tokens 的损失赋予比声学 tokens 更高的权重,可能会得到更好的结果,让模型更关注意义而非声音——事实上,Moshi 使用了高达 100 倍的 semantic loss !但我们总得有个终点。

Conclusion

我们成功地使用神经音频编解码器制作了一个能生成某种程度上连贯语音的音频语言模型。显然,这还不是 2025 年的顶尖水平(我们在这里也并非追求于此),但请记住,使用完全相同的模型,若不采用神经音频编解码器,我们得到的是类似于开头的音频。

当然,要赶上文本模型还有很长的路要走!目前,语音理解和推理能力之间似乎存在一种权衡。在文章开头我提到,那些原生支持语音的模型(Gemini、ChatGPT 的高级语音模式、Qwen、Moshi)都无法判断你是在用高音还是低音说话,尽管它们被训练来原生理解音频。这可能是因为它们在大量使用文本到语音技术合成的数据上进行训练,或因为理解声音的音调(显然)并不能帮助模型做出更准确的预测。

Kyutai 曾尝试用 Moshi(demo,论文)创建一个基于音频语言模型的语音聊天应用,并于 2024 年 7 月发布。Moshi 可能不是你会选择帮你做作业的 AI,但请对它宽容一些:它是第一个端到端的语音 AI,甚至比 OpenAI 的高级语音模式发布得还要早。

Moshi 为自己和用户并行地模拟了一个“内心独白”的文本流和音频流。文本流帮助它规划要说什么,而消融研究(ablations)表明,文本流对模型的帮助巨大。同时,这也有点可悲:大部分的推理似乎都被委托给了文本流,而音频流只是用来提供集成的语音到文本和文本到语音功能。

Moshi models two audio streams and a text stream in parallel

这不仅仅是 Moshi 的问题:正如“我是在用高音说话吗”的实验所示,这种对文本而非音频的过度依赖是所有音频 LLM 的一个问题。尽管主流的建模方法与 Moshi 有所不同:它们是交错处理文本和音频 token,而不是在并行流中建模。

在 Moshi 发布一年多后,音频模型仍然落后于文本 LLM。但为什么呢?对我来说,这个神秘且未解的“模态鸿沟”(modality gap)使得音频机器学习成为一个令人兴奋的研究领域。

GLCLAP:用于ASR热词检索的对比学习预训练模型

小米团队提出了一个叫GLCLAP的预训练模型,专门解决ASR(自动语音识别)里的“上下文偏向”问题——简单说就是让ASR更准地识别那些领域特定词汇(比如人名、地名),还不用微调原ASR模型。

传统的上下文偏置 ASR 解决方案中,主要存在两种范式。第一种依赖发音词典,例如基于加权有限状态转换器(WFST)的相关方法。这类系统利用预先定义的发音信息来提升特定术语的识别准确率。第二种范式是将偏置机制直接融入 ASR 模型结构中,通过与 ASR 模型进行联合训练来实现 ,典型代表包括 SeAco-Paraformer。

然而,这两类系统都不利于在支持 prompt 的 ASR 场景中处理偏置词。对于基于 WFST 的系统而言,获取少数语言或方言的发音词典往往十分困难;而端到端的上下文偏置方法通常需要修改 ASR 模型结构并进行联合训练,这在 prompt 支持的大模型范式下缺乏灵活性,难以快速更新和迭代。同时,大模型训练本身需要大量时间和计算资源,成本较高。

大语言模型(LLMs)中引入的提示机制与检索增强生成(Retrieval-Augmented Generation,RAG)为此提供了重要启示。RAG 通过优化提示来获得期望输出,而无需修改 LLM 的网络结构或进行微调。受这一范式的启发,偏置提示的生成可以作为一个独立模块,与识别过程进行解耦。这样,模型既不需要依赖发音词典,也不必在训练阶段依赖 ASR 模型本身。该方法与当前的大模型框架高度契合,能够利用 RAG 思路实现大规模的上下文偏置增强。

之前常用的多模态预训练模型CLAP(对比语言-音频预训练),只能做“句子级”的音频-文本匹配——但偏向词往往只是音频里的一小段(比如句子里的“Taylor Swift”),CLAP抓不住这种局部信息。所以就搞了GLCLAP,同时抓“全局”(整句语义)和“局部”(偏向词细节)的信息,专门适配偏向prompt生成。

本文的主要贡献如下:

  • 利用音频-语言预训练模型生成用户自定义的偏置提示;
  • 提出全局-局部对比式语言-音频预训练模型(GLCLAP),能够在不同尺度上提取音频信息,显著提升句内偏置提示的准确性;
  • 将基于 GLCLAP 的偏置提示生成组件集成到 ASR 模型中,在无需微调的情况下对解码结果进行纠正。

Proposed Method

Local Subtext Extraction for CLAP

主要目标是将音频嵌入与从用户定义的偏向列表生成的嵌入进行对齐。通过计算这些嵌入之间的相似度,可以确定提供最佳匹配的偏向。如图1所示,原始的CLAP模型旨在捕捉整个音频和文本输入的语义信息。然而,它与偏向词检索任务并不完全兼容,因为偏向词通常是整个句子的一部分。为了克服这一限制,对训练过程进行了修改。具体来说,从原始文本注释中随机提取子文本。这种方法有助于增强模型对句子中短语境的表示能力。

全局-局部对比学习模型(GLCLAP)

文本分支:在文本处理方面,除了原始的处理方法(称为全局分支),还添加了一个局部分支来处理子文本。设ft(.)为文本编码器。局部分支和全局分支共享相同的权重,其后均连接一个平均池化层p(.)以降低词维度。全局分支从完整文本Xt ∈ RB×N 中捕获嵌入Et,而局部分支专注于为子文本Xt′∈ RB×N′提取嵌入Et’,其中N表示文本标记N’ ≤N的数量 :

音频分支:音频输入是“梅尔频谱”(Mel spectrogram),用Data2Vec2.0-large当编码器(Transformer结构,自监督预训练过,支持中英)。这里有个巧思:在平均池化前后都做对比学习——因为音频的局部信息是“时序相关”的,直接池化会丢信息。

  • 局部音频embedding(Ea’)包含时序(局部信息):编码器输出的原始结果,形状[B, T//4, D]T是音频帧数,//4表示编码器做了4倍下采样);
  • 全局音频embedding(Ea)包含全局信息:对Ea’做“时间维度平均池化”,形状[B,D]。

分别对文本和音频的局部表示全局表示计算对比损失。音频与文本嵌入之间的全局对比损失 Lg定义为:

局部 最大池化损失:

其中,maxt​ 表示沿时间维度取最大值。
l(⋅)=−B1​∑log(diag(softmax(⋅))),其中, diag 表示在对矩阵应用 softmax 函数之后,取其对角元素。该函数用于度量预测分布与目标分布之间的相似性

GLCLAP for Contextual Biasing ASR

GLCLAP 模型能够检索出与音频最匹配的偏置词,并将其作为提示(prompt)输入 ASR 模型,从而帮助 ASR 更准确地识别那些容易被误识别的低频词

  1. 先准备“用户定义的偏向词列表”(比如[“Catherine”, “Katherine”]),把这些词输入GLCLAP的文本分支,生成文本embedding(形状[K,C],K是列表长度);
  2. 把要识别的音频输入GLCLAP的音频分支(不做平均池化,保留时序信息),得到局部音频embedding(E^a’,形状[T,D]);
  3. 算“相似度矩阵”(Sim = 文本embedding × 音频embedding转置),形状[K,T]——每个元素代表“第k个偏向词”和“第t帧音频”的相似度;
  4. 对相似度矩阵做“时间维度max池化”,得到一个[K]的向量——每个值是“某个偏向词和整段音频的最大相似度”;
  5. 把超过“预设阈值”的偏向词挑出来当prompt,和原音频一起喂给ASR(比如Whisper),最后得到更准的识别结果。

实验

关键参数

  • 学习率:5e-4;
  • batch size:64;
  • 训练轮次:100轮(早停防过拟合);
  • 对比模型:Base ASR(Conformer架构,1.3亿参数,训过4个训练集)、Base CLAP、Subtext CLAP(只加了子文本提取的CLAP)、LCLAP(只算局部损失)。

音频编码器(Audio Encoder)
我们采用与 Data2Vec2.0-large 相同的网络结构和预训练方式。具体而言,使用的是 Data2VecAudioModel,这是一种基于 Transformer 的架构,专门用于语音表示的自监督学习。该模型在一个私有数据集上进行了预训练,数据集同时包含英文和中文语音数据。

文本编码器(Text Encoder)
文本编码器初始化为 bert-base-multilingual-uncased。该模型由 12 层 Transformer 组成,能够有效地捕获文本中的上下文信息 。

评估指标

  • 偏向词检索:用“Top-1召回率”(找对最匹配的偏向词的比例)和“F1分数”;
  • ASR性能:用“词错误率(WER)”——越低越好。

(1)偏向词检索效果(表1)对比不同模型的Top-1召回率(%)

  • Base ASR和Base CLAP效果都差,尤其是Base CLAP在STOP2上才19.4%;
  • 加了“子文本提取”后明显提升,说明局部信息有用;
  • LCLAP已经比Base好很多,再加上“全局分支”的GLCLAP,直接冲到97%左右,不管是人名还是地名场景都稳赢。

还有表2(Aishell-1 test NT的F1):

  • SeACo-Paraformer(传统偏向模型):96%;
  • LCLAP:96%(打平);
  • GLCLAP:96.96%(+0.96%)——比传统模型还强一点。

多模态对齐效果(图4):局部匹配很准

  • 图4a(词级):每个词(比如“NEW”“YORK”)都能和音频里对应的时序片段对齐,相似度高的地方很集中;
  • 图4b(短语级):“NEW YORK CITY”这种短语也能准确匹配音频片段,不会跟其他部分混;
  • 图4c(音频-文本对齐):即使文本有小错误(比如“EVETS”“YOR”),音频还是能和正确的文本片段对齐——说明GLCLAP的局部匹配能力很稳,不会因为文本小错跑偏。

对比Whisper Small加不同prompt模块的WER(%):

这篇论文最核心的贡献是:用“全局+局部对比学习”解决了ASR上下文偏向的“prompt匹配”问题

  1. 不用依赖发音词典,也不用改ASR模型、做微调,直接加个独立的GLCLAP模块就行,灵活又省资源;
  2. 不管是中文还是英文,不管是人名还是地名,GLCLAP的偏向词检索 accuracy都很高,还能实实在在降低ASR的WER;
  3. 给大模型时代的ASR个性化提供了新思路:用多模态预训练做检索增强,比传统方法更高效。

Fun-Audio-Chat:端到端语音交互模型

Fun-Audio-Chat 是为自然、低延迟语音交互构建的大型音频语言模型。它引入了双分辨率语音表示(一个高效的 5Hz 共享主干 + 一个 25Hz 的精炼头)以在降低计算的同时保持高语音质量,并采用 Core-Cocktail 训练以保留强大的文本 LLM 能力。它在语音问答、音频理解、语音函数调用以及语音指令遵循和情感共鸣基准上都取得了顶级成果。

现有模型面临的挑战:语音 Token(通常约 25Hz)与文本 Token(约 3Hz)在时间分辨率上的不匹配会削弱语义信息,同时带来高计算成本、限制实际部署,并在多模态训练过程中导致文本 LLM 知识的灾难性遗忘。

Fun-Audio-Chat采用 双分辨率语音表征(Dual-Resolution Speech Representations, DRSR) 架构:共享的 LLM 主干以高效的 5Hz 帧率 处理音频(通过语音 Token 分组实现),而 Speech Refined Head(SRH) 则以 25Hz 分辨率 生成高质量语音 Token。该双分辨率设计在计算效率与语音生成质量之间实现了有效平衡,使 GPU 训练时长降低近 50%

不同于某些语音模型的大规模音频-文本预训练与后训练方法,Fun-Audio-Chat基于预训练模型,全量监督微调阶段采用 Core-Cocktail Training 策略缓解灾难性遗忘问题,后训练使用多任务 DPO 训练以增强模型在鲁棒性、音频理解、指令遵循及情感化语音共情能力方面的表现。Fun-Audio-Chat 在有效保留原始文本 LLM 知识的同时,获得了强大的音频理解、推理与生成能力。

模型在语音转文本与语音-语音生成任务上取得了具有竞争力的性能,并在多项口语问答基准测试中位列同规模模型的领先水平。同时,其在音频理解、语音函数调用、语音指令遵循以及语音共情等任务上亦展现出媲美甚至优于同类模型的表现。构建了 Fun-Audio-Chat-Duplex,一种全双工变体,在口语问答基准与全双工交互场景中均取得了优异性能。

Spoken QA tasks:其中Mimo-Auido 进行大规模语音预训练
other tasks

Introduction

现有语音大模型面临以下挑战:

  • 语音token与文本token速率不匹配,跨模态对齐时多个语音帧映射到单个文本 token 的语义空间,会影响语义信息且LLM 难以复用其原生 token-level 推理能力;
  • 多模态的预训练与后训练,会导致其原有知识发生灾难性遗忘;
  • 频帧率通常较高(如 12.5Hz 或 25Hz),整体计算成本偏高,限制了模型在实际场景部署。

针对以上问题,提出 Fun-Audio-Chat

  • 大规模后训练与模型扩展能力。基于DrVoice的两项关键创新——双分辨率语音表征(DRSR)架构Core-Cocktail 训练策略——基础上,进一步扩展到显著更大的数据与模型规模,包括覆盖 数百万小时的多样化音频数据,以及 dense  8B 参数模型与 MoE 30B-A3B 参数模型。DRSR 依托于 主干 LLM 的高效 5Hz 处理25Hz 生成头,即使在更大规模训练中,仍能保持高计算效率(训练 GPU 时长约 降低 50%);同时,Core-Cocktail 训练策略 通过 两阶段训练、分阶段学习率及中间模型合并机制,在 8B 与 30B-A3B 模型 中均有效缓解了灾难性遗忘问题。
  • 多任务 DPO 训练以提升鲁棒性与泛化能力。DPO 训练增强 Fun-Audio-Chat 的能力,包括:对真实语音数据的鲁棒性、指令遵循能力、音频理解能力以及语音共情能力。通过多任务 DPO 训练,Fun-Audio-Chat 获得了超越基础语音-文本交互的高级能力,包括 语音函数调用、语音指令遵循,以及语音共情(识别并推理用户情绪状态并生成具有共情特质的响应),使模型能够以适当的情感智能与功能执行能力,理解并应对复杂语音交互场景。
  • 全双工语音交互能力。Fun-Audio-Chat-Duplex,一种支持双向同时语音通信的全双工变体。该模型在口语问答基准任务上表现出具有竞争力的性能,同时在全双工交互指标上亦取得优异结果,展现出在自然对话与轮流发言(turn-taking)方面的强大能力。

Methodology

语音输入经过 MLLM(多模态大语言模型)Tokenization分组处理编码,分别用于两种自回归预测任务:Text Head:预测文本 token,Speech Refined Head(SRH):预测语音 token。生成的语音 token 随后通过 speech detokenizer 转换为语音波形。需要注意的是:SRH 通过 5 次自回归前向传播 生成 5 个语音 token,其中 5 为分组因子。
Fun-Audio-Chat 的全双工通信模式

上图展示了 Fun-Audio-Chat 及其全双工变体 Fun-Audio-Chat-Duplex 的架构。

Fun-Audio-Chat 的框架主要由三个模块组成:

  1. 语音输入处理模块:通过 Speech EncoderSpeech Tokenizer 将原始音频波形转换为结构化表示,分别用于用户端(User)和助手端(Assistant)。
  2. 多模态大语言模型:整合 共享 LLM 主干 与专门的 Text HeadSpeech Refined Head(SRH),用于生成文本 token 与语音 token。
  3. Speech Detokenizer:将生成的语音 token 重建为音频波形。

该架构实现了统一的音频-文本编码同步的语音-文本生成。在推理阶段,无论输入为文本还是语音,均会被转换到一个统一的语义表示空间,由 MLLM 处理,从而通过 SRHText Head 同时生成语音和文本输出。

Speech Tokenization and Detokenization

Fun-Audio-Chat 采用 Whisper-Large-v3作为 语音编码器,从用户语音输入中提取连续表征。随后, Adapter 模块 对这些特征进行时间分辨率降采样,并将其维度匹配到 LLM 的隐藏空间。

鉴于语义 token 在语音表征中的有效性其,尤是其与文本内容的高度对应性,采用 S3Tokenizer 作为 语音分词器,将音频波形转换为离散的语义 token 序列。S=[s0​,s1​,…,sT−1​]其中 T 表示序列长度,用于助手端(Assistant)的输出。

S3Tokenizer 最初是在 CosyVoice [论文] [代码库] 中引入的,它是一个基于预训练的 SenseVoice-Large 模型的监督语义语音分词器,它增强了提取的词元与文本和副语言信息的语义关系,对数据噪声具有鲁棒性,并减少了对干净数据收集的依赖,从而使模型训练可以使用更广泛的数据来源

在逆向过程中,Speech Detokenizer [CosyVoice3的模型解码合成音频]利用 speaker-specific embeddings 编码音色等声学特征。随后,Flow Matching 模型 将这些 token 转换为 Mel 频谱表示,再通过 HiFi-GAN 声码器 将 Mel 频谱重建为音频波形。

Dual-Resolution Speech Representations (DRSR)

为了在支持跨模态能力的同时 保持预训练文本 LLM 的文本能力,Fun-Audio-Chat 采用了先前工作 DrVoice中提出的 双分辨率语音表征(Dual-Resolution Speech Representations,DRSR) 架构。该架构有效解决了 语音 token(通常约 25Hz)与文本 token(约 3Hz)之间的时间分辨率不匹配问题,同时提升计算效率,并实现高质量语音生成。

语音 Token 分组。为弥合时间分辨率差异,采用 DrVoice中的分组技术,将 25Hz 的语音 token 转换为 5Hz 的表示,并输入至 共享 LLM 主干。该分组变换可表示为:

其中 𝐬j 表示单个语音 Token ,Concat 表示串联,k=5 是基于语音 Token 频率 (25Hz) 与所需 LLM 处理频率 (5Hz) 之比的分组因子。这种机制将序列长度从T减少到T/k,允许共享LLM以5Hz帧速率运行,这大大减少了计算开销(训练GPU时间减少了大约50%),同时保留了LLM的语义推理能力。

Speech Refined Head (SRH).分组机制提升了计算效率,但其同时会丢失对自然语音合成至关重要的细粒度声学信息。为弥补这一不足,Fun-Audio-Chat 引入了一个专用的 SRH,用于在 完整的 25Hz 分辨率下生成语音 token。SRH 执行一种反分组(ungrouping)操作,来自 共享 LLM 的最终隐藏状态hL[SLLM]首先通过线性投影被转换为与分组大小一致的嵌入表示:

接下来分解为 k 段:

生成的 𝐇 为 SRH 提供条件上下文,SRH 以 25Hz 自回归方式生成语音标记。 训练目标优化语音标记预测:

其中 si 表示第 i 个语音标记。 这种双分辨率框架允许 Fun-Audio-Chat 遵循 DrVoice 中建立的设计原则,同时实现计算效率(共享 LLM 层中的 5Hz 处理)和高保真语音合成(通过 SRH 生成 25Hz)。

Multimodal Large Language Model (MLLM)

MLLM 架构在预训练文本 LLM 的基础上进行扩展,使其具备统一的音频-文本处理能力,从而能够接收语音或文本任一模态输入,并同时生成语音与文本输出。Fun-Audio-Chat 属于并行式联合语音-文本模型。借鉴 Moshi 的做法,我们在模型中引入 显式文本流,用于为语音生成提供语义引导。模型设计仅在 助手侧进行模态对齐,这反映了人机对话中的固有非对称性:用户通常只提供单一模态输入(文本或语音),而助手则能够输出协调一致的多模态响应(即联合语音-文本输出或仅文本输出)。

模型利用 LLM 的自回归特性,在每一步迭代地将 语音 token st文本 token tt​ 一并输入至 共享 LLM 层。两类 token 的嵌入向量通过逐元素相加(addition)进行融合,形成统一的输入表示。第 t步的复合嵌入:

其中,EspeechEtext​ 分别表示语音与文本 token 的嵌入函数。为解决语音序列与文本序列在长度上的不匹配问题,我们对较短的序列进行填充,并在每个话语中使用特殊静音标记 <|SIL|>作为填充值。

模型的生成过程遵循自回归范式:

其中,x 表示输入,yt​=(st​,tt​) 表示在时间步 t 的联合语音–文本输出。该建模方式在同一自回归过程中统一了语音与文本的联合生成。

Post-Training

Fun-Audio-Chat 基于已有的预训练模型构建,并采用多阶段后训练流程进行训练,利用覆盖多领域、多任务的数百万小时语音数据,其中包括对话语音与多语言语音,以及面向语音理解任务的音频数据,从而保证对多种应用场景与使用需求的全面覆盖。自建数据则包括文本、ASR、TTS、音频理解、语音指令跟随以及语音共情数据。

整个多阶段训练流程包括以下三个阶段:
(1) Pre-alignment:利用大规模语音-文本配对数据,对 Speech Encoder、Adapter 与 Speech Refined Head 进行对齐训练
(2) Core-Cocktail 训练阶段:用于监督式全参数微调,采用由 CosyVoice 3基于数十亿文本 token 合成的高质量语音数据,并通过合成语音的词错误率(WER)阈值筛选得到
(3) 多任务 DPO 训练阶段:引入多样化真实语音数据以提升鲁棒性,引入音频理解与 ASR 数据以增强理解与感知能力,同时使用指令跟随数据(包含情感、风格与韵律控制)以提升语音指令跟随能力,并结合语音共情数据以强化情感理解与共情式响应生成能力。

预对齐阶段

Speech Encoder 采用 Whisper-Large-v3的权重进行初始化,从而提供稳健的语音理解能力。Shared LLM Layer 使用 Qwen3-30B-A3B进行初始化,或可替代性地采用视觉-语言基础模型 Qwen3-VL-8B,以充分利用预训练文本 LLM 强大的语义理解能力。此外,来自 CosyVoice 3的预训练 Speech Tokenizer Speech Detokenizer 被直接引入,并在 Fun-Audio-Chat 的整个训练过程中保持冻结。

预对齐训练:使用大规模语音-文本配对数据,对 Speech Encoder、Adapter 与 Speech Refined Head 进行联合对齐学习。在该阶段中,Shared LLM Layer 被保持冻结,以确保其预训练能力不受破坏。

Core-Cocktail 训练阶段

实验观察到,多模态模型训练过程中存在一个基础性的学习率折衷问题:学习率过高将导致 MLLM 性能退化,并加剧基础文本 LLM 知识的灾难性遗忘;而学习率过低则会导致收敛缓慢,甚至训练停滞。为解决这一优化难题并避免知识流失,采用了此前在 DrVoice中提出的 Core-Cocktail Training 方法论,其核心是一种 两阶段训练策略

阶段一:高学习率微调。 在该初始阶段,我们对全部 MLLM 参数、Audio Encoder 与 Adapter 进行全量微调,并采用较高的学习率。对于 Fun-Audio-Chat,在阶段一中学习率按照余弦退火策略从 1×10−4 逐步衰减至 1×10−5。该阶段的目标是使模型参数能够快速迁移至更有利于多模态学习的损失曲面区域,从而实现快速任务适配。

中间模型合并。 为缓解阶段一高强度训练可能带来的 MLLM 性能退化问题,引入中间模型合并操作。将阶段一训练后的 MLLM 参数 M1​ 与原始预训练 LLM 参数 M0 进行加权插值,得到合并模型: Mr​←αM1​+(1−α)M0

其中 α用于控制插值平衡。该合并过程重新引入基础 LLM 的核心知识,从而保护其原有的文本理解能力。较小的 α值将更有利于保留基础 LLM 的知识。在我们的实现中,α=0.5。

阶段二:低学习率精调。 在阶段二中,我们对合并后的模型 Mr 以更低的学习率进行全量微调。对于 Fun-Audio-Chat,学习率同样按余弦退火策略从 1×10−5 衰减至 1×10−6。该阶段实现了稳定且精细的优化,在避免高学习率相关不稳定性的同时进一步提升模型性能。Core-Cocktail Training 策略在快速适配与知识保持之间实现了有效平衡,显著缓解了灾难性遗忘问题,并促进高效的多模态学习。

多任务 DPO 训练

在完成 Core-Cocktail 训练之后,采用多任务 DPO 训练提升模型在真实语音数据上的鲁棒性、音频理解能力、语音指令遵循能力以及语音共情能力。多任务 DPO 阶段引入了多维度的偏好学习目标:(1)鲁棒性偏好:更偏好在噪声环境或多样化语音输入下仍能保持输出质量的响应;(2)指令遵循偏好:更偏好能够准确遵循语音指令(包括情绪、风格与韵律控制)的响应;(3)音频理解偏好:更偏好体现对音频内容进行准确理解与推理的响应;(4)语音共情偏好:更偏好能够展现恰当情绪理解与富有共情反馈的响应。DPO 训练损失在这些偏好维度上联合计算,从而使模型能够学习到一个在多种能力之间取得平衡的统一偏好信号。该多任务 DPO 训练阶段使模型能够更好地对齐人类偏好,并在真实世界会话场景中表现出更优性能,从而区别于主要依赖监督微调的既有工作。

全双工交互训练

为实现实时全双工语音交互,提出并采用并行语音–文本输入流架构,并将 Fun-Audio-Chat 扩展为全双工变体 Fun-Audio-Chat-Duplex,从而支持自然、类人化的无缝双向通信。具体而言,并行语音–文本输入流允许模型在助手生成语音的同时继续接收用户语音输入,从而有效利用原本空闲的时间片。该并行输入机制能够同时处理来自用户与助手的语音输入,使模型能够应对重叠语音片段并保持会话语境一致性。全双工交互训练从 Core-Cocktail 阶段得到的检查点继续训练,在其已具备的多模态能力基础上进一步强化。该阶段采用通过数据增强方式构造的全双工对话数据进行训练:即基于高质量半双工对话数据,并按照 OmniFlatten中的方法模拟全双工交互行为将传统轮流发言的文本对话转化为并行双流式交互,其中用户与助手均可同时发声。通过全双工训练,模型能够学习自然的轮次切换、打断处理与跟进反馈等交互行为。

OmniFlatten:https://aclanthology.org/2025.acl-long.709.pdf

Experiments

评估任务和指标:

  • 语音转文本 (S→T) 评估。VoiceBench 、OpenAudioBench两种类型的口语问答基准
  • 语音到语音 (S→S) 评估。UltraEval-Audio 用于端到端语音转语音问答评价。
  • 音频理解。 MMAU、MMAU-Pro 和 MMSU来评估综合音频理解能力。
  • 语音识别。验证英语和普通话 (ZH) 性能
  • 语音功能调用。 Speech-ACEBench、Speech-BFCL 和 Speech-SmartInteract评估模型基于语音指令执行函数调用的能力。
  • 语音指令跟随和语音同理心。 VStyle 基准评估模型理解和执行语音指令的能力,以控制语音生成属性,如情绪、说话风格、速度、音调和音量。

评估指标

对于全双工交互评估,我们使用S2M-T(多模态响应中的文本输出准确性)和S2M-S(多模态响应中的语音输出准确性)来衡量知识理解性能,并使用轮流成功率来衡量模型在全双工场景下正确处理轮流的交互百分比。

结果

语音问答:Fun-Audio-Chat-8B 在 OpenAudioBench 上取得 76.61% 的整体最佳成绩,在 VoiceBench 上取得 83.21% 的整体最佳成绩,居于约 8B 规模模型中的领先水平;同时,Fun-Audio-Chat-30B-A3B 在与大规模基线模型(含顶级闭源模型)的比较中亦展现出具有竞争力的结果。

语音理解:Fun-Audio-Chat 在综合音频理解基准(包括 MMAU、MMAU-Pro 和 MMSU)上取得了最优表现,优于多种强大的开源基线模型

语音功能调用

Fun-Audio-Chat-30B-A3B 在所有评测模型中取得了最高的总体得分(79.63%),并在 Speech-ACEBench(单轮:76.40%)和 Speech-SmartInteract(84.13%)等任务上表现尤为突出。该模型在理解基于语音的函数调用指令并准确执行方面展现出强大能力,这对于构建实际可用的语音控制应用至关重要。 在并行函数调用场景中(Fun-Audio-Chat-8B 在 ACEBench-Parallel 上取得 54.50%,在 BFCL-Parallel 上取得 87.63%),结果进一步凸显了 Fun-Audio-Chat 在语音交互中处理复杂、多步骤指令的能力。

语音指令跟随和语音同理心

全双工交互

全双工知识理解。 表7展示了Fun-Audio-Chat-Duplex的全双工知识理解性能。 结果表明,Fun-Audio-Chat-Duplex 在全双工对话场景中保持了强大的知识理解能力。全双工架构成功地保留了模型的知识理解能力,同时实现了同步双向通信,使系统即使在处理重叠的语音输入和输出时也能保持上下文和理解。

Fun-Audio-Chat-Duplex-30B-A3B 实现了完美的轮流成功率(100.00%),优于 Moshi(99.77%)和 FreezeOmni (93.87%)。 Fun-Audio-Chat-Duplex-8B 达到了 99.94%,也展现了出色的轮流能力。 这些结果表明,Fun-Audio-Chat-Duplex 成功实现了自然高效的全双工语音交互,该模型能够处理同时语音并保持适当的对话流程,密切反映了人与人对话的动态。

计算效率双分辨率设计显着降低了计算要求和潜在延迟,经验测量显示,与以更高帧速率运行的模型相比,训练期间的 GPU 时间减少了约 50%,且不影响语音质量

限制

多轮对话中的复杂问题回答,该模型有时会表现出上下文记忆丢失,其中先前轮次的信息可能无法一致保留。

语音指令跟随能力在表达方面表现出一些不稳定。 

语音共情能力表现出一定的不稳定。

PAL: 探索如何在音频与LLM之间实现高效的语义信息传递

如何设计音频编码器与 LLM 的集成架构,使得 LLM 能够高效、准确地从音频编码中“探测”出与文本查询相关的信息?

如何将丰富的音频语义高效地从音频编码器传递到 LLM 中,仍然缺乏系统性的研究。目前最常用的集成范式,是将音频编码器输出的 token 映射到 LLM 的输入 token 空间(例如通过 MLP 或 Q-Former),并将其前置或插入到文本 token 序列中。将这一通用方案称为 PLITS(Prepend to the LLM’s Input Token Space)集成方式

论文提出了一种高效的替代方案——轻量级音频 LLM 集成方法(Lightweight Audio LLM Integration,LAL)。LAL 仅通过 LLM 不同层中的注意力机制引入音频表示,而绕过其前馈网络模块。该方法能够在合适的抽象层级上对丰富的音频语义进行编码,从而有效地将其集成到 LLM 的不同模块中。与现有的集成方式相比,该设计显著降低了计算开销。

在完全相同的训练流程下,LAL 在多种基础 LLM 和任务上均能够保持与现有集成方法相当的性能,甚至取得更优表现。对于通用音频任务,LAL 相较于强 PLITS 基线模型的性能提升最高可达 30%,同时内存占用最多降低 64.1%,吞吐量最高提升 247.5%。此外,在通用音频-音乐-语音 LLM 场景下,PAL 的性能与完全基于 PLITS 集成的系统相当,但在计算效率和内存效率方面具有显著优势。

LLM 中内在的两类知识:(1)参数化知识,主要源于大规模语言预训练并嵌入于 FFN 层中;(2)上下文知识,通过注意力机制动态地引入和调制。 音频输入作为一种上下文信息,可以仅通过基于注意力的调制,在文本 token 表征中激活所需的概念,而无需对音频表示进行直接的 FFN 处理。由此,音频信息得以间接访问 LLM 的参数化知识:音频上下文“搭载”在文本 token 之上,注意力机制对其表征进行重构,进而在 FFN 处理中触发与相关概念对应的路径。该策略不仅在架构效率上具有优势,也为多模态信息融合机制提供了更为深入的理解。

Introduction

两种主流的架构范式:

  • PLITS(Prepend to the LLM’s Input Token Space)集成方式。将一个或多个音频编码器的输出映射到 LLM 的输入空间(例如通过 MLP、Q-Former),随后将这些音频 token 前置或插入到文本 token 序列中,并将整个序列作为统一输入。
  • Flamingo 风格的架构。在相邻的 LLM 层之间插入交叉注意力(cross-attention)和前馈网络(FFN)模块。在每一次插入中,文本 token 首先对一组潜在的音频 token 进行注意力计算,随后通过该模块中的 FFN,最后再进入下一层 LLM。缺点:交叉注意力与 FFN 模块的交错堆叠会增加模型的顺序深度以及单层计算量,从而可能减慢前向传播速度。

本文提出了 LAL,一种轻量级的集成方式,其仅将音频 token 作为 Key和值Value 注入到 LLM 的注意力模块中(不构造音频查询 Query),并且使音频 token 绕过 LLM 的前馈网络(FFN)。这种设计将注意力计算复杂度从

O((Na​+Nt​)2)

降低至 O((Na​+Nt​)Nt​),

其中 Na​ 和 Nt分别表示音频 token 与文本 token 的数量。由于在实际场景中通常满足 NaNt ​,该设计能够带来显著的计算效率提升。LAL 在内存占用和计算量方面均实现了显著降低。与 LoRA 等参数高效训练方法不同,LAL 属于一种核心架构层面的改动,因此其带来的效率优势不仅体现在训练阶段,同样适用于推理阶段。

PLITS 与 Flamingo 类集成方法代表了从音频编码器中提取信息的两种互补策略。LAL 通过限制音频 token 与 LLM 的交互方式,提供了一种计算与内存高效的机制;而在 PLITS 风格的集成下,某些音频编码器则可以从 LLM 内部更丰富的解码过程中获益。具体而言,采用语言对比学习或自监督目标训练的编码器(如 CLAP、SSLAM)更适合使用 LAL 集成方式;而 Whisper 由于其采用自回归语音到文本转写及下一 token 预测目标进行预训练,则能够从 PLITS 风格集成所提供的额外解码能力中获得更多收益

基于上述观察,本文提出了一种 LAL 与 PLITS 相结合的混合集成框架——PAL,用于构建通用的音频、音乐和语音 LLM。该框架实现了一种面向音频编码器感知的融合策略,在效率与性能之间取得平衡。与单独采用 PLITS 集成方式相比,该设计在显著降低计算与内存开销的同时,仍能获得强劲的性能表现。实验系统地探索了性能与效率之间的权衡关系,揭示了面向编码器感知的融合策略如何在最小参数开销的前提下,实现音频编码器向 LLM 的高效信息传递。

Methodology

以当前最先进的集成方式 PLITS 作为基线方法,LAL 为本文提出的方法,PAL 为二者的混合方案。需要说明的是,文中使用 LAL 和 PAL 同时指代集成策略本身以及相应的音频-LLM 模型。

在音频编码器方面,采用 SSLAM 和 CLAP,并使用一种高效的、基于 Q-Former 的连接器来融合二者的信息,在不增加 token 数量的情况下完成融合,称为 LFST。若未使用 LFST,则音频编码器默认为 SSLAM;当使用 LFST 时,则表示 SSLAM 与 CLAP 的组合。

CLAP

关于 LFST 的 连接器:

用于融合语言对齐的编码器(如 CLAP)与自监督编码器(如 SSLAM)。该连接器生成一组紧凑的潜在 token,既融合了 CLAP 的语义信息,又保留了 SSLAM 的细粒度时空特征,同时保持序列长度固定,避免了简单拼接带来的计算开销。

编码器输出为:

其中 F表示频率,T表示时间,d 表示特征维度。单个潜在 token z会广播到每一个时空位置,从而得到每个 zf,t

在连接器内部,该模块包含 3 层交叉注意力(cross attention)层,每个 zf,t 会通过与对应局部区域的 HsslamHclap​ 的交叉注意力进行更新。

为了在跨 (F,T)扁平化时保留时间结构,我们在频率轴上插入换行符(newline token),使得每一个新的时间步以该标记开头,然后才是其频谱 token

基线音频 LLM:

将音频 token 前置到 LLM 输入空间(PLITS):将音频 token 前置到 LLM 输入 token 空间的基线音频 LLM 作为基准。

音频编码器的输出首先通过一个 Q-Former 连接器映射到 LLM 的输入嵌入空间,生成音频 token。随后,这些音频 token 被直接拼接在文本 token 之前,形成一个联合序列,并共同经过 LLM 的所有层进行处理,从而实现音频与文本的联合解码。该范式的核心特征在于音频 token 向 LLM 提供的方式——即作为前置 token 与文本一同输入。

LAL:轻量级音频-LLM 集成方法

有研究表明,LLM 会将语义编码为可在隐藏状态中被选择性激活的特征。基于这一观点,提出如下假设:有效的音频-LLM 集成,并不需要对 LLM 做复杂改动,而是需要音频 token 能够触发文本 token embding 中与声音相关的概念特征。

换言之,不同的听觉输入应当在文本表示中激活相应的语言概念。例如,当输入中包含狗叫声时,与“狗”这一概念相关的特征应被激活,使模型能够将听觉信号锚定到语言层面,并正确回答诸如“当前包含哪种动物的声音?”这样的问题。该假设直接指导了我们的架构设计目标:寻找一条最简单、但又能可靠地将音频线索传递到承载语义概念的文本特征中的路径。

一个标准的 LLM 层由注意力子模块和前馈网络(FFN)子模块组成。由于注意力机制负责 token 之间的信息交互,它是音频影响文本的必要通道;同时我们认为,仅通过注意力机制,文本 token 便足以从音频中获取所需信息

基于这一原则,我们提出了 LAL(Lightweight Audio LLM integration)。与基线方法类似,首先通过一个共享的 Q-Former 生成音频 token;在 LLM 的每一层中,使用一个 MLP 将这些音频 token 投影到该层的输入空间。随后,音频信息仅以 Key 和 Value 的形式注入到注意力模块中,而 Query 仍然仅由文本 token 构成。这样,音频只会调制文本 token 的注意力上下文,而不会经过 LLM 的前馈网络,从而实现更高效的音频-文本融合。

设第 l 层的文本隐藏状态为:Hlt​∈RNt​×d, Q-Former 输出的音频特征为 A∈RNa​×da​.在每一层引入一个投影器:Pl​:Rda​→Rd,将音频特征映射到该层的表示空间:

随后,在 token 维度上将文本与音频表示进行拼接:

如图 2(B) 所示,Query 仅由文本 token 生成,而 Key 和 Value 则由拼接后的序列计算:

由此得到文本 token 的 LAL 更新形式为:

更新后的H~lt随后按照标准做法进入 FFN,并结合残差连接进行处理。通过这种方式,音频信息仅通过注意力上下文影响文本 token,使由音频激活的特征与其对应的语言概念对齐,从而实现有效的跨模态信息传递。

计算与内存效率

与 PLITS 以及 Flamingo 风格架构相比,LAL 在三个方面显著提升了效率,且随着音频序列长度的增加,这些优势会进一步放大。实验中,我们观察到最高可达 64.1% 的显存占用降低,以及最高 247.5% 的训练吞吐提升(samples/sec)。

注意力复杂度

  • PLITS:在 Na+Nt​ 个 token 上执行完整的因果注意力,计算复杂度为:
  • LAL:仅文本 token 生成 Query,Key 和 Value 包含音频与文本,复杂度为

从而消除了 Na2项以及所有音频—音频之间的注意力交互。

前馈网络(FFN):

  • PLITS:音频 token 在每一层中既参与注意力计算,又通过 FFN,导致浮点运算量和激活存储随 NaN_aNa​ 成比例增长。
  • LAL:音频 token 不进入 FFN,仅作为 Key 和 Value 服务于文本 Query,从而减少了每层的浮点运算量以及反向传播所需的激活存储。

随音频长度的扩展性。
在多模态 LLM 中,非文本模态通常会产生远多于文本的 token,音频亦是如此。随着音频片段变长或 token 化更密集,Na增大,PLITS 的计算代价为 (Na+Nt)2,其中 Na2 项将占据主导。相比之下,LAL 的复杂度为 (Na+Nt)Nt​,对 Na​ 呈线性增长。因此,音频越长或切分越细,二者在计算与内存上的差距就越大。此外,由于更多 token 绕过了每一层中最昂贵的 FFN,LAL 在前馈阶段的节省也会随 Na​ 的增大而进一步扩大。

相比Lora:

LAL 是一种核心架构层面的修改。LoRA 等方法主要改变训练阶段参数的适配方式,而在推理阶段基本保持原有的前向计算模式;LAL 则直接改变了注意力与 FFN 的路由方式,因此其计算与内存效率的收益不仅在训练阶段成立,在推理阶段同样适用。

冻结 LLM FFN 的 LAL 集成:验证了在冻结 LLM 前馈网络(FFN)模块的情况下,LAL 集成方式仍然保持有效,且性能并未出现显著下降。这一结果对于降低训练成本、提升参数效率,以及在实现多模态对齐的同时保留 LLM 预训练知识,具有重要意义。出于表述清晰与实验一致性的考虑,本文的主要实验仍聚焦于 FFN 可训练的标准设置。

参数化知识与上下文知识的利用。

LAL 如何高效利用预训练 LLM 中内在的两类知识:(1)参数化知识,主要源于大规模语言预训练并嵌入于 FFN 层中;(2)上下文知识,通过注意力机制动态地引入和调制。

LAL 的实验成功(见表 1 和表 2)表明,音频输入作为一种上下文信息,可以仅通过基于注意力的调制,在文本 token 表征中激活所需的概念,而无需对音频表示进行直接的 FFN 处理。由此,音频信息得以间接访问 LLM 的参数化知识:音频上下文“搭载”在文本 token 之上,注意力机制对其表征进行重构,进而在 FFN 处理中触发与相关概念对应的路径。该策略不仅在架构效率上具有优势,也为多模态信息融合机制提供了更为深入的理解。

LAL 的实证评估。在多种基础 LLM 上对 LAL 进行了训练与评估,覆盖通用音频任务,包括分类、描述生成(captioning)和推理。在表 1(分类与描述生成)和表 2(推理)中,我们给出了 LAL 与 PLITS 的受控对比,结果表明 LAL 在推理速度与内存占用更优的同时,能够达到与 PLITS 相当甚至更高的准确率。其次,在表 3(分类与描述生成)和表 4(推理)中,我们将 LAL 与已有方法进行了比较。需要注意的是,不同先前方法在训练数据规模和模型规模上存在显著差异,而我们的模型实验训练在这两个维度上均处于较低水平。

这些实验结果不应被简单理解为“全面优于所有方法”,而应被解读为一个更有说服力的结论:即在使用更少训练数据、更小模型、计算资源更受限的情况下,LAL 能够达到与现有方法相当的性能水平,表现出良好的竞争力

PAL:一种面向编码器的、在 LAL 基础上扩展语音理解能力的架构

前文已经证明:

  • LAL:高效、省算力,适合通用音频(general audio)
  • PLITS:计算更重,但允许音频 token 在 LLM 内部被“语言化”处理

本节提出的关键问题是:

是否所有音频编码器都适合用 LAL?还是有些情况下必须用 PLITS?

对于 Whisper 语音编码器情感识别、性别分类 等任务上:PLITS 明显优于 LAL,这一现象与经典神经语言学理论相符:Wernicke 区主要负责语言理解,长期以来被认为处理书面语和口语,而角回则支持跨听觉、视觉及其他感官输入的关联。类比而言,语音特征在结合语言上下文进行解释时最为有用,而通用音频则受益于模态专属的处理通路。

语音(speech)-人类声音
→ 本质上是“语言的声学形式”
在 LLM 内部、结合语言上下文进行解码更有价值
→ 因此更适合 PLITS(直接进入 LLM token 流)

通用音频 / 音乐 / 事件音
→ 非语言模态
→ 更适合走 模态专属通路
→ 用 LAL 即可

基于此,我们提出了 PAL(Probing the Audio Encoders via LLM),一种面向编码器的混合集成架构,可根据不同编码器选择合适的集成方式:通用音频编码器(SSLAM 和 CLAP)采用 LAL 集成,而语音编码器 Whisper 采用 PLITS 集成.

PAL 的实验评估:我们在涵盖语音、音乐和通用音频的统一 instruction tuning 数据集上训练 PAL,并在分类与推理基准上进行评测。结果显示,在分类任务中(表 5)以及推理任务中(表 6 和表 7):

MMAU多任务音频理解与推理能力:包括语音、环境音、音乐等,用于测试模型感知理解、事件识别、推理以及高级知识应用
MMAR:面向音频理解与推理的挑战性基准,音频 + 问答对,覆盖 语音、环境声音乐

PAL 的准确率与 PLITS 相当同时保持了更高的计算效率

Whisper 的“副作用”:对非语音任务也有帮助:

此外,我们观察到引入 Whisper 编码器后,通用音频(sound)和音乐任务的性能有所变化。我们推测,这是因为 Whisper 会编码背景声音,从而具备一定的事件检测能力。

在 PAL 与 PLITS 的对比中,我们严格控制实验条件,使用相同的 backbone、数据和训练超参数。除 Audio Flamingo 2 外,其他系统均基于 PLITS。表7种一些已有系统(Qwen2.5-Omni-7B)在指标上高于 PLITS,主要是因为它们使用了更大的训练数据集、更大的语言模型(LLM)以及更强的音频编码器。

PAL 采用两阶段训练流程(见表 9)。在阶段一中,我们以用于 LAL 的阶段一数据集为基础,并额外引入来自 OpenASQA的、以语音理解为重点的数据进行增强。在阶段二中,我们在一个经过精心整理的音频、语音与音乐推理指令数据集 AudioSkills上进行微调。由于部分源数据集的原始音频文件不可获取,我们使用了 AudioSkills 中的 600 万条样本子集(原始规模为 1000 万)。

实验

LAL:实验设置

训练流程(Training Protocol)
在两个目前规模最大的通用音频指令微调数据集上训练所提出的音频 LLM 变体:OpenAQA和 CompA-R。整体采用两阶段训练流程:
1)连接器预训练阶段:仅训练音频-文本connector,其余模块全部冻结;
2)联合训练阶段:同时训练connector和 LLM。
在整个训练过程中,音频编码器始终保持冻结状态

针对推理和开放式问答任务,我们进一步增加两个训练阶段:

  • 阶段 3:使用 OpenAQA中的开放式问答数据进行训练;
  • 阶段 4:使用推理数据集 CompA-R进行训练。

采用 OpenAQA提出的两阶段训练设置对 LAL 进行训练,并据此获得表 1 中的实验结果。此外,我们还在 OpenAQA提供的更大规模开放式数据以及推理数据集 CompA-R上进行训练,其评测结果见表 2。

评测流程(Evaluation Protocol)
为了评估 LAL 是否能够有效地将关键音频事件信息从编码器传递到 LLM 的潜在表示空间中,我们在下游的分类、描述生成(captioning)和推理任务上进行评测。

  • 分类任务:使用 gpt-text-embedding-ada 对模型输出文本和目标音频标签进行编码,并计算语义相似度;
  • 描述生成任务:在标准音频描述数据集上评测,报告 CIDEr 和 SPICE 指标;
  • 推理任务:采用 CompA-R-test 以及 Ghosh 的评测协议,通过一个纯文本的 GPT-4 评审模型,结合音频事件的辅助元数据,对音频-LLM 的输出在 有用性(Helpfulness)、清晰度(Clarity)、正确性(Correctness)、深度(Depth)和参与度(Engagement) 五个维度进行打分。

PAL:实验设置

训练流程:PAL 采用与 LAL 相同的两阶段训练流程。音频编码器在整个过程中同样保持冻结。

在阶段 1 中,构建了一个混合数据集:以通用音频 OpenAQA 的 Stage 1 数据为基础,并加入用于语音理解的 OpenASQA Stage 1 划分。
在阶段 2 中,使用一个精心整理的音频、语音和音乐推理指令微调语料,即 AudioSkills中的 600 万条子集。

语音理解评测:语音识别以及说话人性别分类。这些任务在阶段 1 训练完成后进行评测,用以衡量新引入的 Whisper 编码器与 LLM 的集成效果。随后,在 MMAR 和 MMAU 基准上评测通用音频、音乐以及语音推理能力,并报告细粒度的类别级性能结果。

总结:

提出了 LAL,一种仅通过注意力机制中的 Key 和 Value 注入音频信息、并跳过音频 token 的前馈网络(FFN)处理的轻量级集成方式。该方法减少了注意力交互与中间激活,在分类、描述生成和推理任务上保持与当前最先进基线 PLITS 相当的性能的同时,实现了 最高 64.1% 的显存占用降低最高 247.5% 的训练吞吐提升
此外,我们提出了 PAL,一种 编码器感知(encoder-aware) 的混合集成框架:对 SSLAMCLAP 采用 LAL,而对 Whisper 采用 PLITS,因为 Whisper 能从 LLM 内部的解码过程中获益。
需要强调的是,LAL 属于核心架构层面的改动,而非参数高效微调(PEFT)方法,因此其效率收益在 训练阶段和推理阶段 均可体现。
在未来工作中,我们计划扩展到更大规模的基础模型,使用更高质量的指令数据以提升推理能力,并探索 流式处理长上下文音频 场景。

PS:数据集说明:

VocalSound:VocalSound 数据集包含 21,024 条众包采集的语音录音,覆盖 6 类不同的发声表达,来自 3,365 名不同的受试者。

ESC-50:ESC-50 数据集由 2,000 条 5 秒长的环境音频片段组成,划分为 50 个类别。

DCASE2017 Task 4:DCASE 2017 Task 4 包含 17 种声音事件,分为“Warning”和“Vehicle”两大类,其评测集包含 1,350 条音频片段。

FSD50K:FSD50K 的评测集包含 10,231 条音频片段。我们在该评测集上进行评估,并报告多标签分类任务的 mAP(mean Average Precision)指标。包括人类声音  事物声音  动物声音、 自然声音音乐 

AudioSet:其中包含来自 YouTube 的 10 秒音频片段,这些片段按照 AudioSet 本体论被标注为一个或多个声音类别。

AudioCaps:AudioCaps 的评测集包含 901 条音频,每条音频配有 5 条文本描述,共计 4,505 对音频-描述样本。

Clotho V2:Clotho V2 的评测集包含 1,045 条音频,每条音频配有 5 条描述,共计 5,225 对音频-描述样本。

 复杂音频推理 (CompA-R)是一个合成生成的指令调优 (IT)数据集,其中包含要求模型对输入音频进行复杂推理的指令。

Qwen3-Omni :原生端到端的多语言全模态大模型

 Qwen3-Omni ,这是一个原生端到端的多语言全模态基础模型。它旨在处理包括文本、图像、音频和视频在内的各种输入,同时提供文本和自然语音的实时流式响应。

💜 Qwen Chat   |   🤗 Hugging Face   |   🤖 ModelScope   |   📑 Blog   |   📚 Cookbooks   |   📑 Paper  
🖥️ Hugging Face Demo   |    🖥️ ModelScope Demo   |   💬 WeChat (微信)   |   🫨 Discord   |   📑 API

主要特点:

  • 原生全模态:Qwen3-Omni是原生全模态大模型,预训练全模态不降智
  • 强大的性能:Qwen3-Omni在36项音频及音视频基准测试中斩获32项开源SOTA与22项总体SOTA超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强模型,同时其图像和文本性能也在同尺寸模型中达到SOTA水平。
  • 多语言Qwen3-Omni支持119种文本语言交互、19种语音理解语言与10种语音生成语言
  • 更快响应Qwen3-Omni纯模型端到端音频对话延迟低至211ms,视频对话延迟低至507ms。
  • 长音频Qwen3-Omni支持长达30分钟音频理解
  • 个性化:Qwen3-Omni支持system prompt随意定制,可以修改回复风格,人设等。
  • 工具调用:Qwen3-Omni支持function call,实现与外部工具/服务的高效集成。
  • 开源通用音频Captioner开源Qwen3-Omni-30B-A3B-Captioner,低幻觉且非常详细的通用音频caption模型,填补开源社区空白。

模型架构

Qwen3-Omni采用Thinker-Talker架构:Thinker负责文本生成,Talker专注于流式语音Token生成,直接接收来自Thinker的高层语义表征。为实现超低延迟流式生成,Talker通过自回归方式预测多码本序列:在每一步解码中,MTP模块输出当前帧的残差码本,随后Code2Wav合成对应波形,实现逐帧流式生成。

  • 创新架构设计AuT:音频编码器采用基于2000万小时音频数据训练的AuT模型,具备极强的通用音频表征能力。MoE:Thinker与Talker均采用MoE架构,支持高并发与快速推理。多码本技术:Talker采用多码本自回归方案——每步生成一个编解码帧,MTP模块同步输出剩余残差码本。
  • 全模态不降智在文本预训练早期混合单模态与跨模态数据,可实现各模态混训性能相比纯单模态训练性能不下降,同时显著增强跨模态能力。
  • 卓越的语音对话与指令跟随能力Qwen3-Omni在语音识别与指令跟随任务中达到Gemini-2.5-Pro相同水平。
  • 实时音频和音视频交互AuT,Thinker, Talker + Code2wav全流程全流式,支持首帧token直接流式解码为音频输出。

Qwen3-Omni models

  • Qwen3-Omni-30B-A3B-Instruct:包含 thinker and talker ,支持音频、视频和文本输入,并可输出音频和文本。
  • Qwen3-Omni-30B-A3B-Thinking:包含 thinker ,配备思维链推理功能,支持音频、视频和文本输入,并输出文本。
  • Qwen3-Omni-30B-A3B-Captioner:基于 Qwen3-Omni-30B-A3B-Instruct 微调的下游音频细粒度字幕模型,能够为任意音频输入生成细节丰富、低幻觉的字幕。它包含thinker ,支持音频输入和文本输出。

Introduction

当前多模态的训练会出现一种模态的提升伴随着其他模态的退化,该工作探索在当前主流的基于大语言模型(LLM)的范式下实现集成式多模态训练,证明了联合多模态训练可以在所有模态上实现性能均衡,即不存在模态特异性的性能下降,同时显著增强跨模态能力。关键在于:在文本预训练的早期阶段混合单模态和跨模态数据。

关键:在文本预训练的早期阶段混合单模态和跨模态数据。预训练早期的多模态融合允许语言模型与视觉或音频共同训练,而不会导致语言能力下降;文本模态的加入显著提升了视觉和音频的性能,但从视觉或音频信号中并未观察到语言能力的显著提升;从经验来看,加入音频数据可以持续提升视觉模态在 MMMU 基准和 OCR 相关任务上的表现。

Qwen3-Omni 对 Qwen2.5-Omni的架构进行五项关键升级:

  • Thinker 与 Talker 均升级为 MoE(专家混合)结构,提升模型容量与任务适应性。 
  • 使用自研的 AuT(Audio Transformer)编码器替换Whisper编码器,该编码器在 2000 万小时的有监督音频上从零训练而成,能够提供更强的通用音频表示能力。AuT 使用分块窗口注意力(block-wise window attention),以实现实时的 prefill 缓存。
  • 在语音生成端,引入多码本表示,其更高的表达容量有助于更真实地建模多样化的音色、超语段要素以及声学现象。
  • Talker 从单轨 codec 建模升级为多轨 codec 建模,通过 MTP 模块自回归地预测多个码本层;同时波形生成阶段用轻量级卷积网络(ConvNet)替代了分块式 DiT。
  • 输入与输出音频码率均降低至 12.5 Hz,且输出 codec 支持单帧、即时的语音合成。

此外,还有四个大的改进:

  • 支持超过 40 分钟的长音频理解
  • 扩展语言覆盖范围:支持 119 种书写语言、19 种口语理解语言,以及 10 种口语生成语言;
  • Thinking 模式实现全模态推理,包括音频—视频场景与仅音频场景;
  • 流式性能进一步提升,端到端延迟最低可达 234 毫秒

最核心的是 Qwen3-Omni 在文本与视觉模态上保持了与同规模单模态 Qwen 模型一致的最先进性能,没有出现性能退化

Architecture

  • Thinker 与 Talker 均采用 Mixture-of-Experts(MoE)架构,以支持高并发与快速推理。
  • Talker 不再只使用 Thinker 的高级文本表征,而是基于音频与视觉的多模态特征进行条件建模。其设计动机如下:
    (i) 对于文本内容而言,离散 token 与其 embedding 在信息量上基本等价;
    (ii) 多模态条件对于音频–视频协调的语音生成(例如在语音翻译中保持韵律/音色)是必要的。
    此外,这种解耦使外部模块(如 RAG、函数调用、安全过滤器)能够对 Thinker 的文本输出进行干预,并在需要时通过受控预处理将文本输入给 Talker,用于流式合成
  • 由于文本表征被解耦,Thinker 和 Talker 可以使用不同的系统提示语(system prompts),从而分别控制 Thinker 的文本响应风格与 Talker 的音频生成风格。
  • Talker 采用多码本(multi-codebook)自回归方案:每一步生成一个 codec 帧,剩余的残差码本由 MTP 模块预测完成。
  • Code2Wav 以轻量级因果卷积网络(causal ConvNet)实现,简化了音频合成的最终阶段。

在训练和推理过程中,Talker 直接接收来自 Thinker 的高维多模态特征,并共享完整的对话历史。因此,整个系统作为一个整体运行,实现端到端训练与统一推理。

Audio Transformer (AuT)

Audio Transformer(AuT)是一种注意力式的 encoder–decoder 模型,如图 3 所示,在 2000 万小时的有监督音频数据上从零训练而成。训练过程中,音频的滤波器组特征(filter bank features)在进入注意力层之前,通过 Conv2D 模块进行 8 倍下采样,将 token 速率降至 12.5 Hz。为了学习更强大、更通用的音频表示,AuT 在大规模音频数据集上进行训练,涵盖语音识别与音频理解任务。具体而言,训练数据组成如下:

  • 80% 中文与英文的伪标签 ASR 数据;
  • 10% 其他语言的 ASR 数据;
  • 10% 音频理解数据

为在实时 prefill 缓存效率与离线音频任务性能之间取得平衡,AuT 使用具有动态注意力窗口大小的 flash attention,覆盖从 1 秒到 8 秒的注意力查询模式。将 AuT encoder 用作音频编码器,模型参数约为 0.6B

Perceivation (感知)

Text, Audio, Image and Video (w/o Audio).

Thinker 将文本、音频、图像与无音轨视频转换为一系列可作为输入的表征。文本基于Qwen3文本分词器,语音处理为16 kHz,并将原始波形转换为 128 维 Mel 频谱图,通过AUT编码,每一帧音频表示约对应原始音频信号的 80 ms。视频编码器基于Qwen3-VL 的视觉编码器(SigLIP2-So400m),可同时处理图像与视频输入。为了尽可能保留视频信息并与音频采样率对齐,我们采用动态帧率采样视频帧。

Video and Multimodal Position Embedding (TM-RoPE)

参考Qwen2.5-Omni,使用 时间对齐的多模态旋转位置编码(TM-RoPE),它在多模态旋转位置编码(M-RoPE)基础上加入了绝对时间信息。TM-RoPE 将传统旋转位置编码分解为三个维度:

  • 时间维(temporal)
  • 高度维(height)
  • 宽度维(width)

在原始 M-RoPE 中,时间相关性由前 16 个旋转角建模,这些角对应高频且震荡更强的模式。该设计有利于捕获局部时间变化,但会影响模型对长序列的外推能力。

为解决这一问题,我们重新分配了旋转角数量:

  • 时间维 24 个
  • 高度维 20 个
  • 宽度维 20 个

该分配在局部语义与长程依赖之间实现了更平衡的表示,从而提升整体性能。

TM-RoPE 会根据输入模态的不同进行定制化应用:

  • 文本模态:三个维度共享相同的位置 ID,使 TM-RoPE 等价于一维 RoPE。
  • 音频模态:同样共享位置 ID,并额外加入绝对时间编码,每个时间 ID 对应 80 ms。
  • 图像模态:所有视觉 token 分配相同的时间 ID,而其行列位置分别决定高度与宽度的 ID。

对于音视频输入:

  • 音频:每 80 ms 分配一个时间 ID;
  • 视频:每帧视频根据其真实时间戳分配 递增的时间 ID,动态调整以确保与音频保持 80 ms 分辨率对齐
  • 视频的高度与宽度 ID 与静态图像保持一致。

为避免多模态之间的位置冲突,所有模态的位置编号保持连续,每种模态的起始位置 ID 为前一种模态最大位置 ID 加一。该精细化的位置编码方案使模型能够有效整合并联合建模多模态信息。

相较 Qwen2.5-Omni 的关键区别:不同于 Qwen2.5-Omni 将音视频表示强制切分为固定的 2 秒块,Qwen3-Omni 直接基于绝对时间的时间 ID 对齐多模态表示。这种设计赋予模型处理任意时长流式输入的灵活性。

Speech Generation

在多轮对话的语音合成中,Talker 模块依赖于由 Thinker 组件提供的丰富上下文,该上下文包括历史文本 token多模态表示以及当前轮的流式文本。对长上下文信息的依赖至关重要,因为高保真语音合成需要根据当前对话动态调整声学属性,如韵律、响度和情感,这一原则在上下文感知生成模型中已被充分验证。

在架构上,直接在 RVQ token 上进行操作。Talker 采用层次化预测策略:骨干网络(backbone)输入当前帧的聚合码本特征,并通过线性头预测第零码本,随后多 token 预测(MTP)模块生成所有剩余码本。这一策略使模型能够学习声学细节的完整表示,从而增强语音的表现力。因此,波形重建被简化为轻量级因果卷积网络(Code2Wav),在显著降低推理延迟和计算开销(FLOPs)的同时,相比更复杂的基于 DiT 的声码器实现了更高的音频保真度。

流式与并发设计

在流式视听交互场景中,首包延迟是影响用户体验的关键因素,而模型的并发能力对于降低服务成本和提高响应速度至关重要。下面是 Qwen3-Omni 如何通过算法与架构优化提升并发性并降低首包延迟。

分块预填充与 MoE 架构。在 Qwen3-Omni 中,保留了 Qwen2.5-Omni 中的分块预填充机制,其音频和视觉编码器能够沿时间维度输出分块(chunk)。在实时交互中,ThinkerTalker 模块执行异步预填充:当 Thinker 完成当前块的预填充后,其输出的高层表示会立即异步用于预填充 Talker 的当前块,同时 Thinker 预填充下一块。这种方法显著降低了 Thinker 和 Talker 的 Time-To-First-Token (TTFT)

在架构上,Qwen3-Omni 的 Thinker 与 Talker 均采用 MoE设计,这对于提升服务吞吐量非常有效。与稠密模型相比,MoE 架构在处理长序列时显著降低了 KV 缓存带来的 IO 消耗,从而提高生成过程中的每秒 token 数(TPS)并增强并发性能。

流式多码本编解码生成:为了最小化用户接收首个生成包的等待时间,提出了仅左侧上下文的多码本生成机制。如图 2 所示,一旦 Talker 生成第一个 token,MTP 模块即可预测当前帧的剩余 token,然后由流式多码本编解码器将其解码为波形,该编解码器仅关注左侧上下文。与 Qwen2.5-Omni 需要等待 Talker 生成足够块级上下文才能合成波形不同,Qwen3-Omni 在 Talker 生成每个 token 后即可输出波形,从而显著降低首包延迟。

轻量级 MTP 模块与 ConvNet:MTP 模块和编解码器均为轻量级模块,计算 FLOPs 低,支持批处理推理,非常适合高并发场景。MTP 模块是超轻量级、固定步长的自回归稠密 Transformer,在推理硬件上对内存带宽要求低,从而天然支持高吞吐量请求的批处理。其固定步长自回归推理机制允许高效利用固定 KV 缓存空间加速,实现低延迟推理。同时,基于 ConvNet 的编解码器也能在低延迟下实现高吞吐量,因为其卷积架构在多种推理平台上均有广泛硬件加速支持,并且支持高效的批处理推理。

表 2 给出了 Qwen3-Omni 在典型计算资源下,不同并发场景下的理论首包延迟(first-packet latency)。实验在 vLLM 框架上进行,用于处理并发的视听流,同时对 MTP 模块和编解码器采用了 torch.compileCUDA Graph 加速优化。

首包延迟受到多个因素影响:

  1. Thinker 与 Talker 的模型规模会影响尾包预处理延迟(包括音频和视觉编码器的多模态数据预处理和推理)以及 Time-To-First-Token (TTPT)
  2. MTP 模块与编解码器的架构与规模会影响它们的推理延迟。

由于这些组件之间存在顺序依赖,总体首包延迟是各个延迟的累加。结果显示,Thinker 和 Talker 的 MoE 架构 能确保在高并发下,其预填充延迟和 TTPT 基本不受影响。同时,MTP 模块和编解码器的轻量化设计最小化了计算开销,对首包延迟的影响也很小。

此外,在输出首个数据包后,模型开始进行流式音频合成,由于 Talker 的 token 生成速率为 12.5 Hz,每个 token 即可合成 80 ms 的音频。因此,生成实时因子(RTF)通过以下公式计算:

实验结果表明,RTF 在不同并发水平下始终低于 1,确保用户能够持续接收流式音频响应

Pretraining

Qwen3-Omni 在一个多样化的数据集上进行预训练,该数据集涵盖多种语言和方言(如表 3 所示)以及多种模态,包括图文、视频文本、音频文本、视频音频、视频音频文本以及纯文本语料库。与 Qwen2.5-Omni 使用每个任务单一提示词不同,我们采用更丰富的自然语言提示,以增强模型的泛化能力指令遵循能力。为了在所有模态下实现稳健性能,训练策略从早期预训练阶段就整合了单模态和跨模态数据。

Qwen3-Omni 的预训练分为三个阶段:

  • 编码器对齐阶段:音频和视觉编码器在固定的 LLM 上单独训练,最初重点训练各自的 adapter,随后再训练编码器本身。不采用在冻结 LLM 的情况下联合训练编码器与 adapter 的方法,因为该方法可能导致编码器过度补偿冻结 LLM 的限制,从而降低感知能力。
  • 通用阶段:使用了一个大规模数据集,约含 2 万亿 token,其中文本:0.57 万亿、音频:0.77 万亿、图像:0.82 万亿、视频:0.05 万亿、视频-音频:0.05 万亿。在此阶段,引入更多样化的多模态数据和任务,增强了模型在听觉、视觉、文本及视听信息上的理解与交互能力。
  • 长上下文阶段:最后,将最大 token 长度从 8,192 提升至 32,768,并增加了训练数据中长音频和长视频的比例。实验结果表明,这些调整显著提升了模型对长序列数据的理解能力。

后训练

Thinker

后训练阶段包括对 Thinker 的三阶段训练,使 Qwen3-Omni 具备指令遵循能力。训练数据集采用 ChatML格式,涵盖纯文本对话、视觉模态对话、音频模态对话以及混合模态对话数据。

第一阶段:轻量化监督微调(SFT)
通过有针对性的指令优化,将预训练表示与下游任务需求进行桥接。SFT 有意偏离预训练数据结构,但保持与预训练模型的架构一致,以实现高效的知识迁移,同时保留预训练特征的完整性。

第二阶段:强对弱蒸馏(Strong-to-Weak Distillation)采用 Qwen3中描述的蒸馏流程,包括两个阶段:

  1. 离策略蒸馏(Off-policy Distillation):初期阶段,教师模型生成的输出被整合,用于响应蒸馏。这帮助轻量学生模型掌握基础推理能力,为后续的在线训练奠定基础。
  2. 在线蒸馏(On-policy Distillation):学生模型根据采样提示生成响应序列,随后进行微调,将学生预测的 logits 与教师模型(Qwen3-32B 或 Qwen3-235B-A22B)的 logits 对齐,通过最小化 KL 散度进行优化。

第三阶段:GSPO 强化,利用 GSPO全面提升模型在文本、图像、视频和音频等多模态上的能力和稳定性。针对不同模态使用两类奖励信号:

  • 规则基奖励(Rule-based Reward):用于可验证的多模态任务(如数学、编码、指令遵循),奖励信号源自预定义规则,可高精度评估模型输出的正确性,避免奖励漏洞(reward hacking)。
  • 模型基奖励(Model-based Reward):用于缺乏客观评价指标的多模态任务,采用 LLM 作为评估者(LLM-as-a-judge)协议。通用任务由 Qwen3 担任评估,视觉-语言任务由 Qwen2.5-VL 担任评估。评估过程中,LLM 可获取对应的真实答案或参考答案,以实现更稳健、可靠的评价。

Talker

Talker 采用四阶段训练,使 Qwen3-Omni 能够同时生成文本与语音响应。训练数据统一采用 ChatML 格式,确保与 Thinker 的一致性。

  1. 第一阶段:使用数亿条带多模态上下文的语音数据训练 Talker,建立从多模态表示到语音的单调映射关系。
  2. 第二阶段:进行高质量数据的持续预训练(Continual Pretraining, CPT),缓解第一阶段噪声数据导致的幻觉问题,显著提升语音生成质量。同时进行长上下文训练,增强 Talker 处理长复杂输入并生成语境适配语音的能力。
  3. 第三阶段:构建多语言语音偏好对(preference pairs),通过 直接偏好优化(Direct Preference Optimization, DPO)提升多语言语音生成的泛化能力和系统稳定性。
  4. 第四阶段:对基模型进行说话人微调(speaker fine-tuning),使 Talker 可以采用特定声音,并优化语音自然度、表现力和可控性。

Captioner

字幕生成是多模态理解的基础任务,也是大型多模态模型训练与评估的重要组成部分。然而,现有研究大多集中在视觉字幕生成,较少关注音频模态,而听觉感知是人类感知与交互的重要组成。为弥补这一空白并推动多模态感知研究,我们提出 Qwen3-Omni-30BA3B-Captioner。该模型通过在大规模音频描述数据集上微调 Qwen3-Omni-30B-A3B 得到,可为任意音频输入生成详细、低幻觉的字幕。

Evaluation

对一系列模型进行了全面评估,包括 Qwen3-Omni-30B-A3B-InstructQwen3-Omni-30B-A3B-Thinking 以及两款内部开发的变体 Qwen3-Omni-Flash-InstructQwen3-Omni-Flash-Thinking。这些 “Flash” 模型旨在提升计算效率和性能,同时引入新功能,尤其是对多方言的支持。评估结果分为两大类:理解能力(X→Text)语音生成能力(X→Speech)

X→Text 评估

Qwen3-Omni 理解各种多模态输入(文本、音频、视觉以及视听视频)并生成文本响应的能力。

文本→文本:评估通用任务、推理能力、编码能力、对齐任务、代理(Agent)以及多语言任务。

  1. 表4 :Qwen3-Omni-30B-A3B-Instruct 的性能在多个基准任务中超过 了更大的开源模型 Qwen3-235B-A22B Non-Thinking 以及强大的闭源模型 GPT-4o-0327
  2. 表5:Qwen3-Omni-30B-A3B-Thinking 的表现与 Gemini-2.5-Flash-Thinking 以及Qwen3-235B-A22B Non-Thinking 接近。
  3. Qwen3-Omni-30B-A3B 在文本任务中的表现也与其对应的纯文本模型版本保持一致,包括:Qwen3-30B-A3B-Instruct-2507Qwen3-30B-A3B-Thinking-2507

音频→文本:分为基础音频任务和高级音频任务两类。基础任务包括自动语音识别(ASR)、语音转文本(S2TT)以及音乐理解;高级任务包括语音聊天和音频推理。另外,还评估模型在各种音乐信息检索任务上的能力,如流派识别、情感与主题识别、乐器识别以及音乐关键词标注。

表 6 所示,Qwen3-Omni-Instruct 在 Librispeech、Wenetspeech、Fleurs、CommonVoice、Opencpop-test 以及 MIR-1K(vocal)等数据集上取得了英语与中文 ASR 以及歌词识别的最新最优性能(SOTA)。在多语言 ASR 和 S2TT 任务上,Qwen3-Omni 的表现同样优于或可与其他专业模型或通用模型(如 Voxtral-Small 和 Gemini-2.5-Pro)媲美。这些结果表明 Qwen3-Omni 在语音识别与语音翻译任务上具备非常强的能力。

此外,如表 7 所示,Qwen3-Omni-Thinking 在 VoiceBench 上取得了 89.5 的平均得分,超过了除 Gemini-2.5-Pro(89.6)之外的所有其他音频大模型,展现出优秀的语音交互能力。

在音频推理方面,Qwen3-Omni 同样表现突出:在 MMAU 基准上超越了强大的闭源模型 Gemini-2.5-Pro 与 Gemini-2.5-Flash,在 MMSU 上超过了 Gemini-2.5-Flash 和 GPT-4o-Audio。

表 8 中将 Qwen3-Omni-Instruct 与通用音频语言模型和专业音乐模型进行了比较。Qwen3-Omni-Instruct 在 RUL-MuchoMusic 上取得了最新最优(SOTA)表现。在 GTZAN、MTG-Jamendo 以及 MagnaTagATune 上,Qwen3-Omni-Instruct 的得分也显著超过了其他音频语言模型(包括 Gemini-2.5-Pro 和 GPT-4o-Audio),并超过了在这些数据集上测试的多种自监督音乐专业模型。

视觉→文本:通用视觉问答能力、数学与 STEM 推理能力、文档理解能力、数值推理与计数能力、动态视觉数据理解能力。将 Qwen3-Omni-InstructQwen2.5-VL-72B 以及其他表现优异的闭源视觉语言模型进行了对比。如表 9 所示,Qwen3-Omni-Instruct 的整体表现与 Qwen2.5-VL-72B 相当,并且在 数学与 STEM 相关任务(如 MMMU-Pro overall、MathVista mini、MATH-Vision full)上取得了优于 GPT-4o 和 Gemini-2.0-Flash 的成绩。

Qwen3-Omni-Thinking 与多种最先进推理模型进行了比较。
表 10 的结果显示,我们提出的模型取得了显著的性能提升。例如,在 数学与 STEM 基准 上,它比 Qwen3-Omni-Instruct 基线提升了 4.4 个点
值得注意的是,Qwen3-Omni-30B-A3B-Thinking 的性能已经可与规模更大的模型相媲美,展现了在 性能与计算效率之间的优秀平衡

然而,该模型仍存在一个限制:在 长视频任务 上表现不佳。原因:1、位置外推能力有限(positional extrapolation)2、上下文长度受限

音视频→文本:在 WorldSense 进行基准测试以及两个视听推理基准进行测试。在 通用理解任务 中,Qwen3-Omni-Instruct 在 WorldSense 基准上实现了当前最佳性能,并以显著优势超越了其他 Omni 模型。该结果表明其在基础多模态信息融合方面具有卓越能力。

X→Speech 评估

评估主要集中在给定文本条件下的语音生成,即与文本到语音(TTS)任务的相似性,评估内容包括以下三个方面:

  • 零样本语音生成:内容一致性(WER,字错误率)和说话人相似性(SIM)方面的表现
  • 多语言语音生成:评估模型在零样本条件下生成多语言语音的内容一致性与说话人相似性。
  • 跨语言语音生成:评估模型在零样本条件下进行跨语言语音生成的内容一致性。

零样本语音生成:

如表 13 所示,Qwen3-Omni 展现了 高度竞争力的性能,凸显了其通过预训练及持续预训练所获得的稳健语音理解与生成能力。此外,通过 强化学习(RL)优化,Qwen3-Omni 在语音生成的稳定性方面也取得了显著提升,并在 test-en 数据集上达到了最佳性能。

多语言语音生成:

Qwen3-Omni 支持跨 10 种语言 的语音生成。我们将其性能与 MiniMax-SpeechElevenLabs Multilingual v2 模型在多语言语音生成任务上进行了对比。

如表 14 所示,Qwen3-Omni 在 中文、英文和法语 等语言上显著超越了其他模型,并在其余语言中取得了具有竞争力的结果

跨语言语音生成评估:Qwen3-Omni 在 any-to-en(任意语言到英语)any-to-ko(任意语言到韩语) 的语音克隆任务中均优于 CosyVoice3。在 any-to-ja(任意语言到日语) 任务中,即便 未进行文本规范化,Qwen3-Omni 仍能达到与 CosyVoice3 相当的性能,而 CosyVoice3 会将所有日语字符转换为假名(kana)。

跨模态性能不退化评估

由于不同模态的异质性,每种模态都需要不同的预训练目标和优化技术,因此采用标准化的数据整合方法变得不切实际。为了确保公平而严格的评估,我们设计了一个 受控对比实验。具体方法如下:我们预训练了三个参数量匹配的模型:仅文本基线模型(text-only baseline)、仅视觉基线模型(vision-only baseline)以及多模态 “Omni” 模型。为了隔离多模态效应,所有潜在的混淆变量都得到了精确控制。具体而言,Omni 模型使用与单模态基线相同的文本和视觉语料进行训练。此外,我们在所有模型间对关键训练参数进行了对齐,包括学习率策略、批大小以及每种模态的有效训练轮数(通过调整数据采样比例进行归一化)。因此,本实验中唯一的区别在于 Omni 模型在预训练阶段加入了额外的音频和视听数据。

如表 16 所示,我们评估了涵盖多种模态的综合基准,包括:文本模态(通用任务、数学与 STEM 任务、编程任务、多语言任务)、视觉模态(大学水平问题、OCR 相关任务)以及视频模态(视频理解任务)。实验结果表明:

  1. 在文本预训练的早期阶段混合单模态与跨模态数据,可以在所有模态上实现更优性能;
  2. 联合多模态训练能够促进不同模态之间的相互增强,从而提升单模态的表现;

这充分展示了 Qwen3-Omni 在多样化评估标准下的通用性与稳健性

根据表 16 及内部实验结果,我们观察到以下规律:

  1. 预训练早期的多模态融合允许语言模型与视觉或音频共同训练,而不会导致语言能力下降;
  2. 文本模态的加入显著提升了视觉和音频的性能,但从视觉或音频信号中并未观察到语言能力的显著提升;
  3. 从经验来看,加入音频数据可以持续提升视觉模态在 MMMU 基准和 OCR 相关任务上的表现。

结论:

Qwen3-Omni 是一个里程碑:据我们所知,它首次提供了证据表明,完全整合的端到端多模态训练可以在不降低核心语言能力和其他模态表现的情况下实现。我们希望与学术社区分享这些成果,并期待能够激发更多相关研究。

未来工作中,我们计划在多个方向进一步推进模型发展,包括多说话人语音识别(multi-speaker ASR)、视频 OCR、视听主动学习,以及增强对基于代理(agent)工作流和函数调用的支持。

相关知识补充:

  1. 关于 Flash Attention原理详解
  2. deepseek技术解读(2) – MTP(Multi-Token Prediction)的前世今生
Deepseek MTP实现

Step-Audio-EditX

Step-Audio-EditX —— 全球首个基于大语言模型(LLM)的开源音频编辑模型,能够在语音的情感、说话风格和副语言特征(如语气、语速、语调等)上实现高度富有表现力且可迭代的编辑,同时具备强大的零样本文本转语音(TTS)能力

核心创新在于:模型仅依赖大间隔(large-margin)合成数据进行训练,无需使用嵌入先验或辅助模块。这种大间隔学习策略使模型能够在多种音色上实现可迭代控制与高表达力,并从根本上区别于传统聚焦于表示层面解耦的思路。实验结果表明,Step-Audio-EditX情感编辑和其他细粒度语音控制任务上均超越了 MiniMax-2.6-hd 和 Doubao-Seed-TTS-2.0

当前 TTS 的问题:由于合成语音中的情感、风格、口音和音色等属性仍然直接来源于参考音频,限制了对这些属性的独立控制,另外,对于克隆语音通常无法有效地遵循提供的风格或情感指令。

许多以往关于语音解耦的研究依赖以下方法来实现属性分离:对抗式训练、特征工程以及创新的网络结构设计。相比之下,文章提出了一种简单但稳定的数据驱动方法。具体来说,我们设计了一条数据生成流程,用于构建高质量的数据对,这些数据对在保持完全相同语言内容的同时,在情绪、说话风格、口音、副语言特征等一个或多个属性上具有明显可区分的差异。通过在这样的数据对上训练模型,能够实现有效的属性解耦,使模型能够对输入语音的属性进行编辑。此外,通过多次迭代的“编辑”步骤,目标属性的强度可以被逐步增强或减弱。除了情绪、风格和副语言特征编辑之外,该方法可以扩展到其他任务,包括语速调整、语音去噪以及静音片段裁剪等。

主要贡献:

  • Step-Audio-EditX,这是首个基于大语言模型(LLM)的开源音频模型,擅长富有表现力且可迭代的音频编辑,涵盖情绪、说话风格和副语言特征,并具备强大的 zero-shot TTS 能力。
  • 实验结果表明,仅通过大间距(large-margin)数据的后训练,即可实现对情绪和说话风格的可控调节,无需额外的呈现建模或适配器模块。
  • 使用大间距数据进行后训练不仅能够实现可迭代的控制与高度的表达能力,而且在跨说话人场景下同样有效,这标志着从传统的基于表征层的解耦方法向新的范式转变。

Architecture

Prompt Text:任务提示/prompt音频对应的文本
Target Text:带合成的音频文本

基于 Step-Audio 中的音频编辑合成模型,主要改进包括扩展了情感和语音风格的范围,增加了零样本文本转语音 (TTS) 和副语言编辑功能,并将模型参数从 130B 减少到 3B。

系统由三个主要组件组成:

  1. 双码本音频分词器:将参考音频或输入音频转换为离散的 token;
  2. 音频大语言模型:生成双码本 token 序列;
  3. 音频解码器:使用流匹配(flow matching)方法,将音频 LLM 预测的双码本 token 序列转换回音频波形。

Audio Tokenizer:采用并行语言分词器(16.7 Hz,1024 码本)和语义分词器(25 Hz,4096 码本),交错比例为 2:3。观察到双码本分词器能够保留大量情感、韵律及其他非语言信息,这表明该方法在信息解耦方面仍不够理想,这一不足恰好使其非常适合作为验证LLM 后训练策略及所提出的大间隔数据驱动方法有效性的实验对象。

Audio LLM:为了充分利用预训练文本 LLM 的强大语言处理能力,3B 模型首先使用基于文本的 LLM 进行初始化,然后在文本数据与音频双码本token以 1:1 比例混合的数据集上进行训练。音频 LLM 以聊天格式处理文本token及其对应的双码本音频token,最终生成双码本token作为唯一输出。

Audio Decoder:音频解码器由 Flow Matching 模块和 BigVGANv2声码器组成。Flow Matching 模块在输出音频令牌、参考音频以及说话人嵌入(speaker embedding)作为条件下生成 Mel 频谱图,而 BigVGANv2 声码器则进一步将 Mel 频谱图转换为音频波形。对于 Flow Matching 模块,采用扩散变换器(DiT)作为骨干网络,并在 20 万小时高质量语音上训练该模型。

Data

SFT 数据:零样本 TTS、情感编辑、说话风格编辑以及副语言编辑。

  1. 零样本文本转语音:中文和英文以及少量粤语四川话的内部数据,总计约 60,000 个独立说话人
  2. 情感与说话风格编辑:高质量数据难以收集,提出简单高效的大边距合成数据方法

该方法在同一说话人之间进行零样本语音克隆,覆盖不同的情感和说话风格,同时确保对比样本对之间具有足够大的差距。仅需 每种情感或风格的一个提示音频片段,避免了昂贵的数据收集成本。此外,该方法巧妙地将复杂的情感与风格描述 转换为基于比较的样本对构建格式。具体方法如下:

  • 声优录音:声优录制表达丰富的情感和说话风格。对于每位声优,每种情感和风格组合录制约 10 秒 的音频片段。
  • 零样本克隆:对于每种情感和说话风格,构建三元组 ⟨文本提示, 中性音频, 情感/风格音频⟩。通过选择同一说话人的对应中性与情感/风格音频作为提示音频,并使用 StepTTS 语音克隆接口 处理,文本指令描述目标属性。
  • 边距评分(Margin Scoring):为评估生成的三元组,我们使用一个小型人工标注数据集训练评分模型。该模型对音频对进行 1-10 分评分,边距分数越高表示效果越理想
  • 边距选择(Margin Selection)根据边距评分阈值筛选样本。该阈值会根据不同情感和风格进行调整,通用下限设为 6 分。

3. 副语言编辑(Paralinguistic Editing)

副语言 如呼吸、笑声以及填充停顿(例如“嗯”),对于提升合成语音的自然度和表现力至关重要。通过使用 “半合成”策略 实现了副语言编辑能力,该策略利用 NVSpeech 数据集——一个表现力丰富的语音语料库,其对多种副语言类型进行了详细标注,从而使得构建用于模型训练的比较四元组成为可能。

四元组 ⟨text_without_tags, audio_without_tags, text_nv_source, audio_nv_source⟩ 的构建方式不同于三元组:它使用 NVSpeech 的 原始音频和转录文本 作为目标输出,而将通过 StepTTS 语音克隆生成的音频作为输入,该音频是基于去除副语言标注后的原始转录文本合成的。

由于副语言编辑是 在时间域上进行的编辑任务,且存在显著的内在边距差异,因此 数据选择不需要边距评分模型。只需一小部分四元组数据,即可有效激发模型的副语言编辑能力。

强化学习数据:基于人工标注,以及使用 LLM-as-a-Judge(大型语言模型作为评判) 方法

人工标注:收集用户提供的真实世界的 提示音频 及对应文本提示,然后使用 SFT 模型生成 20 个候选响应。接着,通过人工标注员根据 正确性、韵律和自然度 对每个响应进行 5 分制评分,构建 选择/拒绝对。仅保留评分边距大于 3 的样本对。

LLM-as-a-Judge:使用理解能力模型对模型响应的 情感和说话风格编辑 进行 1-10 分评分,再根据评分生成偏好对,并仅在最终数据集中保留 评分边距大于 8 分 的样本对。

经过筛选的大边距样本对将用于训练 奖励模型PPO

训练

两阶段:SFT,然后进行 PPO

SFT 阶段通过在 聊天格式下使用不同系统提示来增强模型的零样本文本转语音合成与编辑能力。

  • 在零样本 TTS 任务中,提示音频被编码为 双码本tokens,随后将其解码为字符串形式,并嵌入到系统提示的说话人信息中。待合成文本作为 用户提示,生成的双码本 tokens 则作为系统响应返回。
  • 对于编辑任务,所有操作在统一的系统提示下定义。用户提示包含 原始音频 及编辑操作的描述性指令,系统响应则返回 编辑后的音频 tokens

模型在 SFT 阶段训练 1 个 epoch,学习率范围从 1 × 10⁻⁵ 到 1 × 10⁻⁶

强化学习用于提升模型在 零样本 TTS 的稳定性,以及在执行编辑指令时的能力和表现力。当 源提示音频与目标编辑输出在情感或风格上存在显著差异 时,这种提升尤为明显,例如将快乐语音生成悲伤语音,或将高音量语音转换为耳语。

该强化学习方法提供了一种新的思路:不再单纯追求理想的语音表示解耦,而是同时优化大边距样本对的构建与奖励模型的评估效果

奖励模型从 3B SFT 模型 初始化,并使用 人工标注数据与 LLM-as-a-judge 生成的大边距数据 进行训练,优化方法采用 Bradley-Terry 损失

  • 模型为 token 级奖励模型,直接在大边距双码本 token 对上训练,无需在奖励计算过程中通过音频解码器将 token 转回波形。
  • 模型训练 1 个 epoch,学习率采用 余弦衰减策略(cosine decay),初始值为 2 × 10⁻⁵,下限为 1 × 10⁻⁵

PPO 训练:获得奖励模型后,使用 PPO 算法 进行进一步训练。训练使用与奖励模型训练相同的提示种子,但只选择 对 SFT 模型最具挑战性的提示

  • 在 PPO 阶段,critic 先预热 80 步,随后再训练执行者(actor)。
  • 优化器初始学习率为 1 × 10⁻⁶,遵循余弦衰减策略,下限为 2 × 10⁻⁷
  • 使用 PPO 剪切阈值 ϵ = 0.2,并施加 KL 散度惩罚系数 β = 0.05

Evaluation

情感与说话风格编辑结果: 如表 1 所示,在 Iter0 音频进行首次编辑后,情感和说话风格的准确率都有显著提升。此外,经过连续迭代编辑后,情感和说话风格的准确率进一步增强。

闭源模型上的泛化能力:Step-Audio-EditX 首次编辑 后,所有声音模型的情感和风格准确率均显著提升。经过接下来的两轮迭代,准确率进一步增强,从而有力证明了本模型的 强泛化能力

闭源模型上的情感控制,Step-Audio-EditX 在零样本克隆能力下展现出 更高的情感准确率,优于其他两款模型。仅经过 一次编辑迭代,所有音频样本的情感准确率均显著提升。将一次情感编辑迭代应用于零样本克隆音频,其效果 超过了闭源模型原生情感控制功能生成的结果

副语言编辑: 如表 4 所示,在仅进行一次编辑迭代后,通过加入副语言标签(paralinguistic tags),模型在副语言元素的重建与插入方面取得了显著性能提升。实验结果表明:经过一次 Step-Audio-EditX 的副语言编辑后,生成的副语言效果已经可与闭源模型使用原生副语言标签直接合成的结果相媲美,展现出强大的泛化能力与编辑一致性。

扩展能力

语速编辑:构造了三元组⟨text, audiosource, audiofaster/slower⟩,其中针对同一说话人,通过 SoX 工具包 的受控速度扰动生成快/慢版本音频。由于语速变化会显著改变 token 序列长度,仅使用 SFT 即可实现有效的语速编辑

去噪与静音剪裁:基于生成式的方法,实现提示音频和合成音频的定向编辑,包括去噪静音剪裁

去噪(Denoising)构造三元组:⟨text, audioaugment, audiosource⟩其中 audiosource 为干净音频(ground truth),audioaugment 通过添加噪声与混响模拟生成。

静音剪裁(Silence Trimming)构造三元组:⟨text, audiosource, audiotrimming⟩audiosource 含有静音片段,audiotrimming 则通过 Silero-VAD 提取语音区间后拼接生成。

FunAudio-ASR 语音识别大模型-解决幻觉/语种混淆,支持热词

个人一些看法:1、关于语种混淆问题,目前的语音识别大模型确实存在较为严重的语种混淆,一般可以通过指定语种缓解该问题。 FunAudioLLM 提出的将CTC 的第一遍解码结果作为 Prompt 输入给 LLM,可以有效缓解该问题,这个后面可以尝试下,但个人感觉CTC能力可能不会很强,技术报告中说的CTC本身发生串语种的概率极低,这个个人表示存疑。另外关于语种混淆,感觉跟LLM本身翻译能力可能无关,应该是部分语种某些发音以及说话人发音不规范导致语种识别错误。2、对于“幻觉”问题,可以通过加入纯噪声/纯背景声进行训练。3、热词这块结合RAG,确实是个好的办法,毕竟直接注入上千的热词势必会对模型的识别产生不可控的影响,通过检索增强生成,只将少量相关性高的热词进行注入,可以避免无关信息干扰,但关键是如何利用ctc的粗解码结果检索出相关的热词,做到不漏检。4、ASR性能提升的核心还是数据,论文中无论是优化抗噪能力/幻觉问题/热词能力/混合中英语言等,基本上都依靠设计生成对应的高质量的数据!!!5、关于语音编码器的训练范式和数据量:自监督+监督学习,上千万小时的训练数据。

阿里巴巴通义实验室推出了FunAudio-ASR端到端语音识别大模型。这款模型通过创新的Context模块,针对性优化了“幻觉”、“串语种”等关键问题,在高噪声的场景下,幻觉率从78.5%下降至10.7%,下降幅度接近70%。FunAudio-ASR使用了数千万小时的音频数据,融合了大语言模型的语义理解能力,从而提升语音识别的上下文一致性与跨语言切换能力。

Abstract

FunAudio-ASR,一个结合大规模数据、超大模型、LLM整合和强化学习的先进ASR系统。该系统不仅在复杂语音场景中实现了最先进的识别性能,还通过针对实际部署的优化增强了流式处理、噪声鲁棒性、混合语言【中英】、和热词自定义能力,验证了其在真实应用环境中的高效性和可靠性。

Introduction

数据规模扩展模型规模扩展以及与大型语言模型(LLM) 共同推动ASR系统的能力提升:

  • 数据规模扩展被证明是ASR提升的基础驱动力;
  • 模型规模扩展,尤其是模型参数数量的增加,进一步放大了数据规模扩展的优势;
  • 与LLM的深度整合代表了ASR方法论的一次范式转变,不再将ASR视为独立任务,而是利用LLM丰富的语言知识和上下文理解能力来增强语音识别,例如,Seed-ASR和FireRedASR展示了引入LLM可以显著提升ASR性能,尤其在解决语义歧义和生成更连贯、上下文更合理的转录结果方面表现突出。这些模型有效地弥合了语音理解与文本理解之间的鸿沟。

FunAudio-ASR ,这是一个基于 LLM 的大规模 ASR 系统,可在大规模数据上进行训练。FunAudio-ASR 具有以下关键特性:

  • 规模化与创新性LLM整合。
  • 最先进的语音识别准确率。通过在数据规模、模型规模以及与LLM的创新架构整合方面的协同进展,FunAudio-ASR在多语言和多声学领域实现了前所未有的识别准确率,确立了ASR系统的新一代最先进水平。
  • 面向实际生产的优化。经过精心设计,以满足真实部署场景的复杂需求:
  1. 高效流式ASR架构:FunAudio-ASR采用高度高效的流式识别架构,支持低延迟实时处理,可无缝集成到视频会议、实时字幕和语音控制设备等应用中。
  2. 噪声鲁棒性增强:通过多阶段方法,显著提升系统在嘈杂环境下的识别能力。
  3. 先进的混合语言处理能力:能够在同一句话中无缝处理中英文切换这对于全球商业环境中的多语言用户至关重要。
  4. 可定制的热词识别允许用户定义特定领域的术语或短语,以提高识别准确率。该功能在医疗、企业及汽车技术等专业领域尤为有价值。

Model Architecture

FunAudio-ASR由四个关键组件组成:

  1. 音频编码器(Audio Encoder):用于从输入语音中提取特征表示,采用多层Transformer编码器实现。
  2. 音频适配器(Audio Adaptor):用于将音频编码器的输出与LLM连接,采用两层Transformer编码器实现。
  3. CTC解码器(CTC Decoder):基于音频编码器构建,用于生成初步识别参考,该参考将用于热词自定义。
  4. 基于LLM的解码器(LLM-based Decoder):在音频条件和CTC预测的基础上生成最终输出。

提出了两种不同规模的模型:FunAudio-ASR [0.7B参数的编码器7B参数的LLM解码器]和 FunAudio-ASR-nano[0.2B参数的编码器0.6B参数的LLM解码器],用以满足不同的计算资源约束和推理效率需求

Data【核心】

Pre-taining Data

预训练数据集包括约数千万小时的音频数据,涵盖无标注音频和带标注的音频-文本数据。无标注音频覆盖了人工智能、生物技术、电子商务、教育、娱乐、金融、交通等领域的广泛真实场景。对于带标注的数据,采用了完整的数据处理流程,包括:

  1. 语音活动检测(VAD),识别语音片段;
  2. 多系统伪标签生成,利用多种ASR系统(如 Paraformer-V2、Whisper 和 SenseVoice生成伪标签;
  3. 逆文本正则化(ITN)将文本恢复为标准化格式。

带标注数据的主要语言为中文和英文。

Supervised Fine-tuning Data

有监督微调(SFT)数据规模约为数百万小时,具体包括以下几类:

  1. 人工转写数据:由人工标注的高质量语音转写。
  2. 伪标签数据:由ASR系统自动生成的标注数据。
  3. 环境噪声数据:覆盖各种真实噪声场景。
  4. CosyVoice3生成的TTS数据:由TTS合成的补充语音数据。
  5. 流式模拟数据:用于优化实时流式识别能力。
  6. 噪声增强数据:通过数据增强方法引入不同类型的噪声。
  7. 热词定制数据:支持特定领域和应用场景的热词识别。

Training

Pre-training of Audio Encoder

为了开发一个强大而有效的音频编码器,以便集成到基于 LLM 的 ASR (LLM-ASR) 系统中,采用了自监督+监督学习结合的方法如上图所示,通过利用自监督学习和监督学习范式来生成高质量的语音表示,并使其能够与 LLM 中的语言知识有效匹配。

Stage 1: 基于Best-RQ的自监督学习训练encoder

Best-RQ是一种先进的语音表示学习方法,它通过对语音单元进行掩码和重建,并利用量化模块将连续表示离散化,从而在不依赖标注数据的情况下学习通用语音表示,使其能够大规模扩展到海量无标注音频数据。

创新点在于 初始化策略:发现预训练文本LLM的层可有效用于ASR系统编码器的初始化。使用 Qwen3模型的部分层参数来初始化Best-RQ编码器。该跨模态初始化策略的假设是:LLM中蕴含的深层语言与语义知识能够为语音表示学习提供有益的归纳偏置实验表明,与随机初始化相比,采用预训练文本LLM进行初始化可以显著加快训练收敛速度,并提升所学习语音表示的质量。

补充关于语音encoder的训练:

SeedASR也使用自监督学习进行预训练,特点是contrastive-loss[对比损失]和 codebook-diversity-loss去训练模型的speech representation和codebook。

Seed-ASR endoer training

Best-RQ的自监督学习方法:为了使用类似BERT的方式自监督训练语音识别,需要把语音连续的语音信号搞成类似文本text这样的离散的token,常用的手段是通过学习语音表征的方法,BEST-RQ使用一个离散的随机量化器来近似的表示连续的语音信号这个随机的量化器训练阶段是固定不变的,这样就不用再像wav2vec 2.0中使用contrastive-loss[对比损失]和 codebook-diversity-loss去训练模型的speech representation和codebook。

主要特点在于:不在使用contrastive loss去学习音频表征(无contrastive-loss),极大简化了SSL训练的过程,并且因为量化器是随机初始化并固定的,因此codebook和训练的encoder模型解耦了。

BEST-RQ 训练范式

Stage 2: 基于encoder-decoder (AED) 进行 Supervised pre-training 

参考SenseVoice-Large的训练方法,编码器在大规模标注的 ASR 数据集上进行端到端训练,使用标准的序列到序列学习目标。目标是获得一个从转录语音数据中学习到丰富的声学和语言特征的编码器,训练好的该编码器将用于初始化下游 LLM-ASR 系统中的音频编码器。

通过上述预训练阶段,减少了从头开始进行大量低级特征学习的需要,从而加速了训练收敛。

Supervised Fine-tuning

监督微调(SFT)包括四个连续的阶段:

阶段 1保持预训练的音频编码器和 LLM 参数冻结,仅训练适配器模块,使音频编码器的输出表征能够与 LLM 的语义空间对齐。本阶段的训练数据约为 20 万小时

阶段 2:依然冻结 LLM 参数,同时训练音频编码器和适配器模块,以学习更好的语义表征。本阶段使用约 1000 万小时的低成本 ASR 训练数据,并训练 1 个 epoch

阶段 3冻结音频编码器和适配器模块,仅使用 LoRA(低秩适配)更新 LLM 参数LoRA 微调的目的是在保持模型文本生成能力的同时,缓解对预训练知识的灾难性遗忘。本阶段使用 2 万小时的 ASR 数据

阶段 4对音频编码器和适配器进行全参数微调,同时对 LLM 采用 LoRA 进行微调。在此阶段,仅使用 高质量数据 300 万小时语音)。这些转录数据由 Whisper-Large-V3、FireRed-ASR 和 SenseVoice 三个不同的 ASR 模型进行评估

阶段 5:如图 2 所示,我们在音频编码器之上添加了一个 CTC 解码器。在该训练阶段,音频编码器保持冻结,仅训练 CTC 解码器该 CTC 解码器通过 贪心搜索(greedy search)生成初始识别假设。随后,这个一次性解码结果被用于 检索增强生成(RAG),以获取上下文信息。

此外,通义实验室发现,给语音大模提供必要的上下文,可以减少文本生产时候的幻觉现象。为此,设计了 Context 增强模块该模块通过 CTC 解码器快速生成第一遍解码文本,并将该结果作为上下文信息输入 LLM,辅助其理解音频内容。由于 CTC 结构轻量且为非自回归模型,几乎不增加额外推理耗时。此外,观察到幻觉问题在高噪声场景中更易发生,因此在训练数据中加入了大量仿真数据。我们构建了一个包含 28 条易触发幻觉音频的测试集,经优化后,幻觉率从78.5% 下降至 10.7%。 

 上下文监督微调

作为 内容先验(content prior),上下文信息可以有效帮助模型在 ASR 任务中

  1. 识别关键文本内容从易混淆的发音中消除歧义
  2. 提高长时连续语音识别的准确性尤其在复杂场景下表现显著

因此,在完成 SFT 训练后,我们进一步在 具有上下文信息和长时语音 的数据上训练 FunAudio-ASR,以增强其 上下文建模能力

  • 音频样本的时长可达 5 分钟
  • 对于较长的样本,我们将其进行切分,并将前一段的转录文本添加到当前音频段的前面,作为提示(prompt)。

由于高质量上下文音频数据严重匮乏,通过以下步骤构建了 超过 5 万小时的带上下文内容的 SFT 数据

步骤 1:关键词提取。为了生成与当前对话内容相关的上下文信息,我们首先使用 Qwen3-32B从转录文本中提取关键词。关键词通常包括实体、专业术语以及特定时间段等,这些是 ASR 系统容易识别错误或遗漏的词汇。

步骤 2:相关上下文生成。利用 Qwen3-32B 模型生成上下文内容:

  • 给定当前对话内容和提取出的关键词,提示 Qwen3-32B 合成多个、多样化的上下文内容,这些内容应与口语对话特征相符。
  • 对合成的上下文内容,通过 关键词匹配 筛选,剔除未包含指定关键词的片段
  • 如果在第一步中未提取到任何关键词,则仅根据当前对话内容提示 LLM 合成上下文

步骤 3:无关上下文混合。为了防止模型对上下文过度依赖,从数据集中为每条对话随机抽取 五条无关上下文片段,并与生成的相关上下文混合,形成最终的上下文 SFT 训练数据。

Reinforcement Learning

设计了 FunRL,一个专为 大规模音频-语言模型(LALMs) 定制的高效强化学习(RL)框架。与文本 LLM 不同,作为 LALM 的 FunAudio-ASR 包含一个音频编码器,用于将语音转换为嵌入向量,而现有的 RL 框架或 Trl原生并不支持这一组件。

如图 4(a) 所示,FunRL 使用 Ray 协调音频编码器、rollout 和策略模块,使它们能够交替使用 GPU 资源:

  1. 音频编码器推理阶段
    • 将所有输入音频批量处理,通过基于 Torch 的编码器提取音频嵌入。
    • 提取的嵌入从 GPU 转移到 CPU。
  2. SGLang LLM Rollout
    • GPU 控制权转交给 SGLang Rollout 模块,根据音频嵌入和指令文本 token 生成多个假设序列。
    • 每个假设根据预定义规则分配奖励(奖励规则将在后文详细说明)。
  3. FSDP LLM 策略优化
    • 利用音频嵌入和生成的假设序列计算输出概率,并通过 RL 进行策略优化。
    • 每次更新后,将优化后的策略同步回 Rollout 模块,保证 RL 过程保持 on-policy

我们在 8 块 A100 GPU 上评估了 FunRL 的训练效率(如图 4(b)):

  • 对大约 1 小时输入音频,每个训练步骤约需 54.6 秒,对应实时因子(RTF)约为 0.015
  • 如图 4(b) 所示,SGLang Rollout 阶段占据了大部分计算时间,而设备切换开销仅占总时间的不到 6%。

这表明 FunRL 的交替 GPU 利用策略非常高效,使其成为 大规模音频-语言模型 RL 训练的可扩展且有效的解决方案

GRPO-based RL for ASR

基于 FunRL 框架,对 FunAudio-ASRGRPO(Generalized Reinforced Policy Optimization) 强化学习算法进行了增强。

策略优化采用 裁剪目标(clipped objective) 并直接施加 KL 惩罚项(KL penalty term)

我们观察到,当 WER(词错误率) 被用作值函数时,GRPO 与 最小词错误率(MWER, Minimum Word Error Rate) 方法非常相似,MWER 是 ASR 社区广泛采用的优化标准。在本文中,我们进一步设计了一组新的值函数 {Rk(yi,yi)}k=1K,以同时提升 ASR 性能和用户体验:

  1. ASR 准确率(R1i
    • 为直接优化识别质量,我们以 1−WER(y∗,y) 作为基础值函数,其取值范围为 [0,1]。
  2. 关键词准确率与召回率(R2i
    • 由于关键词对用户体验影响显著,我们将 关键词召回率 作为奖励组件。每条语音的关键词可通过人工标注或 LLM 自动识别获得。
    • 仅使用召回率可能会增加插入错误,因此我们同时加入 关键词准确率,以平衡精度与召回。
  3. 噪声鲁棒性与幻觉抑制(R3i
    • 在 LLM ASR 系统中,幻觉(hallucination)是常见问题,尤其在嘈杂环境下。
    • 为缓解这一问题,通过正则表达式匹配检测幻觉内容,并按幻觉片段长度施加惩罚。
  4. 语言一致性(R4i​)
    • 某些情况下,模型可能错误生成语音翻译而非转录。
    • 为保证语言一致性,如果输出语言与源语言不匹配,则最终奖励设为 −1

R4i外,所有函数结果会求和得到最终的 Ri​。虽然 R2iR4i的效果在一定程度上可由 ASR 准确率反映,但实验结果表明,加入这些规则能显著改善用户体验,并在困难样本上降低 WER。

构建 RL 训练数据

针对应用场景中的实际问题,我们采用以下方法构建一个小但高质量的 RL 训练数据。

困难样本(Hardcase Samples)

  • 收集大量未标注语音,并使用 FunAudio-ASR(上下文 SFT 后) 以及其他三个独立 ASR 系统(Whisper、FireRed-ASR、SenseVoice)进行转录。
  • 当三个外部系统输出一致(WER < 5%),但与 FunAudio-ASR 差异显著(WER > 10%)时,将该样本识别为 困难样本,并纳入 RL 训练集。

长时语音样本(Long-duration Samples)

  • 选择时长超过 20 秒 的音频片段,以提升模型对长语音输入的识别能力。
  • 现实应用中长语音常见,但训练数据中比例不足(<10%)。

幻觉相关样本(Hallucination-related Samples)

  • 特别包括基础模型出现幻觉的语料,例如输出明显长于真实文本或出现重复片段
  • 同时加入参考转录中存在长重复词或短语的语句,这类样本与幻觉类似,但是真实存在,用于帮助模型区分 真实模式虚假模式

关键词与热词样本(Keyword and Hotword Samples)

  • 对于没有预设热词的语句,使用 Qwen-2.5 7B 识别显著关键词。
  • 热词特定训练中,将参考转录中的热词作为目标关键词。

常规 ASR 数据(Regular ASR Data)

  • 包含部分标准 ASR 数据,以缓解 灾难性遗忘,并在 RL 训练中保持通用识别性能。

面向生产的优化

Streaming Ability

为了增强大规模音频语言模型 FunAudio-ASR流式识别能力,我们构建了 流式训练数据,显式模拟流式解码过程,从而减少训练与推理之间的不匹配。

具体方法如下:

  1. 从离线训练语料中抽取一个子集。
  2. 将训练语料转化为 增量分块输入(incremental, chunked inputs),每个块仅暴露过去的上下文信息。
  3. 将这种模拟流式训练数据与原离线训练数据结合进行微调,从而提升模型在流式解码场景下的性能。

Noise Robust Training

鉴于现实部署场景的多样性,FunAudio-ASR 必须在 复杂声学环境(如餐厅、火车站、商场等)下保持可靠性能,且不出现显著性能下降。然而,要构建一个能完整覆盖真实噪声环境复杂性和多样性的语料库几乎不可能。

为应对这一挑战,我们采用了 大规模噪声数据增强策略

  1. 从内部语料库中选择约 11 万小时低噪语音1 万小时噪声样本
  2. 将它们组合生成约 11 万小时离线模拟噪声语音,平均信噪比(SNR)为 10 dB,标准差为 5 dB。
  3. 为进一步提升数据多样性,随机选择 30% 训练语音 进行 在线数据增强,在训练过程中混入环境噪声。

通过这种综合性的噪声鲁棒性训练策略,在复杂噪声评估集上平均实现了约 13% 的相对性能提升

多语言 ASR

不同语言的训练数据可用性差异显著。资源丰富的语言,如 中文(普通话)英语,数据充足;而 越南语泰语 等语言的数据相对有限。

FunAudio-ASR 的主模型为中文-英语模型。为提升多语种 ASR 性能,我们训练了额外的 多语种 FunAudio-ASR 模型(FunAudio-ASR-ML),支持以下语言:

  • 中文(普通话)
  • 英语
  • 越南语
  • 泰语
  • 印尼语

训练策略如下:

  1. 对中文和英语数据进行 下采样,减少过度占比。
  2. 对越南语、泰语和印尼语数据进行 上采样,平衡数据分布。
  3. 多语种数据集总量约 50 万小时音频
  4. 训练方法与中文-英语 FunAudio-ASR 模型相同。

混合语音(code-switched)

混合语(code-switched)语音的识别一直是 ASR 的挑战。为优化 中文-英语混合语 的 ASR 性能,我们通过以下步骤合成混合语训练数据:

  1. 收集关键字
    • 收集超过 4 万条英语关键词或短语,覆盖技术、教育、金融、体育等常见领域。
  2. 生成混合语文本
    • 使用 Qwen3模型,根据从上述池中随机选择的关键词,生成中文-英语混合语文本。
  3. 合成语音
    • 利用 文本转语音(TTS)模型,为 LLM 生成的混合语文本合成多种声音的语音数据,从而得到最终的 混合语训练语料

热词定制

FunAudio-ASR 中,我们实现了基于 RAG(Retrieval-Augmented Generation)热词定制机制。具体方法如下:

  1. 构建热词词表
    • 每个预设热词通过预定义词典被转换为 音素序列(中文)或 子词序列(其他语言)。
  2. 热词检索
    • 推理阶段,根据 CTC 假设输出 与热词词表条目的 音素级或子词级编辑距离,检索热词候选。
  3. 生成定制输出
    • 将检索到的热词候选、音频输入和 CTC 预测结果一起作为 LLM 的输入(如图 2 所示),生成热词定制的最终输出。

定制化识别通过提高特定词汇(如人名、术语等)的识别优先级,来提升它们的召回率,同时不影响整体准确度。

传统方法直接将用户词表输入大模型,虽然简单,但词量增多时干扰增强,效果下降。为解决这一问题,通义实验室采用RAG(检索增强生成)机制:

  • (1)构建知识库:将用户配置的定制词构建成专属RAG库;
  • (2)动态检索:依据CTC第一遍解码结果,从RAG库中抽取相关词汇;
  • (3)精准注入:仅将相关词汇注入大语言模型的提示词中,避免无关信息干扰。

该方法可在不增加计算负担的前提下,支持上千定制词,并保持高识别效果。

缓解幻觉

尽管通过训练将声学特征对齐到文本特征空间,由于声学特征 Embedding 与真实的文本 Embedding 仍然存在这一定的差距,这会导致LLM在生成文本时发生幻觉的现象。

在 ASR 中,幻觉(hallucination) 指模型生成的文本并未出现在输入音频中。这一问题在 静音段、说话者突然打断噪声环境 下尤为严重,模型可能在没有语音的情况下产生虚假转录。

为缓解幻觉问题,FunAudio-ASR 采用以下策略:

  1. 数据增强阶段引入零填充(zero-padding)
    • 在向音频信号添加噪声前,先在音频中插入零填充,从而生成 纯噪声前缀片段
  2. 模型学习纯噪声识别
    • 该策略迫使模型学会识别仅含噪声的输入,并将输出与实际音频对齐,从而降低幻觉文本生成的概率。

实验表明,这种方法显著提升了 FunAudio-ASR 在多样声学条件下的 鲁棒性、准确性和稳定性

此外,通义实验室发现,给语音大模提供必要的上下文,可以减少文本生产时候的幻觉现象。为此,设计了 Context 增强模块该模块通过 CTC 解码器快速生成第一遍解码文本,并将该结果作为上下文信息输入 LLM,辅助其理解音频内容

由于 CTC 结构轻量且为非自回归模型,几乎不增加额外推理耗时。此外,观察到幻觉问题在高噪声场景中更易发生,因此在训练数据中加入了大量仿真数据。我们构建了一个包含 28 条易触发幻觉音频的测试集,经优化后,幻觉率从78.5% 下降至 10.7%。 

测试结果:

  • 错误识别结果:你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你你我说不尽的春风吹又生
  • ours 大模型识别结果:离离原上草一岁一枯荣
  • FunAudio-ASR识别结果:是我说不尽的中国味。
  • 豆包大模型识别结果:别急别慌。我说不见的。

“串语种”问题

“串语种”是语音大模型落地中的另一类典型问题。具体表现为:输入音频内容为英文,模型输出却为中文文本。这是因为文本 LLM 本身具备翻译能力,在声学特征映射不够精确时,模型可能在推理过程中“自动启动”翻译功能,从而影响语音识别的准确性。

在 FunAudio-ASR 的 Context 增强模块中,CTC 解码器经过高质量数据训练,本身发生串语种的概率极低。通过将 CTC 的第一遍解码结果作为 Prompt 输入给 LLM,可有效引导模型聚焦于语音识别任务,缓解“翻译”行为的发生。

Evaluation

我们在开源 ASR 基准数据集和真实工业评测集上对 FunAudio-ASRFunAudio-ASR-ML 进行了评测。
在开源评测方面,我们使用了 AIShell-1、AIShell-2、Librispeech 、Fleurs、WeNetSpeech、Gigaspeech2 等数据集的相应测试集。然而,这些开源数据集长期公开,存在数据泄漏进入模型训练集的风险。为保证评测的可靠性与无泄漏性,我们额外收集了 2025年6月30日之后YouTubeBilibili 新上传的视频,并进行人工转写,构建了一个独立的测试集。

在噪声鲁棒性评测方面,我们使用了真实环境下采集的音频,覆盖多种场景:食堂、餐厅、会议室、办公室、户外、公园、商店、街道、地铁、超市和步行街。这些数据进一步按声学条件和话题进行分类,以更全面地评估系统在复杂多样场景下的表现。

Overall results

我们首先在开源基准上评测了近期发布的 ASR 系统,结果如表 1 所示。在这些数据集上,所有模型的 WER(词错误率)都非常低,甚至有一些开源模型在 LibrispeechAIShell 数据集上的表现超越了商业 API。
然而,如表 2 所示,在真实的工业评测集上,Seed-ASR-API 在多数场景,尤其是噪声环境下,表现出明显优势。这表明 在开源测试集上的表现并不能可靠反映真实世界的 ASR 能力,因此需要定期更新评测集以避免数据泄漏。

相比开源模型与商业 API,我们的 FunAudio-ASR 在开源基准(表 1)和工业数据集(表 2)上均取得了 SOTA(最优)性能
由于所有训练数据都在 2025年6月30日之前 收集,确保了评测过程中 无数据泄漏,使得结果可信且可复现。值得注意的是,FunAudio-ASR-nano(仅 0.8B)也超越了开源模型,并且在性能上接近 Seed-ASR

Streaming ASR Performance

为了评估 FunAudio-ASR 模型的流式识别能力,我们在与离线语音识别相同的测试集上进行了实验,结果如表 3 所示。与 Seed-ASR 相比,我们的 FunAudio-ASR 模型在不同测试集和不同场景下都表现出更优异的性能。

Evaluation on Noise Robustness

表 4 中展示了 噪声鲁棒性评估。结果表明,噪声鲁棒训练(NRT) 对于工业应用至关重要。在餐厅、超市等复杂环境中,NRT 能带来超过 30% 的相对提升,这是因为基于大模型的 ASR 系统在此类声学条件下容易生成幻觉式输出。此外,强化学习(RL) 进一步增强了模型的噪声鲁棒性。

Code-switching Evaluation

用两个测试集 A 和 B 来评估构建的语码转换训练数据的有效性:

热门词汇定制评估

热词评测 中,我们选择了一些带有特殊主题的音频,包括 生物、数学、宗教、食品、姓名、天文学、化学、哲学和物理,因为技术术语的识别对大多数 ASR 系统来说仍然是关键但具有挑战性的任务。表 6 的结果表明,FunAudio-ASR 可以从热词定制中显著受益。在大多数主题上,FunAudio-ASR 的 召回率(recall)可以提升到 0.97 以上。在 姓名 主题上,召回率甚至可以从 0.75 提升到 1.0。这表明 热词定制不仅仅是提供上下文信息,而是真正激发并强化了目标关键词的识别

Multilingual ASR Results

我们还在多个开源测试集和内部行业测试集上评估了我们的多语种 ASR 模型 FunAudio-ASR-ML。表 7 给出了测试结果。由表 7 可见,在 中文和英文的开源测试集及内部行业测试集 上,我们的多语种 ASR 模型 FunAudio-ASR-ML 相较于 Kimi-Audio具有更优或相当的效果。我们还将该模型与其他多语种 ASR 模型进行了比较,例如 Whisper large v3 、dolphin-small和 seamless-m4t large v2 。与这些模型相比,我们的 FunAudio-ASR-ML 同样能够获得 SOTA 性能

Effect of Reinforcement Learning

表 8 显示,RL 在 FunAudio-ASR 训练中发挥了关键作用,在离线和流式条件下分别带来了约 4.1% 和 9.2% 的相对提升。对于离线 ASR,相较于干净或开源数据,在嘈杂和复杂环境下的音频上性能提升更为显著。值得注意的是,在流式 ASR 设置中,改进幅度更大。RL 有助于抑制插入和删除错误,这些错误往往源于模型在完整发音尚未结束前的过早终止或预测。

如表 6 所示,RL 还能 有效增强热词集成,在大多数测试集上都提升了准确率和召回率。在某些领域(如哲学和宗教),RL 模型的准确率或召回率可能略低于基线模型;然而,整体 WER 仍然降低。这是因为在 RL 训练过程中,关键词的选择基于实际转录而非输入提示,从而使 FunAudio-ASR 能够更好地识别领域特定术语——即便这些专业词汇未被显式包含在热词列表中。

Limitations and Future Plans

尽管我们的 FunAudio-ASR 模型在多项评估中都取得了优异的成绩,但仍存在一些局限性。首先,它主要针对中文和英文进行优化,尤其是在流媒体性能和启动词自定义方面,因此对其他语言的支持仍然有限。其次,有效上下文窗口受限;如果没有外部语音活动检测 (VAD) 模块,系统难以稳健地处理长时间录音。第三,当前版本不支持远场或多声道音频。我们计划在未来的工作中解决这些局限性。