
低资源方言的语音处理仍然是构建包容性强、鲁棒性高的语音技术过程中面临的一项基础性挑战。尽管中文吴语在语言学研究中具有重要地位,且使用人群规模庞大,但长期以来,其发展一直受限于大规模语音数据匮乏、缺乏统一的评测基准以及公开可用模型不足等问题。
本文提出 WenetSpeech-Wu,这是首个面向吴语的大规模、多维度标注的开源语音语料库,包含约 8000 小时来源多样的语音数据。
Datapipline Overview

ASR Leaderboard

TTS Evaluation

端到端语音多模态大模型

低资源方言的语音处理仍然是构建包容性强、鲁棒性高的语音技术过程中面临的一项基础性挑战。尽管中文吴语在语言学研究中具有重要地位,且使用人群规模庞大,但长期以来,其发展一直受限于大规模语音数据匮乏、缺乏统一的评测基准以及公开可用模型不足等问题。
本文提出 WenetSpeech-Wu,这是首个面向吴语的大规模、多维度标注的开源语音语料库,包含约 8000 小时来源多样的语音数据。
Datapipline Overview

ASR Leaderboard

TTS Evaluation

在真实业务里,如果你做过语音识别落地,大概率会遇到类似的崩溃瞬间:
即使对于LLM-ASR这种强大的语音识别模型,在落地过程中也绕不开热词这个话题。
通义最新工作中提出了一个面向 LLM-ASR 的可扩展上下文偏置框架,把“热词检索 + LLM 自适应 + 强化学习”串成一套系统,在大规模热词场景(近 10 万规模词表)下显著提升了热词识别能力,同时提升了整体识别效果。具体来说,首先,扩展了 Global–Local Contrastive Language–Audio Pre-trained(GLCLAP)模型,通过具备鲁棒性的数据增强与模糊匹配机制,从大规模词表中检索出一个紧凑的 top-k 热词候选集合。其次,将检索到的候选热词以文本提示的形式注入到 LLM-ASR 模型中,并采用GRPO进行强化微调,使用任务驱动的奖励函数同时优化热词识别性能和整体转写准确率。
整体结构可以类比为语音版的 RAG(Retrieval-Augmented Generation):
GLCLAP 检索器以音频信号 x 及候选偏置词集合 G={g1,g2,…,gN}作为输入,其中 N 表示候选词表的规模。该检索器由两个组件构成:音频编码器(A-enc)和文本编码器(T-enc)。对于输入音频,A-enc 提取一个固定维度的音频嵌入表示,记为 haudio。同时,候选集合中的每一个偏置词 gi∈G 通过 T-enc 编码为对应的语义向量 ei,从而得到文本嵌入集合 E={e1,e2,…,eN}。随后,我们计算 haudio 与集合 E 中所有文本嵌入之间的相似度得分,并选取得分最高的 top-k 个偏置词,构成子集 G′。这些被选中的偏置词随后被拼接到偏置提示(bias prompt)中,以引导模型进行上下文感知的转写。


本文对 GLCLAP 又做了两方面增强。
Robustness-Aware Data Augmentation(RADA)。
为缓解热词规模扩大会导致召回率下降及干扰项增多的问题,我们构建了一套鲁棒性感知数据增强(RADA)流程,用于缩减热词词表规模。初始热词词表通过网络爬取领域相关的热词构建得到。对于候选集合 G 中的每一个偏置词 gi,我们首先利用TTS系统合成对应语音(在必要时由大语言模型生成上下文文本),随后使用现有的 ASR 系统对合成语音进行解码,以检测原始 LLM-ASR 是否已具备对该热词的稳定识别能力。若该热词能够被可靠识别,则将其从热词词表中移除;反之,则保留该词作为后续偏置建模的目标。通过该流程,模型训练与推理阶段仅需关注真正具有识别难度的热词,从而提升整体检索与偏置效果。结果:词表规模从 60 万缩减到约 9.8 万。
模糊匹配策略(Fuzzy Matching Strategy):
在实际应用场景中,热词往往难以通过严格的词面匹配进行约束,否则将导致热词词表规模急剧膨胀,进而降低系统的可扩展性。然而,在 GLCLAP 的训练过程中,热词通常通过严格的词汇级匹配进行约束,这与真实部署环境存在不一致性。在真实场景中,用户可能会使用目标热词的不同形态(如屈折变化)、语义改写(paraphrases)或仅部分提及目标术语。为弥合训练与部署之间的差异,我们在 GLCLAP 训练阶段引入模糊匹配策略,使模型能够学习到更具语义与发音鲁棒性的热词表示,从而提升在复杂真实场景下的检索与上下文偏置能力。
真实场景中,用户说的热词常常不是词表里的标准形式,比如:
如果训练中的监督只允许严格的字面匹配,检索模型就会对这些变体缺乏鲁棒性。因此,本文引入了 fuzzy matching(模糊匹配策略),在训练阶段引入了由生成式上下文句子嵌入以及经过刻意扰动的偏置词变体所构成的数据增强。
这样做的效果:
LLM-ASR 网络由音频编码器、适配器以及LLM三部分组成。本文选用 Qwen2.5-7B 作为 LLM 主体。在音频编码器方面,将原始的 Conformer 编码器扩展为 Conformer-MoE 编码器,具体做法是在每一层 Conformer 中,将第二个前馈网络(FFN)模块替换为混合专家(MoE)结构。我们定义了 KC个候选专家,并通过router从中选择 KS个专家进行加权聚合,同时保留一个专用的共享专家以提供通用建模能力。


LLM-ASR 模型总参数规模为 10.5B,其中推理阶段的有效激活参数量为 8.7B。整体架构由一个 3.5B 参数规模的音频编码器和一个 LLM 解码器组成。编码器采用 CNN 前端并接入 20 层 Conformer-MoE 结构。CNN 前端首先对输入特征进行 4× 的时间维下采样,随后将得到的特征送入 Conformer-MoE 堆叠模块。每一层 MoE 采用 3-of-8 的专家路由策略,隐藏层维度为 3584。
编码器的输出进一步经过一次 2× 的帧级下采样与特征拼接操作,随后通过一个两层线性适配器(adapter),最终作为输入送入 LLM 解码器。在基础训练阶段,仅对 LLM 部分施加 LoRA微调,其中 LoRA 的秩(rank)设置为 64,缩放系数(alpha)为 32。在上下文偏置训练阶段,学习率设为 1×10−5,并联合更新音频编码器、适配器以及 LLM 的 LoRA 参数。在 GRPO 训练阶段,继续使用相同的学习率(1×10−5),但冻结编码器和适配器,仅更新 LLM 的 LoRA 参数。此外,我们将 KL 散度正则项的权重设置为 0.04,并在每个训练步骤中生成 6 个候选响应用于策略优化。
为抑制由上下文偏置引入的误检(false positives),我们充分利用 ASR 模型在解码阶段对偏置词进行判别的能力。模型采用结构化提示(structured prompt)进行训练,形式如下:
“<Audio> 请将音频转写为文本。可使用的偏置词包括:<g₁> <g₂> … <gₖ>”。
其中,提供的偏置词列表刻意包含与当前语音无关的词项或干扰词,以避免模型过度依赖偏置词并提升其判别能力。
除上述数据层面的增强策略外,我们在 LLM-ASR 训练过程中进一步引入生成式拒绝式策略优化(Generative Rejection-Based Policy Optimization,GRPO) 这一强化学习方法,以增强模型对偏置词的区分能力。所设计的奖励函数联合优化多个目标,具体包括:
在推理阶段,为进一步提升性能,我们采用联合束搜索(joint beam search)策略,同时解码无上下文约束(context-free)与上下文条件化(context-conditioned)的候选假设。在保留检索增强生成(Retrieval-Augmented Generation,RAG)优势的同时,该策略有效降低了由无关偏置词引发的幻觉问题。
LLM-ASR 系统在总计数百万小时的语音数据上进行训练。本文重点关注上下文偏置相关的数据设置。在完成基础 LLM-ASR 训练之后,进一步使用约 200 万条与热词和/或上下文历史相关的语句对模型进行微调,这些语句主要通过 RADA 流程生成。在训练数据构成上,包含热词/上下文的语句与不包含热词/上下文的语句按 1:8 的比例进行混合,其中非偏置数据占主导,以避免模型对上下文偏置的过度依赖。对于包含热词的语句,每条语句包含 1–10 个热词,其中约一半语句包含正确的目标热词,另一半不包含目标热词,从而在正、负热词样本之间形成 1:1 的比例平衡。
在大规模通用 ASR 数据上对模型进行训练,其中文本标注通过从完整转写中随机裁剪短语的方式获得。随后,在第二阶段对 GLCLAP 检索器进行微调时,我们构建了一个面向特定领域的音频–文本数据集,规模约为 25 万对,以更好地使检索结果与偏置词所属领域对齐。
热词词表通过网络数据构建,主要覆盖医疗和媒体(影视)两个领域。在得到初始词表后,进一步采用 RADA 策略进行过滤。经过基于 RADA 的筛选,热词词表规模由约 60 万条缩减至 9.8 万条,有效降低了词表规模并提升了可用性。
构建了两个面向特定领域的测试集:Media 和 Medical,每个测试集包含 240 条语句,主要来源于实际系统中的错误案例(bad cases)。每条语句均由人工标注其真实偏置词,并将这些偏置词加入偏置词列表中。此外,我们还构建了一个回归测试集 General Task,包含约 5,000 条标准 ASR 语句,用于评估通用识别性能。
ASR 评测中,我们采用两项指标:(i)句级识别准确率(Sentence-level Accuracy,SACC),以及(ii)关键词错误率(Keyword Error Rate,KER)。
在 Media 和 Medical 测试集上评估基于 GLCLAP 的热词检索性能。如表 1 和表 2 所示,鲁棒性感知数据增强(RADA)与模糊匹配策略均对整体性能产生了正向贡献。具体而言,原始热词词表约包含 60 万条词项,在应用 RADA 筛选后缩减至 9.8 万条。模糊匹配不仅更契合我们的评测指标,同时也更真实地反映了实际应用场景中的偏置词使用情况。此外,结果显示,随着 top-kkk 值的增大,召回率呈持续上升趋势。


将 GLCLAP 与 LLM-ASR 模型结合,并以句级识别准确率(SACC)和关键词错误率(KER)报告最终识别性能。Base 列显示了在不使用任何偏置提示(bias prompt)的情况下,经过上下文感知微调的 LLM-ASR 模型的结果。
召回率随着 top-k 的增加持续上升,但在热词测试集上的 KER 和 SACC 并未呈单调改善。这是因为较大的 top-k 会向 LLM-ASR 模型引入更多干扰候选词,从而增加识别干扰。
在 General Task 测试集上,大多数结果略低于未使用热词的基线表现。综合两个热词测试集的结果,我们认为 top-2 是更为合适的选择。

GRPO 训练的结果表 4,引入 GRPO 可以在媒体和医疗设备上的 KER 中产生明显的性能提升。 此外,得益于GRPO中使用的基于准确性的奖励,通用任务的句子准确性也得到了显着提高。
从工程落地的角度,这篇工作有几个特别值得实践参考的点:
Fun-Audio-Chat 是为自然、低延迟语音交互构建的大型音频语言模型。它引入了双分辨率语音表示(一个高效的 5Hz 共享主干 + 一个 25Hz 的精炼头)以在降低计算的同时保持高语音质量,并采用 Core-Cocktail 训练以保留强大的文本 LLM 能力。它在语音问答、音频理解、语音函数调用以及语音指令遵循和情感共鸣基准上都取得了顶级成果。
现有模型面临的挑战:语音 Token(通常约 25Hz)与文本 Token(约 3Hz)在时间分辨率上的不匹配会削弱语义信息,同时带来高计算成本、限制实际部署,并在多模态训练过程中导致文本 LLM 知识的灾难性遗忘。
Fun-Audio-Chat采用 双分辨率语音表征(Dual-Resolution Speech Representations, DRSR) 架构:共享的 LLM 主干以高效的 5Hz 帧率 处理音频(通过语音 Token 分组实现),而 Speech Refined Head(SRH) 则以 25Hz 分辨率 生成高质量语音 Token。该双分辨率设计在计算效率与语音生成质量之间实现了有效平衡,使 GPU 训练时长降低近 50%。
不同于某些语音模型的大规模音频-文本预训练与后训练方法,Fun-Audio-Chat基于预训练模型,全量监督微调阶段采用 Core-Cocktail Training 策略缓解灾难性遗忘问题,后训练使用多任务 DPO 训练以增强模型在鲁棒性、音频理解、指令遵循及情感化语音共情能力方面的表现。Fun-Audio-Chat 在有效保留原始文本 LLM 知识的同时,获得了强大的音频理解、推理与生成能力。
模型在语音转文本与语音-语音生成任务上取得了具有竞争力的性能,并在多项口语问答基准测试中位列同规模模型的领先水平。同时,其在音频理解、语音函数调用、语音指令遵循以及语音共情等任务上亦展现出媲美甚至优于同类模型的表现。构建了 Fun-Audio-Chat-Duplex,一种全双工变体,在口语问答基准与全双工交互场景中均取得了优异性能。


现有语音大模型面临以下挑战:
针对以上问题,提出 Fun-Audio-Chat:
ps: DrVoice:https://arxiv.org/pdf/2506.09349



上图展示了 Fun-Audio-Chat 及其全双工变体 Fun-Audio-Chat-Duplex 的架构。
Fun-Audio-Chat 的框架主要由三个模块组成:
该架构实现了统一的音频-文本编码和同步的语音-文本生成。在推理阶段,无论输入为文本还是语音,均会被转换到一个统一的语义表示空间,由 MLLM 处理,从而通过 SRH 和 Text Head 同时生成语音和文本输出。
Fun-Audio-Chat 采用 Whisper-Large-v3作为 语音编码器,从用户语音输入中提取连续表征。随后, Adapter 模块 对这些特征进行时间分辨率降采样,并将其维度匹配到 LLM 的隐藏空间。
鉴于语义 token 在语音表征中的有效性其,尤是其与文本内容的高度对应性,采用 S3Tokenizer 作为 语音分词器,将音频波形转换为离散的语义 token 序列。S=[s0,s1,…,sT−1]其中 T 表示序列长度,用于助手端(Assistant)的输出。

在逆向过程中,Speech Detokenizer [CosyVoice3的模型解码合成音频]利用 speaker-specific embeddings 编码音色等声学特征。随后,Flow Matching 模型 将这些 token 转换为 Mel 频谱表示,再通过 HiFi-GAN 声码器 将 Mel 频谱重建为音频波形。
为了在支持跨模态能力的同时 保持预训练文本 LLM 的文本能力,Fun-Audio-Chat 采用了先前工作 DrVoice中提出的 双分辨率语音表征(Dual-Resolution Speech Representations,DRSR) 架构。该架构有效解决了 语音 token(通常约 25Hz)与文本 token(约 3Hz)之间的时间分辨率不匹配问题,同时提升计算效率,并实现高质量语音生成。
语音 Token 分组。为弥合时间分辨率差异,采用 DrVoice中的分组技术,将 25Hz 的语音 token 转换为 5Hz 的表示,并输入至 共享 LLM 主干。该分组变换可表示为:

其中 𝐬j 表示单个语音 Token ,Concat 表示串联,k=5 是基于语音 Token 频率 (25Hz) 与所需 LLM 处理频率 (5Hz) 之比的分组因子。这种机制将序列长度从T减少到T/k,允许共享LLM以5Hz帧速率运行,这大大减少了计算开销(训练GPU时间减少了大约50%),同时保留了LLM的语义推理能力。
Speech Refined Head (SRH).分组机制提升了计算效率,但其同时会丢失对自然语音合成至关重要的细粒度声学信息。为弥补这一不足,Fun-Audio-Chat 引入了一个专用的 SRH,用于在 完整的 25Hz 分辨率下生成语音 token。SRH 执行一种反分组(ungrouping)操作,来自 共享 LLM 的最终隐藏状态hL[SLLM]首先通过线性投影被转换为与分组大小一致的嵌入表示:

接下来分解为 k 段:


生成的 𝐇 为 SRH 提供条件上下文,SRH 以 25Hz 自回归方式生成语音标记。 训练目标优化语音标记预测:

其中 si 表示第 i 个语音标记。 这种双分辨率框架允许 Fun-Audio-Chat 遵循 DrVoice 中建立的设计原则,同时实现计算效率(共享 LLM 层中的 5Hz 处理)和高保真语音合成(通过 SRH 生成 25Hz)。
MLLM 架构在预训练文本 LLM 的基础上进行扩展,使其具备统一的音频-文本处理能力,从而能够接收语音或文本任一模态输入,并同时生成语音与文本输出。Fun-Audio-Chat 属于并行式联合语音-文本模型。借鉴 Moshi 的做法,我们在模型中引入 显式文本流,用于为语音生成提供语义引导。模型设计仅在 助手侧进行模态对齐,这反映了人机对话中的固有非对称性:用户通常只提供单一模态输入(文本或语音),而助手则能够输出协调一致的多模态响应(即联合语音-文本输出或仅文本输出)。
模型利用 LLM 的自回归特性,在每一步迭代地将 语音 token st 与 文本 token tt 一并输入至 共享 LLM 层。两类 token 的嵌入向量通过逐元素相加(addition)进行融合,形成统一的输入表示。第 t步的复合嵌入:

其中,Espeech 与Etext 分别表示语音与文本 token 的嵌入函数。为解决语音序列与文本序列在长度上的不匹配问题,我们对较短的序列进行填充,并在每个话语中使用特殊静音标记 <|SIL|>作为填充值。
模型的生成过程遵循自回归范式:

其中,x 表示输入,yt=(st,tt) 表示在时间步 t 的联合语音–文本输出。该建模方式在同一自回归过程中统一了语音与文本的联合生成。
Fun-Audio-Chat 基于已有的预训练模型构建,并采用多阶段后训练流程进行训练,利用覆盖多领域、多任务的数百万小时语音数据,其中包括对话语音与多语言语音,以及面向语音理解任务的音频数据,从而保证对多种应用场景与使用需求的全面覆盖。自建数据则包括文本、ASR、TTS、音频理解、语音指令跟随以及语音共情数据。
整个多阶段训练流程包括以下三个阶段:
(1) Pre-alignment:利用大规模语音-文本配对数据,对 Speech Encoder、Adapter 与 Speech Refined Head 进行对齐训练;
(2) Core-Cocktail 训练阶段:用于监督式全参数微调,采用由 CosyVoice 3基于数十亿文本 token 合成的高质量语音数据,并通过合成语音的词错误率(WER)阈值筛选得到;
(3) 多任务 DPO 训练阶段:引入多样化真实语音数据以提升鲁棒性,引入音频理解与 ASR 数据以增强理解与感知能力,同时使用指令跟随数据(包含情感、风格与韵律控制)以提升语音指令跟随能力,并结合语音共情数据以强化情感理解与共情式响应生成能力。
Speech Encoder 采用 Whisper-Large-v3的权重进行初始化,从而提供稳健的语音理解能力。Shared LLM Layer 使用 Qwen3-30B-A3B进行初始化,或可替代性地采用视觉-语言基础模型 Qwen3-VL-8B,以充分利用预训练文本 LLM 强大的语义理解能力。此外,来自 CosyVoice 3的预训练 Speech Tokenizer 与 Speech Detokenizer 被直接引入,并在 Fun-Audio-Chat 的整个训练过程中保持冻结。
预对齐训练:使用大规模语音-文本配对数据,对 Speech Encoder、Adapter 与 Speech Refined Head 进行联合对齐学习。在该阶段中,Shared LLM Layer 被保持冻结,以确保其预训练能力不受破坏。
实验观察到,多模态模型训练过程中存在一个基础性的学习率折衷问题:学习率过高将导致 MLLM 性能退化,并加剧基础文本 LLM 知识的灾难性遗忘;而学习率过低则会导致收敛缓慢,甚至训练停滞。为解决这一优化难题并避免知识流失,采用了此前在 DrVoice中提出的 Core-Cocktail Training 方法论,其核心是一种 两阶段训练策略。
阶段一:高学习率微调。 在该初始阶段,我们对全部 MLLM 参数、Audio Encoder 与 Adapter 进行全量微调,并采用较高的学习率。对于 Fun-Audio-Chat,在阶段一中学习率按照余弦退火策略从 1×10−4 逐步衰减至 1×10−5。该阶段的目标是使模型参数能够快速迁移至更有利于多模态学习的损失曲面区域,从而实现快速任务适配。
中间模型合并。 为缓解阶段一高强度训练可能带来的 MLLM 性能退化问题,引入中间模型合并操作。将阶段一训练后的 MLLM 参数 M1 与原始预训练 LLM 参数 M0 进行加权插值,得到合并模型: Mr←αM1+(1−α)M0
其中 α用于控制插值平衡。该合并过程重新引入基础 LLM 的核心知识,从而保护其原有的文本理解能力。较小的 α值将更有利于保留基础 LLM 的知识。在我们的实现中,α=0.5。
阶段二:低学习率精调。 在阶段二中,我们对合并后的模型 Mr 以更低的学习率进行全量微调。对于 Fun-Audio-Chat,学习率同样按余弦退火策略从 1×10−5 衰减至 1×10−6。该阶段实现了稳定且精细的优化,在避免高学习率相关不稳定性的同时进一步提升模型性能。Core-Cocktail Training 策略在快速适配与知识保持之间实现了有效平衡,显著缓解了灾难性遗忘问题,并促进高效的多模态学习。
在完成 Core-Cocktail 训练之后,采用多任务 DPO 训练提升模型在真实语音数据上的鲁棒性、音频理解能力、语音指令遵循能力以及语音共情能力。多任务 DPO 阶段引入了多维度的偏好学习目标:(1)鲁棒性偏好:更偏好在噪声环境或多样化语音输入下仍能保持输出质量的响应;(2)指令遵循偏好:更偏好能够准确遵循语音指令(包括情绪、风格与韵律控制)的响应;(3)音频理解偏好:更偏好体现对音频内容进行准确理解与推理的响应;(4)语音共情偏好:更偏好能够展现恰当情绪理解与富有共情反馈的响应。DPO 训练损失在这些偏好维度上联合计算,从而使模型能够学习到一个在多种能力之间取得平衡的统一偏好信号。该多任务 DPO 训练阶段使模型能够更好地对齐人类偏好,并在真实世界会话场景中表现出更优性能,从而区别于主要依赖监督微调的既有工作。
为实现实时全双工语音交互,提出并采用并行语音–文本输入流架构,并将 Fun-Audio-Chat 扩展为全双工变体 Fun-Audio-Chat-Duplex,从而支持自然、类人化的无缝双向通信。具体而言,并行语音–文本输入流允许模型在助手生成语音的同时继续接收用户语音输入,从而有效利用原本空闲的时间片。该并行输入机制能够同时处理来自用户与助手的语音输入,使模型能够应对重叠语音片段并保持会话语境一致性。全双工交互训练从 Core-Cocktail 阶段得到的检查点继续训练,在其已具备的多模态能力基础上进一步强化。该阶段采用通过数据增强方式构造的全双工对话数据进行训练:即基于高质量半双工对话数据,并按照 OmniFlatten中的方法模拟全双工交互行为,将传统轮流发言的文本对话转化为并行双流式交互,其中用户与助手均可同时发声。通过全双工训练,模型能够学习自然的轮次切换、打断处理与跟进反馈等交互行为。

评估指标:
对于全双工交互评估,我们使用S2M-T(多模态响应中的文本输出准确性)和S2M-S(多模态响应中的语音输出准确性)来衡量知识理解性能,并使用轮流成功率来衡量模型在全双工场景下正确处理轮流的交互百分比。
语音问答:Fun-Audio-Chat-8B 在 OpenAudioBench 上取得 76.61% 的整体最佳成绩,在 VoiceBench 上取得 83.21% 的整体最佳成绩,居于约 8B 规模模型中的领先水平;同时,Fun-Audio-Chat-30B-A3B 在与大规模基线模型(含顶级闭源模型)的比较中亦展现出具有竞争力的结果。


语音理解:Fun-Audio-Chat 在综合音频理解基准(包括 MMAU、MMAU-Pro 和 MMSU)上取得了最优表现,优于多种强大的开源基线模型

语音功能调用
Fun-Audio-Chat-30B-A3B 在所有评测模型中取得了最高的总体得分(79.63%),并在 Speech-ACEBench(单轮:76.40%)和 Speech-SmartInteract(84.13%)等任务上表现尤为突出。该模型在理解基于语音的函数调用指令并准确执行方面展现出强大能力,这对于构建实际可用的语音控制应用至关重要。 在并行函数调用场景中(Fun-Audio-Chat-8B 在 ACEBench-Parallel 上取得 54.50%,在 BFCL-Parallel 上取得 87.63%),结果进一步凸显了 Fun-Audio-Chat 在语音交互中处理复杂、多步骤指令的能力。

语音指令跟随和语音同理心


全双工交互
全双工知识理解。 表7展示了Fun-Audio-Chat-Duplex的全双工知识理解性能。 结果表明,Fun-Audio-Chat-Duplex 在全双工对话场景中保持了强大的知识理解能力。全双工架构成功地保留了模型的知识理解能力,同时实现了同步双向通信,使系统即使在处理重叠的语音输入和输出时也能保持上下文和理解。
Fun-Audio-Chat-Duplex-30B-A3B 实现了完美的轮流成功率(100.00%),优于 Moshi(99.77%)和 FreezeOmni (93.87%)。 Fun-Audio-Chat-Duplex-8B 达到了 99.94%,也展现了出色的轮流能力。 这些结果表明,Fun-Audio-Chat-Duplex 成功实现了自然高效的全双工语音交互,该模型能够处理同时语音并保持适当的对话流程,密切反映了人与人对话的动态。

计算效率:双分辨率设计显着降低了计算要求和潜在延迟,经验测量显示,与以更高帧速率运行的模型相比,训练期间的 GPU 时间减少了约 50%,且不影响语音质量
多轮对话中的复杂问题回答,该模型有时会表现出上下文记忆丢失,其中先前轮次的信息可能无法一致保留。
语音指令跟随能力在表达方面表现出一些不稳定。
语音共情能力表现出一定的不稳定。
如何设计音频编码器与 LLM 的集成架构,使得 LLM 能够高效、准确地从音频编码中“探测”出与文本查询相关的信息?
如何将丰富的音频语义高效地从音频编码器传递到 LLM 中,仍然缺乏系统性的研究。目前最常用的集成范式,是将音频编码器输出的 token 映射到 LLM 的输入 token 空间(例如通过 MLP 或 Q-Former),并将其前置或插入到文本 token 序列中。将这一通用方案称为 PLITS(Prepend to the LLM’s Input Token Space)集成方式。
论文提出了一种高效的替代方案——轻量级音频 LLM 集成方法(Lightweight Audio LLM Integration,LAL)。LAL 仅通过 LLM 不同层中的注意力机制引入音频表示,而绕过其前馈网络模块。该方法能够在合适的抽象层级上对丰富的音频语义进行编码,从而有效地将其集成到 LLM 的不同模块中。与现有的集成方式相比,该设计显著降低了计算开销。
在完全相同的训练流程下,LAL 在多种基础 LLM 和任务上均能够保持与现有集成方法相当的性能,甚至取得更优表现。对于通用音频任务,LAL 相较于强 PLITS 基线模型的性能提升最高可达 30%,同时内存占用最多降低 64.1%,吞吐量最高提升 247.5%。此外,在通用音频-音乐-语音 LLM 场景下,PAL 的性能与完全基于 PLITS 集成的系统相当,但在计算效率和内存效率方面具有显著优势。
LLM 中内在的两类知识:(1)参数化知识,主要源于大规模语言预训练并嵌入于 FFN 层中;(2)上下文知识,通过注意力机制动态地引入和调制。 音频输入作为一种上下文信息,可以仅通过基于注意力的调制,在文本 token 表征中激活所需的概念,而无需对音频表示进行直接的 FFN 处理。由此,音频信息得以间接访问 LLM 的参数化知识:音频上下文“搭载”在文本 token 之上,注意力机制对其表征进行重构,进而在 FFN 处理中触发与相关概念对应的路径。该策略不仅在架构效率上具有优势,也为多模态信息融合机制提供了更为深入的理解。
两种主流的架构范式:

本文提出了 LAL,一种轻量级的集成方式,其仅将音频 token 作为 Key和值Value 注入到 LLM 的注意力模块中(不构造音频查询 Query),并且使音频 token 绕过 LLM 的前馈网络(FFN)。这种设计将注意力计算复杂度从
O((Na+Nt)2)
降低至 O((Na+Nt)Nt),
其中 Na 和 Nt分别表示音频 token 与文本 token 的数量。由于在实际场景中通常满足 Na ≫ Nt ,该设计能够带来显著的计算效率提升。LAL 在内存占用和计算量方面均实现了显著降低。与 LoRA 等参数高效训练方法不同,LAL 属于一种核心架构层面的改动,因此其带来的效率优势不仅体现在训练阶段,同样适用于推理阶段。
PLITS 与 Flamingo 类集成方法代表了从音频编码器中提取信息的两种互补策略。LAL 通过限制音频 token 与 LLM 的交互方式,提供了一种计算与内存高效的机制;而在 PLITS 风格的集成下,某些音频编码器则可以从 LLM 内部更丰富的解码过程中获益。具体而言,采用语言对比学习或自监督目标训练的编码器(如 CLAP、SSLAM)更适合使用 LAL 集成方式;而 Whisper 由于其采用自回归语音到文本转写及下一 token 预测目标进行预训练,则能够从 PLITS 风格集成所提供的额外解码能力中获得更多收益。

基于上述观察,本文提出了一种 LAL 与 PLITS 相结合的混合集成框架——PAL,用于构建通用的音频、音乐和语音 LLM。该框架实现了一种面向音频编码器感知的融合策略,在效率与性能之间取得平衡。与单独采用 PLITS 集成方式相比,该设计在显著降低计算与内存开销的同时,仍能获得强劲的性能表现。实验系统地探索了性能与效率之间的权衡关系,揭示了面向编码器感知的融合策略如何在最小参数开销的前提下,实现音频编码器向 LLM 的高效信息传递。
以当前最先进的集成方式 PLITS 作为基线方法,LAL 为本文提出的方法,PAL 为二者的混合方案。需要说明的是,文中使用 LAL 和 PAL 同时指代集成策略本身以及相应的音频-LLM 模型。
在音频编码器方面,采用 SSLAM 和 CLAP,并使用一种高效的、基于 Q-Former 的连接器来融合二者的信息,在不增加 token 数量的情况下完成融合,称为 LFST。若未使用 LFST,则音频编码器默认为 SSLAM;当使用 LFST 时,则表示 SSLAM 与 CLAP 的组合。


关于 LFST 的 连接器:
用于融合语言对齐的编码器(如 CLAP)与自监督编码器(如 SSLAM)。该连接器生成一组紧凑的潜在 token,既融合了 CLAP 的语义信息,又保留了 SSLAM 的细粒度时空特征,同时保持序列长度固定,避免了简单拼接带来的计算开销。
编码器输出为:

其中 F表示频率,T表示时间,d 表示特征维度。单个潜在 token z会广播到每一个时空位置,从而得到每个 zf,t。
在连接器内部,该模块包含 3 层交叉注意力(cross attention)层,每个 zf,t 会通过与对应局部区域的 Hsslam和 Hclap 的交叉注意力进行更新。
为了在跨 (F,T)扁平化时保留时间结构,我们在频率轴上插入换行符(newline token),使得每一个新的时间步以该标记开头,然后才是其频谱 token

将音频 token 前置到 LLM 输入空间(PLITS):将音频 token 前置到 LLM 输入 token 空间的基线音频 LLM 作为基准。
音频编码器的输出首先通过一个 Q-Former 连接器映射到 LLM 的输入嵌入空间,生成音频 token。随后,这些音频 token 被直接拼接在文本 token 之前,形成一个联合序列,并共同经过 LLM 的所有层进行处理,从而实现音频与文本的联合解码。该范式的核心特征在于音频 token 向 LLM 提供的方式——即作为前置 token 与文本一同输入。

有研究表明,LLM 会将语义编码为可在隐藏状态中被选择性激活的特征。基于这一观点,提出如下假设:有效的音频-LLM 集成,并不需要对 LLM 做复杂改动,而是需要音频 token 能够触发文本 token embding 中与声音相关的概念特征。
换言之,不同的听觉输入应当在文本表示中激活相应的语言概念。例如,当输入中包含狗叫声时,与“狗”这一概念相关的特征应被激活,使模型能够将听觉信号锚定到语言层面,并正确回答诸如“当前包含哪种动物的声音?”这样的问题。该假设直接指导了我们的架构设计目标:寻找一条最简单、但又能可靠地将音频线索传递到承载语义概念的文本特征中的路径。
一个标准的 LLM 层由注意力子模块和前馈网络(FFN)子模块组成。由于注意力机制负责 token 之间的信息交互,它是音频影响文本的必要通道;同时我们认为,仅通过注意力机制,文本 token 便足以从音频中获取所需信息。
基于这一原则,我们提出了 LAL(Lightweight Audio LLM integration)。与基线方法类似,首先通过一个共享的 Q-Former 生成音频 token;在 LLM 的每一层中,使用一个 MLP 将这些音频 token 投影到该层的输入空间。随后,音频信息仅以 Key 和 Value 的形式注入到注意力模块中,而 Query 仍然仅由文本 token 构成。这样,音频只会调制文本 token 的注意力上下文,而不会经过 LLM 的前馈网络,从而实现更高效的音频-文本融合。
设第 l 层的文本隐藏状态为:Hlt∈RNt×d, Q-Former 输出的音频特征为 A∈RNa×da.在每一层引入一个投影器:Pl:Rda→Rd,将音频特征映射到该层的表示空间:

随后,在 token 维度上将文本与音频表示进行拼接:

如图 2(B) 所示,Query 仅由文本 token 生成,而 Key 和 Value 则由拼接后的序列计算:

由此得到文本 token 的 LAL 更新形式为:

更新后的H~lt随后按照标准做法进入 FFN,并结合残差连接进行处理。通过这种方式,音频信息仅通过注意力上下文影响文本 token,使由音频激活的特征与其对应的语言概念对齐,从而实现有效的跨模态信息传递。
计算与内存效率
与 PLITS 以及 Flamingo 风格架构相比,LAL 在三个方面显著提升了效率,且随着音频序列长度的增加,这些优势会进一步放大。实验中,我们观察到最高可达 64.1% 的显存占用降低,以及最高 247.5% 的训练吞吐提升(samples/sec)。
注意力复杂度


从而消除了 Na2项以及所有音频—音频之间的注意力交互。
前馈网络(FFN):
随音频长度的扩展性。
在多模态 LLM 中,非文本模态通常会产生远多于文本的 token,音频亦是如此。随着音频片段变长或 token 化更密集,Na增大,PLITS 的计算代价为 (Na+Nt)2,其中 Na2 项将占据主导。相比之下,LAL 的复杂度为 (Na+Nt)Nt,对 Na 呈线性增长。因此,音频越长或切分越细,二者在计算与内存上的差距就越大。此外,由于更多 token 绕过了每一层中最昂贵的 FFN,LAL 在前馈阶段的节省也会随 Na 的增大而进一步扩大。
相比Lora:
LAL 是一种核心架构层面的修改。LoRA 等方法主要改变训练阶段参数的适配方式,而在推理阶段基本保持原有的前向计算模式;LAL 则直接改变了注意力与 FFN 的路由方式,因此其计算与内存效率的收益不仅在训练阶段成立,在推理阶段同样适用。
冻结 LLM FFN 的 LAL 集成:验证了在冻结 LLM 前馈网络(FFN)模块的情况下,LAL 集成方式仍然保持有效,且性能并未出现显著下降。这一结果对于降低训练成本、提升参数效率,以及在实现多模态对齐的同时保留 LLM 预训练知识,具有重要意义。出于表述清晰与实验一致性的考虑,本文的主要实验仍聚焦于 FFN 可训练的标准设置。

参数化知识与上下文知识的利用。
LAL 如何高效利用预训练 LLM 中内在的两类知识:(1)参数化知识,主要源于大规模语言预训练并嵌入于 FFN 层中;(2)上下文知识,通过注意力机制动态地引入和调制。
LAL 的实验成功(见表 1 和表 2)表明,音频输入作为一种上下文信息,可以仅通过基于注意力的调制,在文本 token 表征中激活所需的概念,而无需对音频表示进行直接的 FFN 处理。由此,音频信息得以间接访问 LLM 的参数化知识:音频上下文“搭载”在文本 token 之上,注意力机制对其表征进行重构,进而在 FFN 处理中触发与相关概念对应的路径。该策略不仅在架构效率上具有优势,也为多模态信息融合机制提供了更为深入的理解。
LAL 的实证评估。在多种基础 LLM 上对 LAL 进行了训练与评估,覆盖通用音频任务,包括分类、描述生成(captioning)和推理。在表 1(分类与描述生成)和表 2(推理)中,我们给出了 LAL 与 PLITS 的受控对比,结果表明 LAL 在推理速度与内存占用更优的同时,能够达到与 PLITS 相当甚至更高的准确率。其次,在表 3(分类与描述生成)和表 4(推理)中,我们将 LAL 与已有方法进行了比较。需要注意的是,不同先前方法在训练数据规模和模型规模上存在显著差异,而我们的模型实验训练在这两个维度上均处于较低水平。
这些实验结果不应被简单理解为“全面优于所有方法”,而应被解读为一个更有说服力的结论:即在使用更少训练数据、更小模型、计算资源更受限的情况下,LAL 能够达到与现有方法相当的性能水平,表现出良好的竞争力。



前文已经证明:
本节提出的关键问题是:
是否所有音频编码器都适合用 LAL?还是有些情况下必须用 PLITS?
对于 Whisper 语音编码器在 情感识别、性别分类 等任务上:PLITS 明显优于 LAL,这一现象与经典神经语言学理论相符:Wernicke 区主要负责语言理解,长期以来被认为处理书面语和口语,而角回则支持跨听觉、视觉及其他感官输入的关联。类比而言,语音特征在结合语言上下文进行解释时最为有用,而通用音频则受益于模态专属的处理通路。
语音(speech)-人类声音
→ 本质上是“语言的声学形式”
→ 在 LLM 内部、结合语言上下文进行解码更有价值
→ 因此更适合 PLITS(直接进入 LLM token 流)
通用音频 / 音乐 / 事件音
→ 非语言模态
→ 更适合走 模态专属通路
→ 用 LAL 即可
基于此,我们提出了 PAL(Probing the Audio Encoders via LLM),一种面向编码器的混合集成架构,可根据不同编码器选择合适的集成方式:通用音频编码器(SSLAM 和 CLAP)采用 LAL 集成,而语音编码器 Whisper 采用 PLITS 集成.
PAL 的实验评估:我们在涵盖语音、音乐和通用音频的统一 instruction tuning 数据集上训练 PAL,并在分类与推理基准上进行评测。结果显示,在分类任务中(表 5)以及推理任务中(表 6 和表 7):



PAL 的准确率与 PLITS 相当,同时保持了更高的计算效率。
Whisper 的“副作用”:对非语音任务也有帮助:
此外,我们观察到引入 Whisper 编码器后,通用音频(sound)和音乐任务的性能有所变化。我们推测,这是因为 Whisper 会编码背景声音,从而具备一定的事件检测能力。
在 PAL 与 PLITS 的对比中,我们严格控制实验条件,使用相同的 backbone、数据和训练超参数。除 Audio Flamingo 2 外,其他系统均基于 PLITS。表7种一些已有系统(Qwen2.5-Omni-7B)在指标上高于 PLITS,主要是因为它们使用了更大的训练数据集、更大的语言模型(LLM)以及更强的音频编码器。

PAL 采用两阶段训练流程(见表 9)。在阶段一中,我们以用于 LAL 的阶段一数据集为基础,并额外引入来自 OpenASQA的、以语音理解为重点的数据进行增强。在阶段二中,我们在一个经过精心整理的音频、语音与音乐推理指令数据集 AudioSkills上进行微调。由于部分源数据集的原始音频文件不可获取,我们使用了 AudioSkills 中的 600 万条样本子集(原始规模为 1000 万)。
训练流程(Training Protocol)
在两个目前规模最大的通用音频指令微调数据集上训练所提出的音频 LLM 变体:OpenAQA和 CompA-R。整体采用两阶段训练流程:
1)连接器预训练阶段:仅训练音频-文本connector,其余模块全部冻结;
2)联合训练阶段:同时训练connector和 LLM。
在整个训练过程中,音频编码器始终保持冻结状态。
针对推理和开放式问答任务,我们进一步增加两个训练阶段:
采用 OpenAQA提出的两阶段训练设置对 LAL 进行训练,并据此获得表 1 中的实验结果。此外,我们还在 OpenAQA提供的更大规模开放式数据以及推理数据集 CompA-R上进行训练,其评测结果见表 2。

评测流程(Evaluation Protocol)
为了评估 LAL 是否能够有效地将关键音频事件信息从编码器传递到 LLM 的潜在表示空间中,我们在下游的分类、描述生成(captioning)和推理任务上进行评测。
gpt-text-embedding-ada 对模型输出文本和目标音频标签进行编码,并计算语义相似度;训练流程:PAL 采用与 LAL 相同的两阶段训练流程。音频编码器在整个过程中同样保持冻结。
在阶段 1 中,构建了一个混合数据集:以通用音频 OpenAQA 的 Stage 1 数据为基础,并加入用于语音理解的 OpenASQA Stage 1 划分。
在阶段 2 中,使用一个精心整理的音频、语音和音乐推理指令微调语料,即 AudioSkills中的 600 万条子集。
语音理解评测:语音识别以及说话人性别分类。这些任务在阶段 1 训练完成后进行评测,用以衡量新引入的 Whisper 编码器与 LLM 的集成效果。随后,在 MMAR 和 MMAU 基准上评测通用音频、音乐以及语音推理能力,并报告细粒度的类别级性能结果。
提出了 LAL,一种仅通过注意力机制中的 Key 和 Value 注入音频信息、并跳过音频 token 的前馈网络(FFN)处理的轻量级集成方式。该方法减少了注意力交互与中间激活,在分类、描述生成和推理任务上保持与当前最先进基线 PLITS 相当的性能的同时,实现了 最高 64.1% 的显存占用降低 和 最高 247.5% 的训练吞吐提升。
此外,我们提出了 PAL,一种 编码器感知(encoder-aware) 的混合集成框架:对 SSLAM 和 CLAP 采用 LAL,而对 Whisper 采用 PLITS,因为 Whisper 能从 LLM 内部的解码过程中获益。
需要强调的是,LAL 属于核心架构层面的改动,而非参数高效微调(PEFT)方法,因此其效率收益在 训练阶段和推理阶段 均可体现。
在未来工作中,我们计划扩展到更大规模的基础模型,使用更高质量的指令数据以提升推理能力,并探索 流式处理 与 长上下文音频 场景。
VocalSound:VocalSound 数据集包含 21,024 条众包采集的语音录音,覆盖 6 类不同的发声表达,来自 3,365 名不同的受试者。
ESC-50:ESC-50 数据集由 2,000 条 5 秒长的环境音频片段组成,划分为 50 个类别。
DCASE2017 Task 4:DCASE 2017 Task 4 包含 17 种声音事件,分为“Warning”和“Vehicle”两大类,其评测集包含 1,350 条音频片段。
FSD50K:FSD50K 的评测集包含 10,231 条音频片段。我们在该评测集上进行评估,并报告多标签分类任务的 mAP(mean Average Precision)指标。包括人类声音 、 事物声音 、 动物声音、 自然声音和音乐 。
AudioSet:其中包含来自 YouTube 的 10 秒音频片段,这些片段按照 AudioSet 本体论被标注为一个或多个声音类别。
AudioCaps:AudioCaps 的评测集包含 901 条音频,每条音频配有 5 条文本描述,共计 4,505 对音频-描述样本。
Clotho V2:Clotho V2 的评测集包含 1,045 条音频,每条音频配有 5 条描述,共计 5,225 对音频-描述样本。
复杂音频推理 (CompA-R)是一个合成生成的指令调优 (IT)数据集,其中包含要求模型对输入音频进行复杂推理的指令。
Smart Turn 是一个开源的语义语音活动检测(Semantic VAD)模型,它通过分析原始音频波形(而不是转录文本),来判断说话者是否已经完成了当前的发言轮次。
轮次检测(Turn Detection) 是对话式语音 AI 技术栈中最关键的功能之一。
轮次检测的核心目标,是判断语音智能体应当在何时对人类的语音作出回应。
目前,大多数语音智能体都基于 语音活动检测(Voice Activity Detection,VAD) 来实现轮次检测。VAD 的作用是将音频划分为“有语音”和“无语音”片段。然而,VAD 无法理解语音中的实际语言内容或声学信息。人类在进行轮次判断时,会综合语法结构、语调、语速,以及多种复杂的声学和语义线索。我们的目标是构建一种模型,使其在轮次判断上的表现能够更接近人类的直觉,而不是受限于基于 VAD 的方法。
架构
模型架构:尝试了多种架构和基础模型,包括 wav2vec2-BERT、wav2vec2、LSTM 和额外的 transformer 分类器层,最终,Smart Turn v3 以 Whisper Tiny 为基础,并包含一个线性分类器层。该模型基于 Transformer 架构,拥有约 800 万个参数。尽管模型规模很小,但它在测试集上的准确率却比 v2 版本更高
Smart Turn 以 16kHz 单声道 PCM 音频作为输入,与 Silero 等轻量级 VAD 模型配合使用。一旦 VAD 模型检测到静音,便会对用户回合的整个录音运行 Smart Turn 功能,如有必要,将从开头截断音频,将其缩短至约 8 秒。
当前模型的架构相对较为简单。未来可以尝试探索其他建模方式,以提升整体性能,或者让模型输出关于音频的更多附加信息,亦或是在输入端引入更多上下文信息。
如果在 Smart Turn 尚未完成执行之前 检测到用户有新的语音输入,则应当 基于整个当前轮次的完整录音重新运行 Smart Turn,而不是仅对新增的音频片段进行推理。Smart Turn 在获得足够上下文信息的情况下效果最佳,其设计目标并非用于处理非常短的音频片段。
例如,如果能够为模型提供额外的上下文信息,用于对推理过程进行条件约束,将会非常有价值。一个典型的使用场景是:让模型“知道”用户当前正在朗读的是 信用卡号码、电话号码或电子邮箱地址。在这种情况下,模型可以基于特定的语义或结构模式,对轮次检测做出更符合人类预期的判断。
能力:
体积相比 v2 缩小近 50 倍,仅 8 MB 🤯
语言支持大幅扩展:现已覆盖 23 种语言:
🇸🇦 阿拉伯语、🇧🇩 孟加拉语、🇨🇳 中文、🇩🇰 丹麦语、🇳🇱 荷兰语、🇩🇪 德语、🇬🇧 🇺🇸 英语、🇫🇮 芬兰语、🇫🇷 法语、🇮🇳 印地语、🇮🇩 印度尼西亚语、🇮🇹 意大利语、🇯🇵 日语、🇰🇷 韩语、🇮🇳 马拉地语、🇳🇴 挪威语、🇵🇱 波兰语、🇵🇹 葡萄牙语、🇷🇺 俄语、🇪🇸 西班牙语、🇹🇷 土耳其语、🇺🇦 乌克兰语,以及 🇻🇳 越南语。
在模型体积大幅缩小的情况下,准确率相比 v2 反而进一步提升
Accuracy results

目标:解决“说话人分割与识别(SDR)”任务,简单讲就是从音频里搞清楚“谁在什么时候说了什么”,SpeakerLM是第一个能完整做SDR的音频-文本MLLM。

三种方案的对比:
SpeakerLM —— 一种面向 SDR 的统一多模态大语言模型,可在端到端方式下同时执行 SD 和 ASR。此外,为适配不同的真实应用场景,我们在 SpeakerLM 中引入了灵活的说话人注册机制,使其能够在多种注册配置下执行 SDR。SpeakerLM 通过多阶段训练策略,在大规模真实数据上逐步构建而成。实验结果表明,SpeakerLM 具有强大的数据扩展能力和泛化能力,在域内和跨域的公开 SDR 基准上均优于最新的级联式系统。此外,实验还显示,所提出的说话人注册机制能够有效保证 SpeakerLM 在不同的注册条件以及不同数量的已注册说话人下,持续保持稳健的 SDR 性能。
SpeakerLM主要贡献:
SpeakerLM 在预训练文本 LLM 中集成了一个轻量级的模态对齐机制。对于输入的多说话人音频,我们首先使用音频编码器进行编码,然后通过一个投影器将音频嵌入注入到文本 LLM 的特征空间中。
对于说话人注册部分,我们使用冻结的文本分词器(tokenizer)对已注册说话人的姓名以及特殊标记(如 <start> 和 <end>)进行分词。已注册说话人的语音首先经过冻结的预训练嵌入提取器处理,以获得说话人嵌入;随后,这些嵌入通过单层线性投影器映射到 LLM 的主干网络中。
Audio Encoder and Projector
音频编码器使用预训练的 SenseVoice-large 编码器初始化,该编码器具备强大的音频表征能力,并在多语言语音识别和音频事件检测等各类音频理解任务中表现优异。
音频投影器采用随机初始化的两层 Transformer,之后接一个卷积神经网络层用于维度对齐。
Embedding Extractor and Projector
使用预训练的说话人嵌入模型来提取说话人嵌入,该模型能够提供稳健且具有判别性的特征表示,对精确的说话人识别和归因至关重要。采用开源的 ERes2NetV2 模型进行嵌入提取,该模型在多个说话人验证基准上达到了 SOTA 性能。提取出的嵌入通过单层线性投影器进行维度对齐。
Large Language Model
使用预训练的 Qwen2.5-7B-Instruct作为文本 LLM 主干,以充分利用其强大的指令跟随能力和通用语言理解能力,从而使 SpeakerLM 能够高效处理不同信息量的复杂多说话人 SDR 任务。

灵活的说话人注册机制
如图 2 所示,我们在 SpeakerLM 中引入了灵活的说话人注册机制。为了适配真实应用场景,我们提出了三种不同的注册策略:No-Regist、Match-Regist 和 Over-Regist,具体如图 3 所示。
设真实标注中的说话人数为 Ngt,注册的说话人数为 Nrg,则在不同注册设置下,两者的关系可以形式化为:


No-Regist 表示不执行任何说话人注册。这是传统级联式 SD 系统及其应用中的常规设置。我们仅将多说话人音频输入模型,而不提供任何关于说话人的先验信息。这种范式与传统级联式 SDR 框架相一致,输出中的每位说话人都以匿名说话人 ID 表示(如 spk0、spk1 等)。
Match-Regist 假设所有真实标签中出现的说话人均已提前注册,与 SA-ASR 的设定一致。模型需要将每位说话人正确匹配到对应的姓名。该设置能够很好地反映那些已知用户预先注册、并需要个性化输出(如带说话人姓名的转写)的实际场景。在 Match-Regist 中,准确的说话人–姓名关联至关重要,模型必须有效利用注册的说话人信息来进行识别。
Over-Regist 指注册的说话人数多于实际音频中出现的说话人。在这种情况下,模型必须判断哪些注册说话人并未出现在当前语句中,并对剩余的活跃说话人执行准确的带说话人归因的 SDR。这一设置比 Match-Regist 更具挑战性,因为模型不仅需要处理冗余的说话人信息,还必须抑制无关的身份。同时,这与实际场景高度一致:系统可能预先注册了大量用户,但在某次交互中只有其中一部分参与。
总体而言,所提出的说话人注册框架使 SpeakerLM 能够在不同程度的说话人监督条件下灵活执行 SDR,从匿名转写到带个性化姓名的转写均可适用,从而覆盖多种真实的多说话人应用场景。
分了4个阶段,让模型循序渐进掌握SDR能力:
Stage1:只训ASR,得到“SpeakerLM-ASR”。用60万小时ASR数据,加LoRA训LLM,不加载说话人相关模块——目的是先把“听清楚内容”的能力拉满,毕竟ASR准了,后续SDR才好做。在这一阶段,说话人嵌入提取器与投影器不会加入模型。在随后的三个阶段中,这些模块会被加入完整架构。
Stage2:使用模拟的 SDR 数据训练随机初始化的投影器,同时 冻结 LLM 与音频编码器,目标是在 SDR 领域快速对齐音频与文本。使用模拟数据训练使得投影器能够在简化分布下建立初步的粗粒度对齐。与真实录音相比,模拟混合语音仅通过简单地拼接不同说话人的语句构造,并未模拟强噪声或混响。
Stage3:用真实SDR数据训音频编码器+projector。冻结LLM,联合训前两个模块——真实数据更复杂(比如会议远场语音),这一步是让模型抓真实场景的声学特征。
Stage4:联合训所有模块。给LLM加LoRA,一起训音频编码器、projector和LLM——最后一步整合语言(文本)和声学(音频)信息,搞定复杂多说话人场景。
数据构成:真实+模拟,覆盖各种场景
公开语料库中采样了 238.55 小时音频用于训练与评估,覆盖多种真实世界的多说话人场景。此外,我们还使用了 7456.99 小时的内部数据用于训练与验证,以进一步增强模型性能。详细统计如表 1 所示。

主要是中文数据集,用来训和测SDR:
模拟数据:用AliMeeting、AISHELL2、LibriSpeech、In-House-Train等的近场语音混出来的,5000h训练、5.6h测试(叫Simulation-Test),每段50秒,2-4个说话人,加了真实噪音和混响——用来做Stage2的训练数据。
音频重采样至 16 kHz,录音被随机切分为 40 到 50 秒的片段,用于训练和测试 SpeakerLM。对于说话人注册,已注册说话人的语音被切分为 2–10 秒的片段用于嵌入提取,随后将对应嵌入取平均,生成单个代表性说话人嵌入。对于 Over-Regist,训练期间过度注册的说话人数在 1 到 50 之间均匀取值。
优化器AdamW,学习率从1e-5 warm-up到5e-5,再余弦衰减;用4个NVIDIA A800 GPU,每个阶段训1M步,每10K步验证一次。
公开基准上评估 SDR 性能,包括同域数据 AliMeeting-Eval 和 AISHELL4-Eval,以及跨域数据 AISHELL5-Eval。
使用以下指标进行评估:字符错误率(CER)、cpCER、∆cp、saCER以及 ∆sa。
基线模型:
SpeakerLM 在无注册条件下,预测结果中的每个说话人都以匿名 ID 表示。

LM零样本(ChatGPT4.5、Qwen2.5零样本)特别差,CER反而升高——因为LLM会“ hallucination(幻觉)”,明明让它只改说话人标签,它却改了内容;就算微调Qwen2.5,也只比最强的SD+ASR(Diarizen-large+Para)好一点。
结果表明,当 SDR 数据规模有限时,SpeakerLM 表现落后于大多数级联基线。但随着训练数据量的增长,SpeakerLM 展现出强大的数据扩展能力(data scaling capability),其 cpCER 和 ∆cp 显著提升。
与此同时,CER 的提升幅度较小,这是因为企业内部数据多为近场录音,对具有混响的远场语音带来的 ASR 改善有限。当 SDR 训练数据达到 7,638.95 小时后,SpeakerLM 的性能显著超越所有基线系统。在 cpCER 方面,SpeakerLM 相比最强的级联系统,在 AliMeeting-Eval、AISHELL-4-Eval 和 AISHELL-5-Eval 上分别取得 6.60%、6.56% 和 13.82% 的绝对改进。值得注意的是,即使在难度较高且跨域的 AISHELL5-Eval 测试集上,SpeakerLM 也取得了 0.57 的 ∆cp,表明该模型在未见过且噪声环境下具有强大的鲁棒性和泛化能力。
在AliMeeting-Eval和Simulation-Test上,从Stage1到Stage4,cpCER和∆cp稳步下降,说明多阶段训练有效;第二阶段的 CER 高于第一阶段,这是因为 Stage 2 依赖模拟数据,而模拟过程并未包含来自这两个数据集的真实音频,导致了领域不匹配。后续阶段(Stage 3 和 Stage 4)中在更真实、更具多样性的会议风格数据上的微调,对缓解领域不匹配、提升模型在不同评测场景下的稳健性至关重要。


多余说话人数量对saCER的影响:

随着 Nov 的增加,并未观察到明显的性能退化。这反映出 SpeakerLM 对冗余说话人身份具有良好的鲁棒性,并且在推理过程中能够聚焦于与任务相关的说话人表征。
选择ERes2NetV2/CAM++ 作为说话人特征提取模型,在多项说话人验证基准上,ERes2NetV2 的表现优于 CAM++:No-Regist时,ERes2NetV2的CER=13.97%、cpCER=16.05%,都比CAM++低——说明“说话人embedding质量”会影响SpeakerLM性能,好的embedding能让模型更准识别说话人。

在 SpeakerLM 中,我们为 SDR 任务引入了三种说话人注册(speaker registration)机制:无注册(No-Regist)、匹配注册(Match-Regist) 和 过度注册(Over-Regist)。在训练过程中,所有样本默认以匹配注册的形式加载。对于每一个训练批次,我们会从 0 到 1 的均匀分布中采样一个随机数,用于决定注册类型:

1. SD+ASR+LLM: 在 SD+ASR+LLM 流水线中,我们使用基于文本的 LLM 来纠正 SD+ASR 前端生成的说话人标签。所使用的 prompt 继承自先前研究。
SD+ASR+LLM 的 LLM Prompt:
You are a helpful assistant. In the speaker diarization transcript below, some words are potentially misplaced. Please correct those words and move them to the right speaker. Directly show the corrected transcript without explaining what changes were made or why you made those changes.
(你是一名有帮助的助手。下面的说话人分离转录中,某些词语可能被错误地分配到说话人。请纠正这些词语并将其移动到正确的说话人处。直接展示修正后的转录,不要解释修改内容或理由。)
2. SpeakerLM-ASR : 在 SpeakerLM 的第一阶段训练中,我们使用纯 ASR 数据来增强模型的 ASR 性能。该模型被称为 SpeakerLM-ASR。使用的 LLM prompt 如下:
SpeakerLM-ASR 的 LLM Prompt:
You are a helpful assistant. Transcribe the speech. <start>path to the input speech<end>
(你是一名有帮助的助手。请进行语音转写。<start>输入语音的路径<end>)
3. SpeakerLM: 在 SpeakerLM 中,LLM 的 prompt 会随着注册机制的不同而变化。这里给出了三种注册场景(No-Regist、Match-Regist 和 Over-Regist)的 prompt 设计。假设真实标注包含三位说话人:Mike、Lucy 和 Jack,则相应的 prompt 构造如下。
No-Regist(无注册)
You are a helpful assistant. Transcribe by roles. <start>path to the multi-speaker speech<end>
(你是一名有帮助的助手。请按角色进行转写。<start>多说话人语音的路径<end>)
Match-Regist(匹配注册)
You are a helpful assistant. Registered Speaker Embeddings:
Mike<start>path to the embedding of Mike<end>;
Lucy<start>path to the embedding of Lucy<end>;
Jack<start>path to the embedding of Jack<end>;
Transcribe by roles. <start>path to the multi-speaker speech<end> (你是一名有帮助的助手。已注册的说话人嵌入如下:
MikeMike 的嵌入路径;
LucyLucy 的嵌入路径;
JackJack 的嵌入路径;
请按角色进行转写。多说话人语音的路径
(说话人顺序没有特定要求。))
Over-Regist(过度注册)
You are a helpful assistant. Registered Speaker Embeddings:
Mike<start>path to the embedding of Mike<end>;
Lucy<start>path to the embedding of Lucy<end>;
Jack<start>path to the embedding of Jack<end>;
Andy<start>path to the embedding of Andy<end>;
Rose<start>path to the embedding of Rose<end>;
Frank<start>path to the embedding of Frank<end>;
Transcribe by roles. <start>path to the multi-speaker speech<end> (注:在此情况下,Andy、Rose 和 Frank 是来自其他会话的过度注册说话人。说话人顺序没有特定要求。)
Qwen3-Omni ,这是一个原生端到端的多语言全模态基础模型。它旨在处理包括文本、图像、音频和视频在内的各种输入,同时提供文本和自然语音的实时流式响应。
💜 Qwen Chat | 🤗 Hugging Face | 🤖 ModelScope | 📑 Blog | 📚 Cookbooks | 📑 Paper
🖥️ Hugging Face Demo | 🖥️ ModelScope Demo | 💬 WeChat (微信) | 🫨 Discord | 📑 API
主要特点:
模型架构:
Qwen3-Omni采用Thinker-Talker架构:Thinker负责文本生成,Talker专注于流式语音Token生成,直接接收来自Thinker的高层语义表征。为实现超低延迟流式生成,Talker通过自回归方式预测多码本序列:在每一步解码中,MTP模块输出当前帧的残差码本,随后Code2Wav合成对应波形,实现逐帧流式生成。
Qwen3-Omni models

当前多模态的训练会出现一种模态的提升伴随着其他模态的退化,该工作探索在当前主流的基于大语言模型(LLM)的范式下实现集成式多模态训练,证明了联合多模态训练可以在所有模态上实现性能均衡,即不存在模态特异性的性能下降,同时显著增强跨模态能力。关键在于:在文本预训练的早期阶段混合单模态和跨模态数据。
关键:在文本预训练的早期阶段混合单模态和跨模态数据。预训练早期的多模态融合允许语言模型与视觉或音频共同训练,而不会导致语言能力下降;文本模态的加入显著提升了视觉和音频的性能,但从视觉或音频信号中并未观察到语言能力的显著提升;从经验来看,加入音频数据可以持续提升视觉模态在 MMMU 基准和 OCR 相关任务上的表现。
Qwen3-Omni 对 Qwen2.5-Omni的架构进行五项关键升级:
此外,还有四个大的改进:
最核心的是 Qwen3-Omni 在文本与视觉模态上保持了与同规模单模态 Qwen 模型一致的最先进性能,没有出现性能退化。
在训练和推理过程中,Talker 直接接收来自 Thinker 的高维多模态特征,并共享完整的对话历史。因此,整个系统作为一个整体运行,实现端到端训练与统一推理。

Audio Transformer(AuT)是一种注意力式的 encoder–decoder 模型,如图 3 所示,在 2000 万小时的有监督音频数据上从零训练而成。训练过程中,音频的滤波器组特征(filter bank features)在进入注意力层之前,通过 Conv2D 模块进行 8 倍下采样,将 token 速率降至 12.5 Hz。为了学习更强大、更通用的音频表示,AuT 在大规模音频数据集上进行训练,涵盖语音识别与音频理解任务。具体而言,训练数据组成如下:
为在实时 prefill 缓存效率与离线音频任务性能之间取得平衡,AuT 使用具有动态注意力窗口大小的 flash attention,覆盖从 1 秒到 8 秒的注意力查询模式。将 AuT encoder 用作音频编码器,模型参数约为 0.6B
Text, Audio, Image and Video (w/o Audio).
Thinker 将文本、音频、图像与无音轨视频转换为一系列可作为输入的表征。文本基于Qwen3文本分词器,语音处理为16 kHz,并将原始波形转换为 128 维 Mel 频谱图,通过AUT编码,每一帧音频表示约对应原始音频信号的 80 ms。视频编码器基于Qwen3-VL 的视觉编码器(SigLIP2-So400m),可同时处理图像与视频输入。为了尽可能保留视频信息并与音频采样率对齐,我们采用动态帧率采样视频帧。
Video and Multimodal Position Embedding (TM-RoPE)
参考Qwen2.5-Omni,使用 时间对齐的多模态旋转位置编码(TM-RoPE),它在多模态旋转位置编码(M-RoPE)基础上加入了绝对时间信息。TM-RoPE 将传统旋转位置编码分解为三个维度:
在原始 M-RoPE 中,时间相关性由前 16 个旋转角建模,这些角对应高频且震荡更强的模式。该设计有利于捕获局部时间变化,但会影响模型对长序列的外推能力。
为解决这一问题,我们重新分配了旋转角数量:
该分配在局部语义与长程依赖之间实现了更平衡的表示,从而提升整体性能。
TM-RoPE 会根据输入模态的不同进行定制化应用:
对于音视频输入:
为避免多模态之间的位置冲突,所有模态的位置编号保持连续,每种模态的起始位置 ID 为前一种模态最大位置 ID 加一。该精细化的位置编码方案使模型能够有效整合并联合建模多模态信息。
相较 Qwen2.5-Omni 的关键区别:不同于 Qwen2.5-Omni 将音视频表示强制切分为固定的 2 秒块,Qwen3-Omni 直接基于绝对时间的时间 ID 对齐多模态表示。这种设计赋予模型处理任意时长流式输入的灵活性。
在多轮对话的语音合成中,Talker 模块依赖于由 Thinker 组件提供的丰富上下文,该上下文包括历史文本 token、多模态表示以及当前轮的流式文本。对长上下文信息的依赖至关重要,因为高保真语音合成需要根据当前对话动态调整声学属性,如韵律、响度和情感,这一原则在上下文感知生成模型中已被充分验证。
在架构上,直接在 RVQ token 上进行操作。Talker 采用层次化预测策略:骨干网络(backbone)输入当前帧的聚合码本特征,并通过线性头预测第零码本,随后多 token 预测(MTP)模块生成所有剩余码本。这一策略使模型能够学习声学细节的完整表示,从而增强语音的表现力。因此,波形重建被简化为轻量级因果卷积网络(Code2Wav),在显著降低推理延迟和计算开销(FLOPs)的同时,相比更复杂的基于 DiT 的声码器实现了更高的音频保真度。

在流式视听交互场景中,首包延迟是影响用户体验的关键因素,而模型的并发能力对于降低服务成本和提高响应速度至关重要。下面是 Qwen3-Omni 如何通过算法与架构优化提升并发性并降低首包延迟。
分块预填充与 MoE 架构。在 Qwen3-Omni 中,保留了 Qwen2.5-Omni 中的分块预填充机制,其音频和视觉编码器能够沿时间维度输出分块(chunk)。在实时交互中,Thinker 和 Talker 模块执行异步预填充:当 Thinker 完成当前块的预填充后,其输出的高层表示会立即异步用于预填充 Talker 的当前块,同时 Thinker 预填充下一块。这种方法显著降低了 Thinker 和 Talker 的 Time-To-First-Token (TTFT)。
在架构上,Qwen3-Omni 的 Thinker 与 Talker 均采用 MoE设计,这对于提升服务吞吐量非常有效。与稠密模型相比,MoE 架构在处理长序列时显著降低了 KV 缓存带来的 IO 消耗,从而提高生成过程中的每秒 token 数(TPS)并增强并发性能。
流式多码本编解码生成:为了最小化用户接收首个生成包的等待时间,提出了仅左侧上下文的多码本生成机制。如图 2 所示,一旦 Talker 生成第一个 token,MTP 模块即可预测当前帧的剩余 token,然后由流式多码本编解码器将其解码为波形,该编解码器仅关注左侧上下文。与 Qwen2.5-Omni 需要等待 Talker 生成足够块级上下文才能合成波形不同,Qwen3-Omni 在 Talker 生成每个 token 后即可输出波形,从而显著降低首包延迟。
轻量级 MTP 模块与 ConvNet:MTP 模块和编解码器均为轻量级模块,计算 FLOPs 低,支持批处理推理,非常适合高并发场景。MTP 模块是超轻量级、固定步长的自回归稠密 Transformer,在推理硬件上对内存带宽要求低,从而天然支持高吞吐量请求的批处理。其固定步长自回归推理机制允许高效利用固定 KV 缓存空间加速,实现低延迟推理。同时,基于 ConvNet 的编解码器也能在低延迟下实现高吞吐量,因为其卷积架构在多种推理平台上均有广泛硬件加速支持,并且支持高效的批处理推理。

表 2 给出了 Qwen3-Omni 在典型计算资源下,不同并发场景下的理论首包延迟(first-packet latency)。实验在 vLLM 框架上进行,用于处理并发的视听流,同时对 MTP 模块和编解码器采用了 torch.compile 和 CUDA Graph 加速优化。
首包延迟受到多个因素影响:
由于这些组件之间存在顺序依赖,总体首包延迟是各个延迟的累加。结果显示,Thinker 和 Talker 的 MoE 架构 能确保在高并发下,其预填充延迟和 TTPT 基本不受影响。同时,MTP 模块和编解码器的轻量化设计最小化了计算开销,对首包延迟的影响也很小。
此外,在输出首个数据包后,模型开始进行流式音频合成,由于 Talker 的 token 生成速率为 12.5 Hz,每个 token 即可合成 80 ms 的音频。因此,生成实时因子(RTF)通过以下公式计算:

实验结果表明,RTF 在不同并发水平下始终低于 1,确保用户能够持续接收流式音频响应

Qwen3-Omni 在一个多样化的数据集上进行预训练,该数据集涵盖多种语言和方言(如表 3 所示)以及多种模态,包括图文、视频文本、音频文本、视频音频、视频音频文本以及纯文本语料库。与 Qwen2.5-Omni 使用每个任务单一提示词不同,我们采用更丰富的自然语言提示,以增强模型的泛化能力和指令遵循能力。为了在所有模态下实现稳健性能,训练策略从早期预训练阶段就整合了单模态和跨模态数据。
Qwen3-Omni 的预训练分为三个阶段:
后训练阶段包括对 Thinker 的三阶段训练,使 Qwen3-Omni 具备指令遵循能力。训练数据集采用 ChatML格式,涵盖纯文本对话、视觉模态对话、音频模态对话以及混合模态对话数据。
第一阶段:轻量化监督微调(SFT)
通过有针对性的指令优化,将预训练表示与下游任务需求进行桥接。SFT 有意偏离预训练数据结构,但保持与预训练模型的架构一致,以实现高效的知识迁移,同时保留预训练特征的完整性。
第二阶段:强对弱蒸馏(Strong-to-Weak Distillation)采用 Qwen3中描述的蒸馏流程,包括两个阶段:
第三阶段:GSPO 强化,利用 GSPO全面提升模型在文本、图像、视频和音频等多模态上的能力和稳定性。针对不同模态使用两类奖励信号:
对 Talker 采用四阶段训练,使 Qwen3-Omni 能够同时生成文本与语音响应。训练数据统一采用 ChatML 格式,确保与 Thinker 的一致性。
字幕生成是多模态理解的基础任务,也是大型多模态模型训练与评估的重要组成部分。然而,现有研究大多集中在视觉字幕生成,较少关注音频模态,而听觉感知是人类感知与交互的重要组成。为弥补这一空白并推动多模态感知研究,我们提出 Qwen3-Omni-30BA3B-Captioner。该模型通过在大规模音频描述数据集上微调 Qwen3-Omni-30B-A3B 得到,可为任意音频输入生成详细、低幻觉的字幕。
对一系列模型进行了全面评估,包括 Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking 以及两款内部开发的变体 Qwen3-Omni-Flash-Instruct 和 Qwen3-Omni-Flash-Thinking。这些 “Flash” 模型旨在提升计算效率和性能,同时引入新功能,尤其是对多方言的支持。评估结果分为两大类:理解能力(X→Text) 和 语音生成能力(X→Speech)。
Qwen3-Omni 理解各种多模态输入(文本、音频、视觉以及视听视频)并生成文本响应的能力。
文本→文本:评估通用任务、推理能力、编码能力、对齐任务、代理(Agent)以及多语言任务。

音频→文本:分为基础音频任务和高级音频任务两类。基础任务包括自动语音识别(ASR)、语音转文本(S2TT)以及音乐理解;高级任务包括语音聊天和音频推理。另外,还评估模型在各种音乐信息检索任务上的能力,如流派识别、情感与主题识别、乐器识别以及音乐关键词标注。
表 6 所示,Qwen3-Omni-Instruct 在 Librispeech、Wenetspeech、Fleurs、CommonVoice、Opencpop-test 以及 MIR-1K(vocal)等数据集上取得了英语与中文 ASR 以及歌词识别的最新最优性能(SOTA)。在多语言 ASR 和 S2TT 任务上,Qwen3-Omni 的表现同样优于或可与其他专业模型或通用模型(如 Voxtral-Small 和 Gemini-2.5-Pro)媲美。这些结果表明 Qwen3-Omni 在语音识别与语音翻译任务上具备非常强的能力。

此外,如表 7 所示,Qwen3-Omni-Thinking 在 VoiceBench 上取得了 89.5 的平均得分,超过了除 Gemini-2.5-Pro(89.6)之外的所有其他音频大模型,展现出优秀的语音交互能力。

在音频推理方面,Qwen3-Omni 同样表现突出:在 MMAU 基准上超越了强大的闭源模型 Gemini-2.5-Pro 与 Gemini-2.5-Flash,在 MMSU 上超过了 Gemini-2.5-Flash 和 GPT-4o-Audio。
表 8 中将 Qwen3-Omni-Instruct 与通用音频语言模型和专业音乐模型进行了比较。Qwen3-Omni-Instruct 在 RUL-MuchoMusic 上取得了最新最优(SOTA)表现。在 GTZAN、MTG-Jamendo 以及 MagnaTagATune 上,Qwen3-Omni-Instruct 的得分也显著超过了其他音频语言模型(包括 Gemini-2.5-Pro 和 GPT-4o-Audio),并超过了在这些数据集上测试的多种自监督音乐专业模型。

视觉→文本:通用视觉问答能力、数学与 STEM 推理能力、文档理解能力、数值推理与计数能力、动态视觉数据理解能力。将 Qwen3-Omni-Instruct 与 Qwen2.5-VL-72B 以及其他表现优异的闭源视觉语言模型进行了对比。如表 9 所示,Qwen3-Omni-Instruct 的整体表现与 Qwen2.5-VL-72B 相当,并且在 数学与 STEM 相关任务(如 MMMU-Pro overall、MathVista mini、MATH-Vision full)上取得了优于 GPT-4o 和 Gemini-2.0-Flash 的成绩。

Qwen3-Omni-Thinking 与多种最先进推理模型进行了比较。
表 10 的结果显示,我们提出的模型取得了显著的性能提升。例如,在 数学与 STEM 基准 上,它比 Qwen3-Omni-Instruct 基线提升了 4.4 个点。
值得注意的是,Qwen3-Omni-30B-A3B-Thinking 的性能已经可与规模更大的模型相媲美,展现了在 性能与计算效率之间的优秀平衡。

然而,该模型仍存在一个限制:在 长视频任务 上表现不佳。原因:1、位置外推能力有限(positional extrapolation)2、上下文长度受限
音视频→文本:在 WorldSense 进行基准测试以及两个视听推理基准进行测试。在 通用理解任务 中,Qwen3-Omni-Instruct 在 WorldSense 基准上实现了当前最佳性能,并以显著优势超越了其他 Omni 模型。该结果表明其在基础多模态信息融合方面具有卓越能力。

评估主要集中在给定文本条件下的语音生成,即与文本到语音(TTS)任务的相似性,评估内容包括以下三个方面:
零样本语音生成:
如表 13 所示,Qwen3-Omni 展现了 高度竞争力的性能,凸显了其通过预训练及持续预训练所获得的稳健语音理解与生成能力。此外,通过 强化学习(RL)优化,Qwen3-Omni 在语音生成的稳定性方面也取得了显著提升,并在 test-en 数据集上达到了最佳性能。

多语言语音生成:
Qwen3-Omni 支持跨 10 种语言 的语音生成。我们将其性能与 MiniMax-Speech 和 ElevenLabs Multilingual v2 模型在多语言语音生成任务上进行了对比。
如表 14 所示,Qwen3-Omni 在 中文、英文和法语 等语言上显著超越了其他模型,并在其余语言中取得了具有竞争力的结果。

跨语言语音生成评估:Qwen3-Omni 在 any-to-en(任意语言到英语) 和 any-to-ko(任意语言到韩语) 的语音克隆任务中均优于 CosyVoice3。在 any-to-ja(任意语言到日语) 任务中,即便 未进行文本规范化,Qwen3-Omni 仍能达到与 CosyVoice3 相当的性能,而 CosyVoice3 会将所有日语字符转换为假名(kana)。

由于不同模态的异质性,每种模态都需要不同的预训练目标和优化技术,因此采用标准化的数据整合方法变得不切实际。为了确保公平而严格的评估,我们设计了一个 受控对比实验。具体方法如下:我们预训练了三个参数量匹配的模型:仅文本基线模型(text-only baseline)、仅视觉基线模型(vision-only baseline)以及多模态 “Omni” 模型。为了隔离多模态效应,所有潜在的混淆变量都得到了精确控制。具体而言,Omni 模型使用与单模态基线相同的文本和视觉语料进行训练。此外,我们在所有模型间对关键训练参数进行了对齐,包括学习率策略、批大小以及每种模态的有效训练轮数(通过调整数据采样比例进行归一化)。因此,本实验中唯一的区别在于 Omni 模型在预训练阶段加入了额外的音频和视听数据。
如表 16 所示,我们评估了涵盖多种模态的综合基准,包括:文本模态(通用任务、数学与 STEM 任务、编程任务、多语言任务)、视觉模态(大学水平问题、OCR 相关任务)以及视频模态(视频理解任务)。实验结果表明:
这充分展示了 Qwen3-Omni 在多样化评估标准下的通用性与稳健性。

根据表 16 及内部实验结果,我们观察到以下规律:
Qwen3-Omni 是一个里程碑:据我们所知,它首次提供了证据表明,完全整合的端到端多模态训练可以在不降低核心语言能力和其他模态表现的情况下实现。我们希望与学术社区分享这些成果,并期待能够激发更多相关研究。
未来工作中,我们计划在多个方向进一步推进模型发展,包括多说话人语音识别(multi-speaker ASR)、视频 OCR、视听主动学习,以及增强对基于代理(agent)工作流和函数调用的支持。

Step-Audio-EditX —— 全球首个基于大语言模型(LLM)的开源音频编辑模型,能够在语音的情感、说话风格和副语言特征(如语气、语速、语调等)上实现高度富有表现力且可迭代的编辑,同时具备强大的零样本文本转语音(TTS)能力。
核心创新在于:模型仅依赖大间隔(large-margin)合成数据进行训练,无需使用嵌入先验或辅助模块。这种大间隔学习策略使模型能够在多种音色上实现可迭代控制与高表达力,并从根本上区别于传统聚焦于表示层面解耦的思路。实验结果表明,Step-Audio-EditX 在情感编辑和其他细粒度语音控制任务上均超越了 MiniMax-2.6-hd 和 Doubao-Seed-TTS-2.0。

当前 TTS 的问题:由于合成语音中的情感、风格、口音和音色等属性仍然直接来源于参考音频,限制了对这些属性的独立控制,另外,对于克隆语音通常无法有效地遵循提供的风格或情感指令。
许多以往关于语音解耦的研究依赖以下方法来实现属性分离:对抗式训练、特征工程以及创新的网络结构设计。相比之下,文章提出了一种简单但稳定的数据驱动方法。具体来说,我们设计了一条数据生成流程,用于构建高质量的数据对,这些数据对在保持完全相同语言内容的同时,在情绪、说话风格、口音、副语言特征等一个或多个属性上具有明显可区分的差异。通过在这样的数据对上训练模型,能够实现有效的属性解耦,使模型能够对输入语音的属性进行编辑。此外,通过多次迭代的“编辑”步骤,目标属性的强度可以被逐步增强或减弱。除了情绪、风格和副语言特征编辑之外,该方法可以扩展到其他任务,包括语速调整、语音去噪以及静音片段裁剪等。
主要贡献:

基于 Step-Audio 中的音频编辑合成模型,主要改进包括扩展了情感和语音风格的范围,增加了零样本文本转语音 (TTS) 和副语言编辑功能,并将模型参数从 130B 减少到 3B。
系统由三个主要组件组成:
Audio Tokenizer:采用并行语言分词器(16.7 Hz,1024 码本)和语义分词器(25 Hz,4096 码本),交错比例为 2:3。观察到双码本分词器能够保留大量情感、韵律及其他非语言信息,这表明该方法在信息解耦方面仍不够理想,这一不足恰好使其非常适合作为验证LLM 后训练策略及所提出的大间隔数据驱动方法有效性的实验对象。
Audio LLM:为了充分利用预训练文本 LLM 的强大语言处理能力,3B 模型首先使用基于文本的 LLM 进行初始化,然后在文本数据与音频双码本token以 1:1 比例混合的数据集上进行训练。音频 LLM 以聊天格式处理文本token及其对应的双码本音频token,最终生成双码本token作为唯一输出。
Audio Decoder:音频解码器由 Flow Matching 模块和 BigVGANv2声码器组成。Flow Matching 模块在输出音频令牌、参考音频以及说话人嵌入(speaker embedding)作为条件下生成 Mel 频谱图,而 BigVGANv2 声码器则进一步将 Mel 频谱图转换为音频波形。对于 Flow Matching 模块,采用扩散变换器(DiT)作为骨干网络,并在 20 万小时高质量语音上训练该模型。
SFT 数据:零样本 TTS、情感编辑、说话风格编辑以及副语言编辑。
该方法在同一说话人之间进行零样本语音克隆,覆盖不同的情感和说话风格,同时确保对比样本对之间具有足够大的差距。仅需 每种情感或风格的一个提示音频片段,避免了昂贵的数据收集成本。此外,该方法巧妙地将复杂的情感与风格描述 转换为基于比较的样本对构建格式。具体方法如下:
3. 副语言编辑(Paralinguistic Editing)
副语言 如呼吸、笑声以及填充停顿(例如“嗯”),对于提升合成语音的自然度和表现力至关重要。通过使用 “半合成”策略 实现了副语言编辑能力,该策略利用 NVSpeech 数据集——一个表现力丰富的语音语料库,其对多种副语言类型进行了详细标注,从而使得构建用于模型训练的比较四元组成为可能。
四元组 ⟨text_without_tags, audio_without_tags, text_nv_source, audio_nv_source⟩ 的构建方式不同于三元组:它使用 NVSpeech 的 原始音频和转录文本 作为目标输出,而将通过 StepTTS 语音克隆生成的音频作为输入,该音频是基于去除副语言标注后的原始转录文本合成的。
由于副语言编辑是 在时间域上进行的编辑任务,且存在显著的内在边距差异,因此 数据选择不需要边距评分模型。只需一小部分四元组数据,即可有效激发模型的副语言编辑能力。
强化学习数据:基于人工标注,以及使用 LLM-as-a-Judge(大型语言模型作为评判) 方法
人工标注:收集用户提供的真实世界的 提示音频 及对应文本提示,然后使用 SFT 模型生成 20 个候选响应。接着,通过人工标注员根据 正确性、韵律和自然度 对每个响应进行 5 分制评分,构建 选择/拒绝对。仅保留评分边距大于 3 的样本对。
LLM-as-a-Judge:使用理解能力模型对模型响应的 情感和说话风格编辑 进行 1-10 分评分,再根据评分生成偏好对,并仅在最终数据集中保留 评分边距大于 8 分 的样本对。
经过筛选的大边距样本对将用于训练 奖励模型 和 PPO
两阶段:SFT,然后进行 PPO
SFT 阶段通过在 聊天格式下使用不同系统提示来增强模型的零样本文本转语音合成与编辑能力。
模型在 SFT 阶段训练 1 个 epoch,学习率范围从 1 × 10⁻⁵ 到 1 × 10⁻⁶。
强化学习用于提升模型在 零样本 TTS 的稳定性,以及在执行编辑指令时的能力和表现力。当 源提示音频与目标编辑输出在情感或风格上存在显著差异 时,这种提升尤为明显,例如将快乐语音生成悲伤语音,或将高音量语音转换为耳语。
该强化学习方法提供了一种新的思路:不再单纯追求理想的语音表示解耦,而是同时优化大边距样本对的构建与奖励模型的评估效果。
奖励模型从 3B SFT 模型 初始化,并使用 人工标注数据与 LLM-as-a-judge 生成的大边距数据 进行训练,优化方法采用 Bradley-Terry 损失。
PPO 训练:获得奖励模型后,使用 PPO 算法 进行进一步训练。训练使用与奖励模型训练相同的提示种子,但只选择 对 SFT 模型最具挑战性的提示。
情感与说话风格编辑结果: 如表 1 所示,在 Iter0 音频进行首次编辑后,情感和说话风格的准确率都有显著提升。此外,经过连续迭代编辑后,情感和说话风格的准确率进一步增强。

闭源模型上的泛化能力:Step-Audio-EditX 首次编辑 后,所有声音模型的情感和风格准确率均显著提升。经过接下来的两轮迭代,准确率进一步增强,从而有力证明了本模型的 强泛化能力。

闭源模型上的情感控制,Step-Audio-EditX 在零样本克隆能力下展现出 更高的情感准确率,优于其他两款模型。仅经过 一次编辑迭代,所有音频样本的情感准确率均显著提升。将一次情感编辑迭代应用于零样本克隆音频,其效果 超过了闭源模型原生情感控制功能生成的结果。

副语言编辑: 如表 4 所示,在仅进行一次编辑迭代后,通过加入副语言标签(paralinguistic tags),模型在副语言元素的重建与插入方面取得了显著性能提升。实验结果表明:经过一次 Step-Audio-EditX 的副语言编辑后,生成的副语言效果已经可与闭源模型使用原生副语言标签直接合成的结果相媲美,展现出强大的泛化能力与编辑一致性。

扩展能力:
语速编辑:构造了三元组⟨text, audiosource, audiofaster/slower⟩,其中针对同一说话人,通过 SoX 工具包 的受控速度扰动生成快/慢版本音频。由于语速变化会显著改变 token 序列长度,仅使用 SFT 即可实现有效的语速编辑。
去噪与静音剪裁:基于生成式的方法,实现提示音频和合成音频的定向编辑,包括去噪和静音剪裁。
去噪(Denoising)构造三元组:⟨text, audioaugment, audiosource⟩其中 audiosource 为干净音频(ground truth),audioaugment 通过添加噪声与混响模拟生成。
静音剪裁(Silence Trimming)构造三元组:⟨text, audiosource, audiotrimming⟩audiosource 含有静音片段,audiotrimming 则通过 Silero-VAD 提取语音区间后拼接生成。
核心:基于音频特征+实体词库,使用神经网络检索可能最的实体词,然后通过LLM进行纠错
华为这篇论文的核心目标——解决ASR(自动语音识别)里“专有名词老认错”的问题。比如像“ChatGPT”“长江白鲟”这种领域特定的命名实体,ASR(比如Whisper)在通用场景里挺准,但遇到这些词常转错,后续用这些转录文本做任务就全乱了。
命名实体纠错 (NEC) 方法是指用于纠正ASR转录文本中的命名实体错误,现在主流的命名实体纠错 (NEC)方法分两类:
(1) 在转录文本生成过程中同时纠正错误;一般需要训练额外的模块,使 ASR 模型具备上下文偏置能力,或者利用上下文信息来纠正 ASR 模型中的命名实体错误。 这些方法需要对ASR系统进行修改,使其具备纠错能力,因此这些方法很难应用于第三方 ASR 系统。
(2) 在转录文本生成后纠正错误,即后编辑错误。不需要对 ASR 系统进行任何修改,因此后编辑 NEC 方法更具适用性。其中最常见的是PED-NEC(基于语音编辑距离的方法),当 ASR 转录文本中实体和相关错误文本的词形相似时,我们可以通过遍历实体数据存储轻松定位错误,但PED-NEC有个大毛病——如果错的文本和真实实体“长得太不一样”,就彻底歇菜。比如:

这时候PED-NEC没法定位错词,自然就纠正不了,这就是论文要解决的核心问题。
为了解决上述问题,创新性地提出了一种基于生成式方法的 NEC(命名实体校正) 方法,用于在转录文本中自动标注待纠正片段。具体来说,利用语音声学特征、候选命名实体以及 ASR 转录结果,生成(标注)出转录文本中需要被纠正的词语,并据此进行修正。该基于错误标注的 NEC 方法能够在识别出待纠正文本后,实现端到端的文本纠错,无需考虑词形变化,因此相比以往基于规则的替换方法具有更高的优越性。

Method:核心是两步:SS(语音特征检索候选实体)+ GL(生成式标注错误文本)。简单说,不依赖文本长得像不像,而是基于语音相似性进行实体检索,再让模型“智能标出”错词,最后替换——完美解决“长得不一样”的问题。
纠错流程如图2所示。首先预先构建一个数据存储库(datastore),用于保存实体的音频-文本对。在获得语音片段和 ASR 转录结果后,执行语音检索【SAN(自注意力网络)和FFN(前馈网络)】,以判断该语音片段的某一部分是否与数据存储库中某个候选实体的语音特征相似。
如果存在相似的候选实体,就将该候选实体与 ASR 转录文本拼接在一起,作为提示(prompt)输入纠错模型,以引导模型生成 ASR 转录中可能错误的词语(即与正确实体对应的错误文本)。最后,将检测出的错误文本替换为数据存储库中的正确实体。

Datastore Creation:收集实体列表 X={x1,x2,…xn} ,以及基于TTS合成对应的的语音:

将 TTS 生成的音频输入到编码器,并将编码器最后一层的输出作为实体 xi 的语音表示。为了提高检索准确率并降低内存占用,我们在编码器的末尾添加了一个CNN层

数据存储存储键值(表示实体)对:

Entity Retrieval:用户的输入音频片段 s 输入到编码器中,并从编码器最后一层的输出中得到它的表示 s’:

引入自注意力网络(SAN)和前馈网络(FFN)来计算数据存储区 s 包含候选实体 xi′ 的概率 pi :

最后应用平均池化,获取最终的分类:

判断数据存储中是否存在语音片段中的实体。如果概率 pi 高于我们设定的阈值,则选择前 K 个候选实体进行进一步校正。
Error Correction:通过上述实体检索方法获得若干候选实体,用符号“|||”连接实体,然后用引号将实体字符串与 ASR 转录文本连接起来。实体+转录文本字符串用作提示,引导纠错模型在转录文本中生成与候选实体具有相似语音特征的错误实体。该过程实际上是一种生成式标注方法,因为纠错模型会在原始 ASR 转录文本中输出一个或多个单词。
方法还具备实体拒绝功能。如果模型无法将候选实体与转录文本中可能存在的错误实体匹配,则会生成符号<empty> 表示没有返回结果。

模型旨在找到语音相似且符合语言模型的待更正文本,最后一步是用数据存储中的真实实体替换错误文本。
Experimental :
1. 数据准备:训练+测试集都很实在训练数据:用了Aishell数据集里的54129个中文实体,正负样本1:10(正样本是含实体的音频文本对,负样本是不含的);还特意让20%的Prompt里加了“无关实体”(比如该纠正“ChatGPT”,却加了“Midjourney”当候选),练模型生成“”的能力,避免过纠正。测试集:搞了两个,一个是开源的,一个是自己建的:
评估指标:看四个关键数据,别嫌麻烦,这些数能直接看出效果:
对比的基线方法:跟四种方法比,确保新方法真的好:

论文还特意从Aishell里挑了50个“错词和实体长得特别不一样”的案例做了个“词形差异集”,SS+GL在这上面表现更突出,把PED-NEC甩得更远。
BuzzWord难点集这是最能体现新方法优势的地方,因为这里面全是ASR最容易认错的新词、外来词,数据更惊艳:


关键图表分析:证明方法为啥有效:

这图看的是模型的注意力分布,能看到:

这图横坐标是检索时的概率阈值(比如0.1、0.2…0.9),纵坐标一边是检索的F1值(越高说明检索越准),一边是纠正的CER(越低说明纠正越好)。
实体拒绝案例——证明“不瞎改”:

这个案例特别典型:候选实体是“韩宇”(人名),ASR转录本里有两个发音一样的词——“韩雨”(另一个人名,需要改)和“韩语”(语言,不用改)。
除了纠正效果好,SS+GL还有三个大优势:
基于生成式的纠错方法只对“待纠正文本”进行标注,从而使得时间消耗极小,但当数据存储库(datastore)中包含大量实体时,实体检索部分可能会变得非常耗时。
在这种情况下:
论文:https://arxiv.org/pdf/2509.20410
口语对话模型在智能人机交互方面取得了显著进展,但仍缺乏一种可即插即用的全双工语义端点检测模块,从而限制了音频交互的无缝体验。本文提出了一种基于大语言模型(LLM)的流式语义端点检测模型——Phoenix-VAD。Phoenix-VAD 利用大语言模型的语义理解能力,并结合滑动窗口训练策略,实现了在流式推理场景下的可靠语义端点检测。实验证明,在语义完整与语义不完整的语音场景中,Phoenix-VAD 均取得了优异且具竞争力的性能。
现有方法在这一方面存在明显局限。传统的VAD仅依赖声学特征判断“是否存在人声”,无法理解语义层面的意图,因而难以实现自然的语义对齐。语义VAD虽在一定程度上引入了语义判断,但通常依赖外部自动语音识别(ASR)模块,导致系统延迟增加,并可能损失语音中的细粒度语义信息。至于如 RTTL-DG、Moshi 等端到端方案,虽具备一定的语义理解能力,但模型高度耦合,难以在不同对话系统中直接复用,每次更换对话模型都需重新训练或微调,部署成本较高。
Phoenix-VAD ——一种基于大语言模型的语义端点检测框架,旨在实现模块化、低延迟、可流式推理的全双工语音交互。


音频编码器:用的是150M参数的Zipformer,之前还在10万多组内部ASR数据上训练过,能把原始语音波形转换成25Hz的“帧级特征”——简单说就是先把语音里的关键信息抽出来,方便后续处理。
适配器:就是两个线性层加个ReLU激活函数,专门解决“音频特征和文本特征对不上”的问题。它先把编码器输出的音频特征,按几帧拼一块做下采样,再转成LLM能“看懂”的文本embedding,最后输出适配好的特征。
LLM:用的是Qwen2.5-0.5B-Instruct,给它喂两样东西:一是适配器处理好的音频特征,二是文本提示(比如告诉它“你是个VAD,要判断用户是不是还在说”),最后让它输出两个结果:要么是“Continue Speaking”(用户还在说),要么是“Stop Speaking”(用户说完了)。
Sliding Window:
滑动窗口策略仅使用每个窗口内的音频进行预测,从而降低了对整个输入序列的依赖。与处理整个序列相比,它能够进行增量式的分块预测,在延迟方面具有潜在优势。同时,该模型可以利用每个窗口内的信息,为语义推理提供足够的局部上下文,并支持流式推理。
针对100Hz的语音特征序列,窗口设成256帧(对应2560ms),每次往前挪32帧(320ms);训练的时候,只盯着每个窗口“最后一个chunk”做监督——不用等整段语音,就能一块一块增量预测,既保留了局部的语义上下文,又能减少延迟,刚好满足实时交互的需求。
在训练过程中,音频编码器被冻结,仅训练适配器和 LLM。LLM 骨干网络使用 LoRa 进行微调,以增强其多模态推理能力。训练目标使用标准交叉熵损失进行优化
Data:
造文本:结合内部的文本资源和ChatGPT API,生成两种文本:一种是“语义完整”的(比如“帮我查一下最新的订单信息”),一种是“语义不完整”的(比如“帮我查<停顿>最新的订单信息”);
合成音频:用Index-TTS工具把文本合成语音,为了模拟不同人的声音,还从库里随机选了1007个英语、1010个中文说话人的声音模板;另外还故意插点静音段,还原真实聊天里的“犹豫、中断”场景;
标标签:用Paraformer工具给每个字标上时间戳,再根据“用户停止说话”的时间点,标两种训练标签:“Continue”(还在说)和“Stop”(说完了)。还特别设置了不同的超时阈值:语义完整的话,等400毫秒就判断“说完了”;不完整的话,等1000毫秒,避免提前打断用户。
Experiments:
用40万条音频(总共570小时)训练,然后拿2000条“语义完整”+2000条“语义不完整”的音频做测试:
语义不完整的场景里,准确率98.5%,“说完了”的F1分数0.918,“还在说”的F1分数0.992

语义完整的场景更稳,准确率98.6%,“说完了”F1 0.905,“还在说”F1 0.993

简单说就是,判断“用户还在说”几乎不会错,判断“说完了”也很靠谱。
对比其他开源VAD:

消融实验:
如果把滑动窗口的步长从320毫秒缩到160毫秒(更细的粒度),性能会下降——因为太细的粒度会让判断更犹豫,还会放大时间戳标注的误差;如果适配器只在ASR数据上训练,也不如“联合训练”效果好,因为ASR数据只关注“语音转文字对不对”,缺了“判断说话边界”需要的时间线索。

Phoenix-VAD最核心的价值就是:靠LLM的语义理解能力,加上滑动窗口的实时 trick,弄出了一个“靠谱、实时、能随便用”的语义端点检测模块,刚好补上了全双工语音交互的短板。以后优化方向:一是让模型能过滤“没用的声音”(比如背景噪音、无意义的嘟囔);二是用真实场景的录音再训练,让它在实际聊天里更好用;最后打算把它装到端到端的对话系统里,让整个交互更顺畅。