WenetSpeech-Wu：开源吴语语音数据集

论文链接: https://arxiv.org/pdf/2601.11027
Demo Page: https://hujingbin1.github.io/WenetSpeechWu-Demo-Page-Public/
Github: https://github.com/ASLP-lab/WenetSpeech-Wu-Repo
HuggingFace: https://huggingface.co/collections/ASLP-lab/wenetspeech-wu

低资源方言的语音处理仍然是构建包容性强、鲁棒性高的语音技术过程中面临的一项基础性挑战。尽管中文吴语在语言学研究中具有重要地位，且使用人群规模庞大，但长期以来，其发展一直受限于大规模语音数据匮乏、缺乏统一的评测基准以及公开可用模型不足等问题。

本文提出 WenetSpeech-Wu，这是首个面向吴语的大规模、多维度标注的开源语音语料库，包含约 8000 小时来源多样的语音数据。

吴语语音处理面临三重关键困境：一是数据严重匮乏，现有公开数据集MagicData-Shanghai仅提供4.19小时的上海话标注语音，不仅规模极小，且未覆盖其他吴语子方言，更缺乏情感、说话人属性等支撑多类语音任务的关键标注；二是缺乏标准化评测基准，导致不同研究方法难以进行公平对比与系统评估；三是模型支撑不足，无论是开源还是商业语音处理模型，在吴语的自动语音识别（ASR）、文本到语音合成（TTS）等基础任务上均表现较差，无法满足实际应用需求。

Datapipline Overview

本文提出了一种自动化且可扩展的流程，用于构建具有多维标注的大规模吴语语音数据集，如图1所示。该流程旨在实现高效的数据采集、稳健的自动转写以及多样化的下游标注任务支持

采集与过滤：我们从多种领域和不同子方言中收集大规模真实场景下的吴语语音数据。首先基于元数据进行筛选以去除非吴语内容，随后采用基于 WebRTC 的语音活动检测（VAD）进行分割处理。进一步结合 DNSMOS 和信噪比（SNR）进行质量过滤，最终获得高质量语音语料。

标注工具构建：为支持大规模自动转写，我们利用 880 小时人工标注的吴语语音数据对两个预训练 ASR 模型进行微调。

自动转写与结果融合：我们采用识别结果投票误差降低方法（ROVER）对多个 ASR 系统的转写结果进行融合。具体来说，我们结合了两个微调后的吴语 ASR 模型，以及 Dolphin 和 TeleASR 的输出，并通过网格搜索确定各模型权重。融合后的结果生成最终转写文本，并附带置信度分数。

多维标注：

说话人属性: 性别和年龄通过 VoxProfile 进行推断，多说话人检测则采用 Pyannote 实现。
吴语到普通话的翻译: 通过基于词典的映射生成，并进一步利用大语言模型 Qwen3-8B 进行优化，以获得更加流畅、标准的普通话表达。
情感标注: 通过多阶段、跨模态流程获得。首先使用 SenseVoice 和 Emo2Vec 对声学信号进行初步预测，并结合 Qwen3-8B 对文本内容进行情感分析。对于被联合判定为非中性的样本，进一步采用基于文本的 DeepSeek-R1 和基于声学信息的 Gemini-2.5-Pro 进行复核，最终标签由两者结果的交集确定。
韵律声学特征: 利用 Dataspeech 提取韵律声学特征，包括语速、响度、能量和音高，以支持语音生成相关任务。

数据集分布

时长与置信度分布：WenetSpeech-Wu 包含 8,000 小时语音数据，共计 386 万条语句，单条语音时长最长可达 30 秒，平均时长为 7.45 秒。我们采用加权 ROVER 生成的转写置信度作为标注质量的衡量指标，并保留置信度高于 0.55 的语句。语句时长分布与转写置信度分布的详细情况分别如图2b和c所示。

领域与子方言覆盖：WenetSpeech-Wu 覆盖了广泛的语音领域和多种吴语子方言。语音领域包括 新闻、文化、Vlog、娱乐、教育、播客、评论、访谈、广播剧、音乐节目以及有声书，其分布情况如图2a和d所示。

在方言覆盖方面，约有 37% 的录音由于无法可靠地归属到某一具体吴语子方言，被标注为 Unknown。其余录音则覆盖了多种已识别的吴语子方言，包括 上海话、苏州话、绍兴话、宁波话、杭州话、嘉兴话、台州话和温州话，其分布如图2d 所示。

音频质量：如图2e 和图2f 所示，大多数语句的信噪比（SNR）分布在 10–40 dB 之间，并在 20–30 dB 区间达到峰值。主观听感质量（MOS）评分主要集中在 2.0–3.5 的范围内。

说话人属性与情感标注：我们针对单说话人语音片段标注了性别、年龄和情感信息。性别分为男性和女性；年龄划分为四个阶段：0–17 岁为 青少年，18–35 岁为青年，36–59 岁为中年，60 岁及以上为老年；情感则分为五类：中性、快乐、悲伤、惊讶和愤怒。各类别的具体分布情况如表2所示。

面向任务的数据质量分级：为支持多样化语音任务在实际训练中的不同需求，我们提出了一种与任务特定质量要求相匹配的数据质量分级策略。针对 ASR 和 TTS 任务，我们构建了两个质量等级的数据子集。其中，普通质量子集主要用于大规模预训练，更强调数据覆盖范围和多样性，仅要求中等水平的转写置信度；高质量子集则面向监督微调（SFT），采用更严格的筛选标准，包括更高的转写置信度、更干净的声学环境以及可靠的说话人分离，以提供更稳定、有效的监督信号。对于对标注噪声和语义歧义更为敏感的任务，例如吴语到普通话的自动语音翻译、说话人属性预测、语音情感识别、语音合成以及指令控制语音合成，我们采用了更为严格的数据筛选标准，包括单说话人录音、高 MOS 评分、较高信噪比、音高标准差约束，以及经过一致性验证的标注结果，具体标准如表3所示。

提出了 WenetSpeech-Wu-Bench，这是首个面向吴语语音处理的公开、人工精校评测基准，涵盖自动语音识别（ASR）、吴语到普通话自动语音翻译（AST）、说话人属性预测、情感识别、语音合成（TTS）以及指令控制语音合成（instruct TTS），为公平、统一的性能评估提供了标准化平台。

自动语音识别:WenetSpeech-Wu-Bench 的 ASR 测试集包含 9.75 小时的语音数据，涵盖上海话、苏州话以及普通话混合语码场景，同时包括单说话人和多说话人情形。

吴语到普通话语音翻译：吴语到普通话的 AST 测试集，共包含 3000 条吴语语句，总时长为 4.4 小时，配有经过人工校验的标准普通话译文，覆盖多个领域。

说话人属性预测与语音情感识别：该测试集用于评估吴语语音中的年龄、性别和情感预测能力。在说话人属性方面，性别分为男性和女性，每类各包含 1500 条样本；年龄划分为四组：17 岁及以下为青少年、18 至 35 岁为青年、36 至 59 岁为中年、60 岁及以上为老年，每组各 500 条样本。在情感分类方面，数据包括中性样本300 条，高兴、愤怒、惊讶样本各200条，难过样本100条，共计 1000 条。

语音合成: TTS 测试集，包括 144 条简单句和 98 条复杂句，文本内容经专业吴语专家审校与优化。提示语音样本选自开源的 Magicdata-Shanghai 数据集，并通过严格筛选确定了 12 位吴语说话人。评估方面，说话人相似度通过 WeSpeaker 的说话人嵌入相似度计算，语音可懂度则使用我们提出的 Step-Audio2-Wu-ASR 模型计算 CER。此外，还开展了主观听测评估，包括可懂度 MOS（IMOS）、相似度 MOS（SMOS）和口音 MOS（AMOS）。主观测试由 23 名听众参与，每人评价 20 条样本。

指令控制语音合成:WenetSpeech-Wu-Bench包含两个用于评估指令控制语音合成的测试集。在韵律控制测试集中，选取了 5 条以中等语速和正常基频录制的语音提示，并基于这些提示合成了 20 条句子，通过控制语速和音高变化进行评估。评估包括两个实验条件：快速语速与高音高，以及慢速语速与低音高。所有样本通过 Dataspeech 自动标注。当语速和音高变化符合预期指令时，该样本记为 1 分，否则为 0 分，最终通过平均得分衡量模型对韵律指令的遵循能力。情感控制测试集用于评估模型对情感相关指令的响应能力。我们选取了 10 条不包含明显情感表达的参考提示语音，并基于每条提示为四种目标情感（愤怒、悲伤、快乐、惊讶）分别合成 50 条语句。样本通过 Step-Audio2-Wu-Und 模型进行评估，当预测情感与目标情感一致时记为正确，并以平均分类准确率作为指标。此外，还开展了主观听测实验，听众从韵律 MOS（PMOS）和情感 MOS（EMOS）两个维度对语音质量进行评分。该评测共有 23 名听众参与，每人评估 15 条样本，用于综合判断合成语音对指令的遵循程度。

实验

语音理解

ASR 模型:评估工作在 WenetSpeech-Wu-Bench 的 ASR 测试集以及两个内部人工标注测试集上进行，后者涵盖对话与朗读场景，从而能够在多种说话条件下进行全面评估。

如表4所示，现有开源与商业 ASR 系统在三个测试集上的表现均较为有限，表明它们难以有效支持吴语识别任务。相比之下，基于 WenetSpeech-Wu 训练的模型（ Conformer-U2pp-Wu、Whisper-medium-Wu、Step-Audio2-Wu-ASR）在各个规模下均取得了当前最优性能，即便是规模最小的 Conformer-U2pp-Wu，也显著优于以往所有系统。

语音理解模型:结果表明，在多任务微调后，Step-Audio2-Wu-Und 的 ASR 性能较 Step-Audio2-Wu-ASR 略有下降，但仍位居第二。在吴语到普通话的 AST 任务上，该模型显著优于所有基线模型。与 Step-Audio2-mini 的对比进一步显示，普通话与吴语之间在性别、年龄和情感预测方面存在明显领域差异，而我们的数据有效缓解了这一问题。与 Qwen3-Omni 相比，我们的模型在年龄和情感预测任务上表现出显著提升，而在性别分类任务上略有下降。

语音生成

TTS 模型：如表6所示，实验结果表明，分阶段训练策略显著提升了 CosyVoice2 在吴语语音合成任务中的表现。CPT 阶段利用大规模数据，增强了模型的基础能力和鲁棒性，尤其在复杂样本上的表现提升明显。SFT 阶段进一步改善了语音的自然度与表现力。最终，在单说话人监督微调（SS-SFT）阶段，模型在 CER、IMOS 和 AMOS 等指标上均取得最佳结果。总体来看，CosyVoice2-Wu-SS 在多数评测指标上已接近或超过基线系统 Qwen3-TTS、DiaMoE-TTS 以及原始 CosyVoice2，尤其在高难度语音合成任务中优势更为明显。

指令控制 TTS 模型：指令控制训练数据来源于表3中介绍的 Inst Pro 和 Inst Emo 数据集。微调后的模型在 WenetSpeech-Wu-Bench 上所有可控性指标均表现出明显提升，如表所示。主观听感测试同样验证了模型在韵律与情感控制方面具有良好的感知效果，进一步证明了所提出数据集与方法的有效性。

基于大语言模型的语音识别上下文偏置：热词检索与强化学习方法

论文：Contextual Biasing for LLM-based ASR with Hotword Retrieval and Reinforcement Learning
作者：阿里巴巴通义实验室
论文链接：https://arxiv.org/abs/2512.21828
GLCLAP: A Novel Contrastive Learning Pre-trained Model for Contextual Biasing in ASR: https://www.isca-archive.org/interspeech_2025/kong25_interspeech.pdf

在真实业务里，如果你做过语音识别落地，大概率会遇到类似的崩溃瞬间：

在医疗场景，医生口述一长串药品名、病理名，模型能把普通口语识得很好，一到专业名词就开始「编」，还经常把词表里没出现的药名硬说出来；
影视媒体、短视频领域，剧名、角色名、艺人名每天都在更新，热词词表轻轻松松几十万条，模型一旦“认不住、认不准”，用户搜不出东西。

即使对于LLM-ASR这种强大的语音识别模型，在落地过程中也绕不开热词这个话题。

通义最新工作中提出了一个面向 LLM-ASR 的可扩展上下文偏置框架，把“热词检索 + LLM 自适应 + 强化学习”串成一套系统，在大规模热词场景（近 10 万规模词表）下显著提升了热词识别能力，同时提升了整体识别效果。具体来说，首先，扩展了 Global–Local Contrastive Language–Audio Pre-trained（GLCLAP）模型，通过具备鲁棒性的数据增强与模糊匹配机制，从大规模词表中检索出一个紧凑的 top-k 热词候选集合。其次，将检索到的候选热词以文本提示的形式注入到 LLM-ASR 模型中，并采用GRPO进行强化微调，使用任务驱动的奖励函数同时优化热词识别性能和整体转写准确率。

总体框架：检索 + 强化学习，两阶段协同

热词检索（Hotword Retrieval）：
从大词表中，为当前语音检索出一小撮最相关的 top-k 热词；
热词感知 ASR 适配（Hotword-aware ASR Adaptation）：
把检索出的热词以 prompt 形式喂给 LLM-ASR，并用强化学习优化其使用策略。

整体结构可以类比为语音版的 RAG（Retrieval-Augmented Generation）：

检索侧：基于改进版 GLCLAP（Global–Local Contrastive Language–Audio Pre-trained Model）做音频 ↔ 热词文本的匹配；
识别侧：把检索到的热词放到 LLM-ASR的文本 prompt 中，用 GRPO（Generative Rejection-based Policy Optimization）做 RL 微调，让模型学会：
- 对真正出现的热词要“认得准”；
- 对没出现的热词不要“瞎猜”；
- 兼顾整体转写的 WER / 句子准确率。

增强版 GLCLAP 热词检索

GLCLAP 检索器以音频信号 x 及候选偏置词集合 G={g₁,g₂,…,g_N}作为输入，其中 N 表示候选词表的规模。该检索器由两个组件构成：音频编码器（A-enc）和文本编码器（T-enc）。对于输入音频，A-enc 提取一个固定维度的音频嵌入表示，记为 h_audi_o。同时，候选集合中的每一个偏置词 g_i∈G 通过 T-enc 编码为对应的语义向量 e_i，从而得到文本嵌入集合 E={e₁,e₂,…,e_N}。随后，我们计算 h_audio 与集合 E 中所有文本嵌入之间的相似度得分，并选取得分最高的 top-k 个偏置词，构成子集 G′。这些被选中的偏置词随后被拼接到偏置提示（bias prompt）中，以引导模型进行上下文感知的转写。

本文对 GLCLAP 又做了两方面增强。

Robustness-Aware Data Augmentation（RADA）。

为缓解热词规模扩大会导致召回率下降及干扰项增多的问题，我们构建了一套鲁棒性感知数据增强（RADA）流程，用于缩减热词词表规模。初始热词词表通过网络爬取领域相关的热词构建得到。对于候选集合 G 中的每一个偏置词 g_i，我们首先利用TTS系统合成对应语音（在必要时由大语言模型生成上下文文本），随后使用现有的 ASR 系统对合成语音进行解码，以检测原始 LLM-ASR 是否已具备对该热词的稳定识别能力。若该热词能够被可靠识别，则将其从热词词表中移除；反之，则保留该词作为后续偏置建模的目标。通过该流程，模型训练与推理阶段仅需关注真正具有识别难度的热词，从而提升整体检索与偏置效果。结果：词表规模从 60 万缩减到约 9.8 万。

检索难度显著降低；
减少大量“干扰”的词，后面 LLM-ASR也不会被这些词干扰。

模糊匹配策略（Fuzzy Matching Strategy）：

在实际应用场景中，热词往往难以通过严格的词面匹配进行约束，否则将导致热词词表规模急剧膨胀，进而降低系统的可扩展性。然而，在 GLCLAP 的训练过程中，热词通常通过严格的词汇级匹配进行约束，这与真实部署环境存在不一致性。在真实场景中，用户可能会使用目标热词的不同形态（如屈折变化）、语义改写（paraphrases）或仅部分提及目标术语。为弥合训练与部署之间的差异，我们在 GLCLAP 训练阶段引入模糊匹配策略，使模型能够学习到更具语义与发音鲁棒性的热词表示，从而提升在复杂真实场景下的检索与上下文偏置能力。

真实场景中，用户说的热词常常不是词表里的标准形式，比如：

说一个药品名，可能有胶囊、颗粒、口服液等。
说一个影片名，可能有第二部、续、新xxx等。

如果训练中的监督只允许严格的字面匹配，检索模型就会对这些变体缺乏鲁棒性。因此，本文引入了 fuzzy matching（模糊匹配策略），在训练阶段引入了由生成式上下文句子嵌入以及经过刻意扰动的偏置词变体所构成的数据增强。

在训练数据中增加多种变体：人为扰动词形，如Tongyi → Tongyi abc等；

这样做的效果：

更贴合真实业务中“词形变动、说法多样”的场景；
检索模型对热词的语义及形态变体更鲁棒。

LLM-ASR

LLM-ASR 网络由音频编码器、适配器以及LLM三部分组成。本文选用 Qwen2.5-7B 作为 LLM 主体。在音频编码器方面，将原始的 Conformer 编码器扩展为 Conformer-MoE 编码器，具体做法是在每一层 Conformer 中，将第二个前馈网络（FFN）模块替换为混合专家（MoE）结构。我们定义了 K_C个候选专家，并通过router从中选择 K_S个专家进行加权聚合，同时保留一个专用的共享专家以提供通用建模能力。

LLM-ASR 模型总参数规模为 10.5B，其中推理阶段的有效激活参数量为 8.7B。整体架构由一个 3.5B 参数规模的音频编码器和一个 LLM 解码器组成。编码器采用 CNN 前端并接入 20 层 Conformer-MoE 结构。CNN 前端首先对输入特征进行 4× 的时间维下采样，随后将得到的特征送入 Conformer-MoE 堆叠模块。每一层 MoE 采用 3-of-8 的专家路由策略，隐藏层维度为 3584。

编码器的输出进一步经过一次 2× 的帧级下采样与特征拼接操作，随后通过一个两层线性适配器（adapter），最终作为输入送入 LLM 解码器。在基础训练阶段，仅对 LLM 部分施加 LoRA微调，其中 LoRA 的秩（rank）设置为 64，缩放系数（alpha）为 32。在上下文偏置训练阶段，学习率设为 1×10⁻⁵，并联合更新音频编码器、适配器以及 LLM 的 LoRA 参数。在 GRPO 训练阶段，继续使用相同的学习率（1×10⁻⁵），但冻结编码器和适配器，仅更新 LLM 的 LoRA 参数。此外，我们将 KL 散度正则项的权重设置为 0.04，并在每个训练步骤中生成 6 个候选响应用于策略优化。

基于强化学习引导判别的上下文 ASR

为抑制由上下文偏置引入的误检（false positives），我们充分利用 ASR 模型在解码阶段对偏置词进行判别的能力。模型采用结构化提示（structured prompt）进行训练，形式如下：

“<Audio> 请将音频转写为文本。可使用的偏置词包括：<g₁> <g₂> … <gₖ>”。

其中，提供的偏置词列表刻意包含与当前语音无关的词项或干扰词，以避免模型过度依赖偏置词并提升其判别能力。

除上述数据层面的增强策略外，我们在 LLM-ASR 训练过程中进一步引入生成式拒绝式策略优化（Generative Rejection-Based Policy Optimization，GRPO）这一强化学习方法，以增强模型对偏置词的区分能力。所设计的奖励函数联合优化多个目标，具体包括：

匹配奖励（match reward）：若某候选偏置词同时出现在模型输出与参考标注中，或同时未出现在二者中，则奖励值为 1；否则奖励值为 0；
基于 WER 的奖励（WER-based reward）：奖励定义为 1−WER，以保证整体转写准确率。

在推理阶段，为进一步提升性能，我们采用联合束搜索（joint beam search）策略，同时解码无上下文约束（context-free）与上下文条件化（context-conditioned）的候选假设。在保留检索增强生成（Retrieval-Augmented Generation，RAG）优势的同时，该策略有效降低了由无关偏置词引发的幻觉问题。

数据集和效果

Context-Biasing Training Datasets

LLM-ASR 系统在总计数百万小时的语音数据上进行训练。本文重点关注上下文偏置相关的数据设置。在完成基础 LLM-ASR 训练之后，进一步使用约 200 万条与热词和/或上下文历史相关的语句对模型进行微调，这些语句主要通过 RADA 流程生成。在训练数据构成上，包含热词/上下文的语句与不包含热词/上下文的语句按 1:8 的比例进行混合，其中非偏置数据占主导，以避免模型对上下文偏置的过度依赖。对于包含热词的语句，每条语句包含 1–10 个热词，其中约一半语句包含正确的目标热词，另一半不包含目标热词，从而在正、负热词样本之间形成 1:1 的比例平衡。

GLCLAP微调数据

在大规模通用 ASR 数据上对模型进行训练，其中文本标注通过从完整转写中随机裁剪短语的方式获得。随后，在第二阶段对 GLCLAP 检索器进行微调时，我们构建了一个面向特定领域的音频–文本数据集，规模约为 25 万对，以更好地使检索结果与偏置词所属领域对齐。

热词词表（Hotword Vocabulary）

热词词表通过网络数据构建，主要覆盖医疗和媒体（影视）两个领域。在得到初始词表后，进一步采用 RADA 策略进行过滤。经过基于 RADA 的筛选，热词词表规模由约 60 万条缩减至 9.8 万条，有效降低了词表规模并提升了可用性。

评测设置（Evaluation）

构建了两个面向特定领域的测试集：Media 和 Medical，每个测试集包含 240 条语句，主要来源于实际系统中的错误案例（bad cases）。每条语句均由人工标注其真实偏置词，并将这些偏置词加入偏置词列表中。此外，我们还构建了一个回归测试集 General Task，包含约 5,000 条标准 ASR 语句，用于评估通用识别性能。

ASR 评测中，我们采用两项指标：（i）句级识别准确率（Sentence-level Accuracy，SACC），以及（ii）关键词错误率（Keyword Error Rate，KER）。

结果

在 Media 和 Medical 测试集上评估基于 GLCLAP 的热词检索性能。如表 1 和表 2 所示，鲁棒性感知数据增强（RADA）与模糊匹配策略均对整体性能产生了正向贡献。具体而言，原始热词词表约包含 60 万条词项，在应用 RADA 筛选后缩减至 9.8 万条。模糊匹配不仅更契合我们的评测指标，同时也更真实地反映了实际应用场景中的偏置词使用情况。此外，结果显示，随着 top-kkk 值的增大，召回率呈持续上升趋势。

将 GLCLAP 与 LLM-ASR 模型结合，并以句级识别准确率（SACC）和关键词错误率（KER）报告最终识别性能。Base 列显示了在不使用任何偏置提示（bias prompt）的情况下，经过上下文感知微调的 LLM-ASR 模型的结果。

召回率随着 top-k 的增加持续上升，但在热词测试集上的 KER 和 SACC 并未呈单调改善。这是因为较大的 top-k 会向 LLM-ASR 模型引入更多干扰候选词，从而增加识别干扰。

在 General Task 测试集上，大多数结果略低于未使用热词的基线表现。综合两个热词测试集的结果，我们认为 top-2 是更为合适的选择。

GRPO 训练的结果表 4，引入 GRPO 可以在媒体和医疗设备上的 KER 中产生明显的性能提升。此外，得益于GRPO中使用的基于准确性的奖励，通用任务的句子准确性也得到了显着提高。

工程与落地视角的一些启发

从工程落地的角度，这篇工作有几个特别值得实践参考的点：

不要盲信“全量热词表”：
- 用 RADA 先筛一遍“模型已熟练掌握”的词，再做偏置，能大幅降低复杂度与干扰；
检索与解码要协同设计：
- 仅有高召回的检索还不够，要与 LLM 的使用策略共设计，否则容易“给了武器但不会用”；
RL 对 ASR 也非常有用：
- 传统 ASR 多用 CE/CTC/Transducer 等损失，很难直接对接任务级指标；
- 引入类似 GRPO 这样的 RL 方法，可以在“热词识别 + 句子准确”这样的组合目标上做更直接的优化；
top-k 是个关键的“工程超参”：
- k 太小，召回不足；
- k 太大，干扰过多；
- 最优点依赖业务场景、词表质量与 LLM 容量，需要通过系统性实验来选。

Fun-Audio-Chat：端到端语音交互模型

Fun-Audio-Chat 是为自然、低延迟语音交互构建的大型音频语言模型。它引入了双分辨率语音表示（一个高效的 5Hz 共享主干 + 一个 25Hz 的精炼头）以在降低计算的同时保持高语音质量，并采用 Core-Cocktail 训练以保留强大的文本 LLM 能力。它在语音问答、音频理解、语音函数调用以及语音指令遵循和情感共鸣基准上都取得了顶级成果。

训练/推理代码：https://github.com/FunAudioLLM/Fun-Audio-Chat
https://funaudiollm.github.io/funaudiochat/
https://arxiv.org/pdf/2512.20156

现有模型面临的挑战：语音 Token（通常约 25Hz）与文本 Token（约 3Hz）在时间分辨率上的不匹配会削弱语义信息，同时带来高计算成本、限制实际部署，并在多模态训练过程中导致文本 LLM 知识的灾难性遗忘。

Fun-Audio-Chat采用 双分辨率语音表征（Dual-Resolution Speech Representations, DRSR） 架构：共享的 LLM 主干以高效的 5Hz 帧率 处理音频（通过语音 Token 分组实现），而 Speech Refined Head（SRH） 则以 25Hz 分辨率 生成高质量语音 Token。该双分辨率设计在计算效率与语音生成质量之间实现了有效平衡，使 GPU 训练时长降低近 50%。

不同于某些语音模型的大规模音频-文本预训练与后训练方法，Fun-Audio-Chat基于预训练模型，全量监督微调阶段采用 Core-Cocktail Training 策略缓解灾难性遗忘问题，后训练使用多任务 DPO 训练以增强模型在鲁棒性、音频理解、指令遵循及情感化语音共情能力方面的表现。Fun-Audio-Chat 在有效保留原始文本 LLM 知识的同时，获得了强大的音频理解、推理与生成能力。

模型在语音转文本与语音-语音生成任务上取得了具有竞争力的性能，并在多项口语问答基准测试中位列同规模模型的领先水平。同时，其在音频理解、语音函数调用、语音指令遵循以及语音共情等任务上亦展现出媲美甚至优于同类模型的表现。构建了 Fun-Audio-Chat-Duplex，一种全双工变体，在口语问答基准与全双工交互场景中均取得了优异性能。

Introduction

现有语音大模型面临以下挑战：

语音token与文本token速率不匹配，跨模态对齐时多个语音帧映射到单个文本 token 的语义空间，会影响语义信息且LLM 难以复用其原生 token-level 推理能力；
多模态的预训练与后训练，会导致其原有知识发生灾难性遗忘；
频帧率通常较高（如 12.5Hz 或 25Hz），整体计算成本偏高，限制了模型在实际场景部署。

针对以上问题，提出 Fun-Audio-Chat：

大规模后训练与模型扩展能力。基于DrVoice的两项关键创新——双分辨率语音表征（DRSR）架构 与 Core-Cocktail 训练策略——基础上，进一步扩展到显著更大的数据与模型规模，包括覆盖 数百万小时的多样化音频数据，以及 dense 8B 参数模型与 MoE 30B-A3B 参数模型。DRSR 依托于 主干 LLM 的高效 5Hz 处理 与 25Hz 生成头，即使在更大规模训练中，仍能保持高计算效率（训练 GPU 时长约 降低 50%）；同时，Core-Cocktail 训练策略 通过 两阶段训练、分阶段学习率及中间模型合并机制，在 8B 与 30B-A3B 模型 中均有效缓解了灾难性遗忘问题。
多任务 DPO 训练以提升鲁棒性与泛化能力。DPO 训练增强 Fun-Audio-Chat 的能力，包括：对真实语音数据的鲁棒性、指令遵循能力、音频理解能力以及语音共情能力。通过多任务 DPO 训练，Fun-Audio-Chat 获得了超越基础语音-文本交互的高级能力，包括 语音函数调用、语音指令遵循，以及语音共情（识别并推理用户情绪状态并生成具有共情特质的响应），使模型能够以适当的情感智能与功能执行能力，理解并应对复杂语音交互场景。
全双工语音交互能力。Fun-Audio-Chat-Duplex，一种支持双向同时语音通信的全双工变体。该模型在口语问答基准任务上表现出具有竞争力的性能，同时在全双工交互指标上亦取得优异结果，展现出在自然对话与轮流发言（turn-taking）方面的强大能力。

Methodology

ps： DrVoice：https://arxiv.org/pdf/2506.09349

语音输入经过 **MLLM（多模态大语言模型）** 的 **Tokenization**、**分组处理** 和编码，分别用于两种自回归预测任务：**Text Head**：预测文本 token，**Speech Refined Head（SRH）**：预测语音 token。生成的语音 token 随后通过 **speech detokenizer** 转换为语音波形。需要注意的是：SRH 通过 **5 次自回归前向传播** 生成 **5 个语音 token**，其中 5 为分组因子。

上图展示了 Fun-Audio-Chat 及其全双工变体 Fun-Audio-Chat-Duplex 的架构。

Fun-Audio-Chat 的框架主要由三个模块组成：

语音输入处理模块：通过 Speech Encoder 与 Speech Tokenizer 将原始音频波形转换为结构化表示，分别用于用户端（User）和助手端（Assistant）。
多模态大语言模型：整合 共享 LLM 主干 与专门的 Text Head 和 Speech Refined Head（SRH），用于生成文本 token 与语音 token。
Speech Detokenizer：将生成的语音 token 重建为音频波形。

该架构实现了统一的音频-文本编码和同步的语音-文本生成。在推理阶段，无论输入为文本还是语音，均会被转换到一个统一的语义表示空间，由 MLLM 处理，从而通过 SRH 和 Text Head 同时生成语音和文本输出。

Speech Tokenization and Detokenization

Fun-Audio-Chat 采用 Whisper-Large-v3作为 语音编码器，从用户语音输入中提取连续表征。随后， Adapter 模块 对这些特征进行时间分辨率降采样，并将其维度匹配到 LLM 的隐藏空间。

鉴于语义 token 在语音表征中的有效性其，尤是其与文本内容的高度对应性，采用 S3Tokenizer 作为 语音分词器，将音频波形转换为离散的语义 token 序列。S=[s0,s1,…,sT−1]其中 T 表示序列长度，用于助手端（Assistant）的输出。

S3Tokenizer 最初是在 CosyVoice [论文] [代码库] 中引入的，它是一个基于预训练的 SenseVoice-Large 模型的监督语义语音分词器，它增强了提取的词元与文本和副语言信息的语义关系，对数据噪声具有鲁棒性，并减少了对干净数据收集的依赖，从而使模型训练可以使用**更广泛的数据来源**。

在逆向过程中，Speech Detokenizer [CosyVoice3的模型解码合成音频]利用 speaker-specific embeddings 编码音色等声学特征。随后，Flow Matching 模型 将这些 token 转换为 Mel 频谱表示，再通过 HiFi-GAN 声码器 将 Mel 频谱重建为音频波形。

Dual-Resolution Speech Representations (DRSR)

为了在支持跨模态能力的同时 保持预训练文本 LLM 的文本能力，Fun-Audio-Chat 采用了先前工作 DrVoice中提出的 双分辨率语音表征（Dual-Resolution Speech Representations，DRSR） 架构。该架构有效解决了 语音 token（通常约 25Hz）与文本 token（约 3Hz）之间的时间分辨率不匹配问题，同时提升计算效率，并实现高质量语音生成。

语音 Token 分组。为弥合时间分辨率差异，采用 DrVoice中的分组技术，将 25Hz 的语音 token 转换为 5Hz 的表示，并输入至 共享 LLM 主干。该分组变换可表示为：

其中 𝐬_j表示单个语音 Token ，Concat 表示串联，k=5 是基于语音 Token 频率 (25Hz) 与所需 LLM 处理频率 (5Hz) 之比的分组因子。这种机制将序列长度从T减少到T/k，允许共享LLM以5Hz帧速率运行，这大大减少了计算开销（训练GPU时间减少了大约50%），同时保留了LLM的语义推理能力。

Speech Refined Head (SRH).分组机制提升了计算效率，但其同时会丢失对自然语音合成至关重要的细粒度声学信息。为弥补这一不足，Fun-Audio-Chat 引入了一个专用的 SRH，用于在 完整的 25Hz 分辨率下生成语音 token。SRH 执行一种反分组（ungrouping）操作，来自 共享 LLM 的最终隐藏状态h_L^[SLLM]首先通过线性投影被转换为与分组大小一致的嵌入表示：

接下来分解为 k 段：

生成的 𝐇 为 SRH 提供条件上下文，SRH 以 25Hz 自回归方式生成语音标记。训练目标优化语音标记预测：

其中 si 表示第 i 个语音标记。这种双分辨率框架允许 Fun-Audio-Chat 遵循 DrVoice 中建立的设计原则，同时实现计算效率（共享 LLM 层中的 5Hz 处理）和高保真语音合成（通过 SRH 生成 25Hz）。

Multimodal Large Language Model (MLLM)

MLLM 架构在预训练文本 LLM 的基础上进行扩展，使其具备统一的音频-文本处理能力，从而能够接收语音或文本任一模态输入，并同时生成语音与文本输出。Fun-Audio-Chat 属于并行式联合语音-文本模型。借鉴 Moshi 的做法，我们在模型中引入 显式文本流，用于为语音生成提供语义引导。模型设计仅在 助手侧进行模态对齐，这反映了人机对话中的固有非对称性：用户通常只提供单一模态输入（文本或语音），而助手则能够输出协调一致的多模态响应（即联合语音-文本输出或仅文本输出）。

模型利用 LLM 的自回归特性，在每一步迭代地将语音 token s_t 与文本 token t_t 一并输入至 共享 LLM 层。两类 token 的嵌入向量通过逐元素相加（addition）进行融合，形成统一的输入表示。第 t步的复合嵌入：

其中，E_speech与E_text 分别表示语音与文本 token 的嵌入函数。为解决语音序列与文本序列在长度上的不匹配问题，我们对较短的序列进行填充，并在每个话语中使用特殊静音标记 <|SIL|>作为填充值。

模型的生成过程遵循自回归范式：

其中，x 表示输入，y_t=(s_t,t_t) 表示在时间步 t 的联合语音–文本输出。该建模方式在同一自回归过程中统一了语音与文本的联合生成。

Post-Training

Fun-Audio-Chat 基于已有的预训练模型构建，并采用多阶段后训练流程进行训练，利用覆盖多领域、多任务的数百万小时语音数据，其中包括对话语音与多语言语音，以及面向语音理解任务的音频数据，从而保证对多种应用场景与使用需求的全面覆盖。自建数据则包括文本、ASR、TTS、音频理解、语音指令跟随以及语音共情数据。

整个多阶段训练流程包括以下三个阶段：
(1) Pre-alignment：利用大规模语音-文本配对数据，对 Speech Encoder、Adapter 与 Speech Refined Head 进行对齐训练；
(2) Core-Cocktail 训练阶段：用于监督式全参数微调，采用由 CosyVoice 3基于数十亿文本 token 合成的高质量语音数据，并通过合成语音的词错误率（WER）阈值筛选得到；
(3) 多任务 DPO 训练阶段：引入多样化真实语音数据以提升鲁棒性，引入音频理解与 ASR 数据以增强理解与感知能力，同时使用指令跟随数据（包含情感、风格与韵律控制）以提升语音指令跟随能力，并结合语音共情数据以强化情感理解与共情式响应生成能力。

预对齐阶段

Speech Encoder 采用 Whisper-Large-v3的权重进行初始化，从而提供稳健的语音理解能力。Shared LLM Layer 使用 Qwen3-30B-A3B进行初始化，或可替代性地采用视觉-语言基础模型 Qwen3-VL-8B，以充分利用预训练文本 LLM 强大的语义理解能力。此外，来自 CosyVoice 3的预训练 Speech Tokenizer 与 Speech Detokenizer 被直接引入，并在 Fun-Audio-Chat 的整个训练过程中保持冻结。

预对齐训练：使用大规模语音-文本配对数据，对 Speech Encoder、Adapter 与 Speech Refined Head 进行联合对齐学习。在该阶段中，Shared LLM Layer 被保持冻结，以确保其预训练能力不受破坏。

Core-Cocktail 训练阶段

实验观察到，多模态模型训练过程中存在一个基础性的学习率折衷问题：学习率过高将导致 MLLM 性能退化，并加剧基础文本 LLM 知识的灾难性遗忘；而学习率过低则会导致收敛缓慢，甚至训练停滞。为解决这一优化难题并避免知识流失，采用了此前在 DrVoice中提出的 Core-Cocktail Training 方法论，其核心是一种 两阶段训练策略。

阶段一：高学习率微调。 在该初始阶段，我们对全部 MLLM 参数、Audio Encoder 与 Adapter 进行全量微调，并采用较高的学习率。对于 Fun-Audio-Chat，在阶段一中学习率按照余弦退火策略从 1×10⁻⁴逐步衰减至 1×10⁻⁵。该阶段的目标是使模型参数能够快速迁移至更有利于多模态学习的损失曲面区域，从而实现快速任务适配。

中间模型合并。 为缓解阶段一高强度训练可能带来的 MLLM 性能退化问题，引入中间模型合并操作。将阶段一训练后的 MLLM 参数 M₁ 与原始预训练 LLM 参数 M₀ 进行加权插值，得到合并模型： M_r←αM₁+(1−α)M₀

其中 α用于控制插值平衡。该合并过程重新引入基础 LLM 的核心知识，从而保护其原有的文本理解能力。较小的 α值将更有利于保留基础 LLM 的知识。在我们的实现中，α=0.5。

阶段二：低学习率精调。 在阶段二中，我们对合并后的模型 M_r 以更低的学习率进行全量微调。对于 Fun-Audio-Chat，学习率同样按余弦退火策略从 1×10−5 衰减至 1×10−6。该阶段实现了稳定且精细的优化，在避免高学习率相关不稳定性的同时进一步提升模型性能。Core-Cocktail Training 策略在快速适配与知识保持之间实现了有效平衡，显著缓解了灾难性遗忘问题，并促进高效的多模态学习。

多任务 DPO 训练

在完成 Core-Cocktail 训练之后，采用多任务 DPO 训练提升模型在真实语音数据上的鲁棒性、音频理解能力、语音指令遵循能力以及语音共情能力。多任务 DPO 阶段引入了多维度的偏好学习目标：（1）鲁棒性偏好：更偏好在噪声环境或多样化语音输入下仍能保持输出质量的响应；（2）指令遵循偏好：更偏好能够准确遵循语音指令（包括情绪、风格与韵律控制）的响应；（3）音频理解偏好：更偏好体现对音频内容进行准确理解与推理的响应；（4）语音共情偏好：更偏好能够展现恰当情绪理解与富有共情反馈的响应。DPO 训练损失在这些偏好维度上联合计算，从而使模型能够学习到一个在多种能力之间取得平衡的统一偏好信号。该多任务 DPO 训练阶段使模型能够更好地对齐人类偏好，并在真实世界会话场景中表现出更优性能，从而区别于主要依赖监督微调的既有工作。

全双工交互训练

为实现实时全双工语音交互，提出并采用并行语音–文本输入流架构，并将 Fun-Audio-Chat 扩展为全双工变体 Fun-Audio-Chat-Duplex，从而支持自然、类人化的无缝双向通信。具体而言，并行语音–文本输入流允许模型在助手生成语音的同时继续接收用户语音输入，从而有效利用原本空闲的时间片。该并行输入机制能够同时处理来自用户与助手的语音输入，使模型能够应对重叠语音片段并保持会话语境一致性。全双工交互训练从 Core-Cocktail 阶段得到的检查点继续训练，在其已具备的多模态能力基础上进一步强化。该阶段采用通过数据增强方式构造的全双工对话数据进行训练：即基于高质量半双工对话数据，并按照 OmniFlatten中的方法模拟全双工交互行为，将传统轮流发言的文本对话转化为并行双流式交互，其中用户与助手均可同时发声。通过全双工训练，模型能够学习自然的轮次切换、打断处理与跟进反馈等交互行为。

OmniFlatten：https://aclanthology.org/2025.acl-long.709.pdf

Experiments

评估任务和指标：

语音转文本 (S→T) 评估。VoiceBench 、OpenAudioBench两种类型的口语问答基准
语音到语音 (S→S) 评估。UltraEval-Audio 用于端到端语音转语音问答评价。
音频理解。 MMAU、MMAU-Pro 和 MMSU来评估综合音频理解能力。
语音识别。验证英语和普通话 (ZH) 性能
语音功能调用。 Speech-ACEBench、Speech-BFCL 和 Speech-SmartInteract评估模型基于语音指令执行函数调用的能力。
语音指令跟随和语音同理心。 VStyle 基准评估模型理解和执行语音指令的能力，以控制语音生成属性，如情绪、说话风格、速度、音调和音量。

评估指标：

对于全双工交互评估，我们使用S2M-T（多模态响应中的文本输出准确性）和S2M-S（多模态响应中的语音输出准确性）来衡量知识理解性能，并使用轮流成功率来衡量模型在全双工场景下正确处理轮流的交互百分比。

结果

语音问答：Fun-Audio-Chat-8B 在 OpenAudioBench 上取得 76.61% 的整体最佳成绩，在 VoiceBench 上取得 83.21% 的整体最佳成绩，居于约 8B 规模模型中的领先水平；同时，Fun-Audio-Chat-30B-A3B 在与大规模基线模型（含顶级闭源模型）的比较中亦展现出具有竞争力的结果。

语音理解：Fun-Audio-Chat 在综合音频理解基准（包括 MMAU、MMAU-Pro 和 MMSU）上取得了最优表现，优于多种强大的开源基线模型

语音功能调用

Fun-Audio-Chat-30B-A3B 在所有评测模型中取得了最高的总体得分（79.63%），并在 Speech-ACEBench（单轮：76.40%）和 Speech-SmartInteract（84.13%）等任务上表现尤为突出。该模型在理解基于语音的函数调用指令并准确执行方面展现出强大能力，这对于构建实际可用的语音控制应用至关重要。在并行函数调用场景中（Fun-Audio-Chat-8B 在 ACEBench-Parallel 上取得 54.50%，在 BFCL-Parallel 上取得 87.63%），结果进一步凸显了 Fun-Audio-Chat 在语音交互中处理复杂、多步骤指令的能力。

语音指令跟随和语音同理心

全双工交互

全双工知识理解。 表7展示了Fun-Audio-Chat-Duplex的全双工知识理解性能。结果表明，Fun-Audio-Chat-Duplex 在全双工对话场景中保持了强大的知识理解能力。全双工架构成功地保留了模型的知识理解能力，同时实现了同步双向通信，使系统即使在处理重叠的语音输入和输出时也能保持上下文和理解。

Fun-Audio-Chat-Duplex-30B-A3B 实现了完美的轮流成功率（100.00%），优于 Moshi（99.77%）和 FreezeOmni （93.87%）。 Fun-Audio-Chat-Duplex-8B 达到了 99.94%，也展现了出色的轮流能力。这些结果表明，Fun-Audio-Chat-Duplex 成功实现了自然高效的全双工语音交互，该模型能够处理同时语音并保持适当的对话流程，密切反映了人与人对话的动态。

计算效率：双分辨率设计显着降低了计算要求和潜在延迟，经验测量显示，与以更高帧速率运行的模型相比，训练期间的 GPU 时间减少了约 50%，且不影响语音质量

限制

多轮对话中的复杂问题回答，该模型有时会表现出上下文记忆丢失，其中先前轮次的信息可能无法一致保留。

语音指令跟随能力在表达方面表现出一些不稳定。

语音共情能力表现出一定的不稳定。

PAL: 探索如何在音频与LLM之间实现高效的语义信息传递

如何设计音频编码器与 LLM 的集成架构，使得 LLM 能够高效、准确地从音频编码中“探测”出与文本查询相关的信息？

如何将丰富的音频语义高效地从音频编码器传递到 LLM 中，仍然缺乏系统性的研究。目前最常用的集成范式，是将音频编码器输出的 token 映射到 LLM 的输入 token 空间（例如通过 MLP 或 Q-Former），并将其前置或插入到文本 token 序列中。将这一通用方案称为 PLITS（Prepend to the LLM’s Input Token Space）集成方式。

论文提出了一种高效的替代方案——轻量级音频 LLM 集成方法（Lightweight Audio LLM Integration，LAL）。LAL 仅通过 LLM 不同层中的注意力机制引入音频表示，而绕过其前馈网络模块。该方法能够在合适的抽象层级上对丰富的音频语义进行编码，从而有效地将其集成到 LLM 的不同模块中。与现有的集成方式相比，该设计显著降低了计算开销。

在完全相同的训练流程下，LAL 在多种基础 LLM 和任务上均能够保持与现有集成方法相当的性能，甚至取得更优表现。对于通用音频任务，LAL 相较于强 PLITS 基线模型的性能提升最高可达 30%，同时内存占用最多降低 64.1%，吞吐量最高提升 247.5%。此外，在通用音频-音乐-语音 LLM 场景下，PAL 的性能与完全基于 PLITS 集成的系统相当，但在计算效率和内存效率方面具有显著优势。

LLM 中内在的两类知识：（1）参数化知识，主要源于大规模语言预训练并嵌入于 FFN 层中；（2）上下文知识，通过注意力机制动态地引入和调制。 音频输入作为一种上下文信息，可以仅通过基于注意力的调制，在文本 token 表征中激活所需的概念，而无需对音频表示进行直接的 FFN 处理。由此，音频信息得以间接访问 LLM 的参数化知识：音频上下文“搭载”在文本 token 之上，注意力机制对其表征进行重构，进而在 FFN 处理中触发与相关概念对应的路径。该策略不仅在架构效率上具有优势，也为多模态信息融合机制提供了更为深入的理解。

Introduction

两种主流的架构范式：

PLITS（Prepend to the LLM’s Input Token Space）集成方式。将一个或多个音频编码器的输出映射到 LLM 的输入空间（例如通过 MLP、Q-Former），随后将这些音频 token 前置或插入到文本 token 序列中，并将整个序列作为统一输入。
Flamingo 风格的架构。在相邻的 LLM 层之间插入交叉注意力（cross-attention）和前馈网络（FFN）模块。在每一次插入中，文本 token 首先对一组潜在的音频 token 进行注意力计算，随后通过该模块中的 FFN，最后再进入下一层 LLM。缺点：交叉注意力与 FFN 模块的交错堆叠会增加模型的顺序深度以及单层计算量，从而可能减慢前向传播速度。

本文提出了 LAL，一种轻量级的集成方式，其仅将音频 token 作为 Key和值Value 注入到 LLM 的注意力模块中（不构造音频查询 Query），并且使音频 token 绕过 LLM 的前馈网络（FFN）。这种设计将注意力计算复杂度从

O((N_a+N_t)²)

降低至 O((N_a+N_t)N_t),

其中 N_a 和 N_t分别表示音频 token 与文本 token 的数量。由于在实际场景中通常满足 N_a ≫ N_t ，该设计能够带来显著的计算效率提升。LAL 在内存占用和计算量方面均实现了显著降低。与 LoRA 等参数高效训练方法不同，LAL 属于一种核心架构层面的改动，因此其带来的效率优势不仅体现在训练阶段，同样适用于推理阶段。

PLITS 与 Flamingo 类集成方法代表了从音频编码器中提取信息的两种互补策略。LAL 通过限制音频 token 与 LLM 的交互方式，提供了一种计算与内存高效的机制；而在 PLITS 风格的集成下，某些音频编码器则可以从 LLM 内部更丰富的解码过程中获益。具体而言，采用语言对比学习或自监督目标训练的编码器（如 CLAP、SSLAM）更适合使用 LAL 集成方式；而 Whisper 由于其采用自回归语音到文本转写及下一 token 预测目标进行预训练，则能够从 PLITS 风格集成所提供的额外解码能力中获得更多收益。

基于上述观察，本文提出了一种 LAL 与 PLITS 相结合的混合集成框架——PAL，用于构建通用的音频、音乐和语音 LLM。该框架实现了一种面向音频编码器感知的融合策略，在效率与性能之间取得平衡。与单独采用 PLITS 集成方式相比，该设计在显著降低计算与内存开销的同时，仍能获得强劲的性能表现。实验系统地探索了性能与效率之间的权衡关系，揭示了面向编码器感知的融合策略如何在最小参数开销的前提下，实现音频编码器向 LLM 的高效信息传递。

Methodology

以当前最先进的集成方式 PLITS 作为基线方法，LAL 为本文提出的方法，PAL 为二者的混合方案。需要说明的是，文中使用 LAL 和 PAL 同时指代集成策略本身以及相应的音频-LLM 模型。

在音频编码器方面，采用 SSLAM 和 CLAP，并使用一种高效的、基于 Q-Former 的连接器来融合二者的信息，在不增加 token 数量的情况下完成融合，称为 LFST。若未使用 LFST，则音频编码器默认为 SSLAM；当使用 LFST 时，则表示 SSLAM 与 CLAP 的组合。

关于 LFST 的连接器：

用于融合语言对齐的编码器（如 CLAP）与自监督编码器（如 SSLAM）。该连接器生成一组紧凑的潜在 token，既融合了 CLAP 的语义信息，又保留了 SSLAM 的细粒度时空特征，同时保持序列长度固定，避免了简单拼接带来的计算开销。

编码器输出为：

其中 F表示频率，T表示时间，d 表示特征维度。单个潜在 token z会广播到每一个时空位置，从而得到每个 z_f,t。

在连接器内部，该模块包含 3 层交叉注意力（cross attention）层，每个 z_f,t 会通过与对应局部区域的 Hsslam和 Hclap 的交叉注意力进行更新。

为了在跨 (F,T)扁平化时保留时间结构，我们在频率轴上插入换行符（newline token），使得每一个新的时间步以该标记开头，然后才是其频谱 token

基线音频 LLM：

将音频 token 前置到 LLM 输入空间（PLITS）：将音频 token 前置到 LLM 输入 token 空间的基线音频 LLM 作为基准。

音频编码器的输出首先通过一个 Q-Former 连接器映射到 LLM 的输入嵌入空间，生成音频 token。随后，这些音频 token 被直接拼接在文本 token 之前，形成一个联合序列，并共同经过 LLM 的所有层进行处理，从而实现音频与文本的联合解码。该范式的核心特征在于音频 token 向 LLM 提供的方式——即作为前置 token 与文本一同输入。

LAL：轻量级音频-LLM 集成方法：

有研究表明，LLM 会将语义编码为可在隐藏状态中被选择性激活的特征。基于这一观点，提出如下假设：有效的音频-LLM 集成，并不需要对 LLM 做复杂改动，而是需要音频 token 能够触发文本 token embding 中与声音相关的概念特征。

换言之，不同的听觉输入应当在文本表示中激活相应的语言概念。例如，当输入中包含狗叫声时，与“狗”这一概念相关的特征应被激活，使模型能够将听觉信号锚定到语言层面，并正确回答诸如“当前包含哪种动物的声音？”这样的问题。该假设直接指导了我们的架构设计目标：寻找一条最简单、但又能可靠地将音频线索传递到承载语义概念的文本特征中的路径。

一个标准的 LLM 层由注意力子模块和前馈网络（FFN）子模块组成。由于注意力机制负责 token 之间的信息交互，它是音频影响文本的必要通道；同时我们认为，仅通过注意力机制，文本 token 便足以从音频中获取所需信息。

基于这一原则，我们提出了 LAL（Lightweight Audio LLM integration）。与基线方法类似，首先通过一个共享的 Q-Former 生成音频 token；在 LLM 的每一层中，使用一个 MLP 将这些音频 token 投影到该层的输入空间。随后，音频信息仅以 Key 和 Value 的形式注入到注意力模块中，而 Query 仍然仅由文本 token 构成。这样，音频只会调制文本 token 的注意力上下文，而不会经过 LLM 的前馈网络，从而实现更高效的音频-文本融合。

设第 l 层的文本隐藏状态为:H_l^t∈R^N_t×d, Q-Former 输出的音频特征为 A∈R^Na×da.在每一层引入一个投影器:P_l:R^da→R^d,将音频特征映射到该层的表示空间：

随后，在 token 维度上将文本与音频表示进行拼接：

如图 2(B) 所示，Query 仅由文本 token 生成，而 Key 和 Value 则由拼接后的序列计算：

由此得到文本 token 的 LAL 更新形式为：

更新后的H~_l^t随后按照标准做法进入 FFN，并结合残差连接进行处理。通过这种方式，音频信息仅通过注意力上下文影响文本 token，使由音频激活的特征与其对应的语言概念对齐，从而实现有效的跨模态信息传递。

计算与内存效率

与 PLITS 以及 Flamingo 风格架构相比，LAL 在三个方面显著提升了效率，且随着音频序列长度的增加，这些优势会进一步放大。实验中，我们观察到最高可达 64.1% 的显存占用降低，以及最高 247.5% 的训练吞吐提升（samples/sec）。

注意力复杂度

PLITS：在 Na+Nt 个 token 上执行完整的因果注意力，计算复杂度为：

LAL：仅文本 token 生成 Query，Key 和 Value 包含音频与文本，复杂度为

从而消除了 N_a²项以及所有音频—音频之间的注意力交互。

前馈网络（FFN）：

PLITS：音频 token 在每一层中既参与注意力计算，又通过 FFN，导致浮点运算量和激活存储随 NaN_aNa 成比例增长。
LAL：音频 token 不进入 FFN，仅作为 Key 和 Value 服务于文本 Query，从而减少了每层的浮点运算量以及反向传播所需的激活存储。

随音频长度的扩展性。
在多模态 LLM 中，非文本模态通常会产生远多于文本的 token，音频亦是如此。随着音频片段变长或 token 化更密集，Na增大，PLITS 的计算代价为 (Na+Nt)²，其中 Na² 项将占据主导。相比之下，LAL 的复杂度为 (Na+Nt)Nt，对 Na 呈线性增长。因此，音频越长或切分越细，二者在计算与内存上的差距就越大。此外，由于更多 token 绕过了每一层中最昂贵的 FFN，LAL 在前馈阶段的节省也会随 Na 的增大而进一步扩大。

相比Lora：

LAL 是一种核心架构层面的修改。LoRA 等方法主要改变训练阶段参数的适配方式，而在推理阶段基本保持原有的前向计算模式；LAL 则直接改变了注意力与 FFN 的路由方式，因此其计算与内存效率的收益不仅在训练阶段成立，在推理阶段同样适用。

冻结 LLM FFN 的 LAL 集成：验证了在冻结 LLM 前馈网络（FFN）模块的情况下，LAL 集成方式仍然保持有效，且性能并未出现显著下降。这一结果对于降低训练成本、提升参数效率，以及在实现多模态对齐的同时保留 LLM 预训练知识，具有重要意义。出于表述清晰与实验一致性的考虑，本文的主要实验仍聚焦于 FFN 可训练的标准设置。

参数化知识与上下文知识的利用。

LAL 如何高效利用预训练 LLM 中内在的两类知识：（1）参数化知识，主要源于大规模语言预训练并嵌入于 FFN 层中；（2）上下文知识，通过注意力机制动态地引入和调制。

LAL 的实验成功（见表 1 和表 2）表明，音频输入作为一种上下文信息，可以仅通过基于注意力的调制，在文本 token 表征中激活所需的概念，而无需对音频表示进行直接的 FFN 处理。由此，音频信息得以间接访问 LLM 的参数化知识：音频上下文“搭载”在文本 token 之上，注意力机制对其表征进行重构，进而在 FFN 处理中触发与相关概念对应的路径。该策略不仅在架构效率上具有优势，也为多模态信息融合机制提供了更为深入的理解。

LAL 的实证评估。在多种基础 LLM 上对 LAL 进行了训练与评估，覆盖通用音频任务，包括分类、描述生成（captioning）和推理。在表 1（分类与描述生成）和表 2（推理）中，我们给出了 LAL 与 PLITS 的受控对比，结果表明 LAL 在推理速度与内存占用更优的同时，能够达到与 PLITS 相当甚至更高的准确率。其次，在表 3（分类与描述生成）和表 4（推理）中，我们将 LAL 与已有方法进行了比较。需要注意的是，不同先前方法在训练数据规模和模型规模上存在显著差异，而我们的模型实验训练在这两个维度上均处于较低水平。

这些实验结果不应被简单理解为“全面优于所有方法”，而应被解读为一个更有说服力的结论：即在使用更少训练数据、更小模型、计算资源更受限的情况下，LAL 能够达到与现有方法相当的性能水平，表现出良好的竞争力。

PAL：一种面向编码器的、在 LAL 基础上扩展语音理解能力的架构

前文已经证明：

LAL：高效、省算力，适合通用音频（general audio）
PLITS：计算更重，但允许音频 token 在 LLM 内部被“语言化”处理

本节提出的关键问题是：

是否所有音频编码器都适合用 LAL？还是有些情况下必须用 PLITS？

对于 Whisper 语音编码器在 情感识别、性别分类 等任务上：PLITS 明显优于 LAL，这一现象与经典神经语言学理论相符：Wernicke 区主要负责语言理解，长期以来被认为处理书面语和口语，而角回则支持跨听觉、视觉及其他感官输入的关联。类比而言，语音特征在结合语言上下文进行解释时最为有用，而通用音频则受益于模态专属的处理通路。

语音（speech）-人类声音
→ 本质上是“语言的声学形式”
→ 在 LLM 内部、结合语言上下文进行解码更有价值
→ 因此更适合 PLITS（直接进入 LLM token 流）

通用音频 / 音乐 / 事件音
→ 非语言模态
→ 更适合走 模态专属通路
→ 用 LAL 即可

基于此，我们提出了 PAL（Probing the Audio Encoders via LLM），一种面向编码器的混合集成架构，可根据不同编码器选择合适的集成方式：通用音频编码器（SSLAM 和 CLAP）采用 LAL 集成，而语音编码器 Whisper 采用 PLITS 集成.

PAL 的实验评估：我们在涵盖语音、音乐和通用音频的统一 instruction tuning 数据集上训练 PAL，并在分类与推理基准上进行评测。结果显示，在分类任务中（表 5）以及推理任务中（表 6 和表 7）：

MMAU多任务音频理解与推理能力：包括语音、环境音、音乐等，用于测试模型感知理解、事件识别、推理以及高级知识应用

MMAR：面向音频理解与推理的挑战性基准，**音频 + 问答对**，覆盖 **语音、环境声**、音乐

PAL 的准确率与 PLITS 相当，同时保持了更高的计算效率。

Whisper 的“副作用”：对非语音任务也有帮助:

此外，我们观察到引入 Whisper 编码器后，通用音频（sound）和音乐任务的性能有所变化。我们推测，这是因为 Whisper 会编码背景声音，从而具备一定的事件检测能力。

在 PAL 与 PLITS 的对比中，我们严格控制实验条件，使用相同的 backbone、数据和训练超参数。除 Audio Flamingo 2 外，其他系统均基于 PLITS。表7种一些已有系统（Qwen2.5-Omni-7B）在指标上高于 PLITS，主要是因为它们使用了更大的训练数据集、更大的语言模型（LLM）以及更强的音频编码器。

PAL 采用两阶段训练流程（见表 9）。在阶段一中，我们以用于 LAL 的阶段一数据集为基础，并额外引入来自 OpenASQA的、以语音理解为重点的数据进行增强。在阶段二中，我们在一个经过精心整理的音频、语音与音乐推理指令数据集 AudioSkills上进行微调。由于部分源数据集的原始音频文件不可获取，我们使用了 AudioSkills 中的 600 万条样本子集（原始规模为 1000 万）。

实验

LAL：实验设置

训练流程（Training Protocol）
在两个目前规模最大的通用音频指令微调数据集上训练所提出的音频 LLM 变体：OpenAQA和 CompA-R。整体采用两阶段训练流程：
1）连接器预训练阶段：仅训练音频-文本connector，其余模块全部冻结；
2）联合训练阶段：同时训练connector和 LLM。
在整个训练过程中，音频编码器始终保持冻结状态。

针对推理和开放式问答任务，我们进一步增加两个训练阶段：

阶段 3：使用 OpenAQA中的开放式问答数据进行训练；
阶段 4：使用推理数据集 CompA-R进行训练。

采用 OpenAQA提出的两阶段训练设置对 LAL 进行训练，并据此获得表 1 中的实验结果。此外，我们还在 OpenAQA提供的更大规模开放式数据以及推理数据集 CompA-R上进行训练，其评测结果见表 2。

评测流程（Evaluation Protocol）
为了评估 LAL 是否能够有效地将关键音频事件信息从编码器传递到 LLM 的潜在表示空间中，我们在下游的分类、描述生成（captioning）和推理任务上进行评测。

分类任务：使用 gpt-text-embedding-ada 对模型输出文本和目标音频标签进行编码，并计算语义相似度；

描述生成任务：在标准音频描述数据集上评测，报告 CIDEr 和 SPICE 指标；
推理任务：采用 CompA-R-test 以及 Ghosh 的评测协议，通过一个纯文本的 GPT-4 评审模型，结合音频事件的辅助元数据，对音频-LLM 的输出在 有用性（Helpfulness）、清晰度（Clarity）、正确性（Correctness）、深度（Depth）和参与度（Engagement） 五个维度进行打分。

PAL：实验设置

训练流程：PAL 采用与 LAL 相同的两阶段训练流程。音频编码器在整个过程中同样保持冻结。

在阶段 1 中，构建了一个混合数据集：以通用音频 OpenAQA 的 Stage 1 数据为基础，并加入用于语音理解的 OpenASQA Stage 1 划分。
在阶段 2 中，使用一个精心整理的音频、语音和音乐推理指令微调语料，即 AudioSkills中的 600 万条子集。

语音理解评测：语音识别以及说话人性别分类。这些任务在阶段 1 训练完成后进行评测，用以衡量新引入的 Whisper 编码器与 LLM 的集成效果。随后，在 MMAR 和 MMAU 基准上评测通用音频、音乐以及语音推理能力，并报告细粒度的类别级性能结果。

总结：

提出了 LAL，一种仅通过注意力机制中的 Key 和 Value 注入音频信息、并跳过音频 token 的前馈网络（FFN）处理的轻量级集成方式。该方法减少了注意力交互与中间激活，在分类、描述生成和推理任务上保持与当前最先进基线 PLITS 相当的性能的同时，实现了 最高 64.1% 的显存占用降低 和 最高 247.5% 的训练吞吐提升。
此外，我们提出了 PAL，一种 编码器感知（encoder-aware） 的混合集成框架：对 SSLAM 和 CLAP 采用 LAL，而对 Whisper 采用 PLITS，因为 Whisper 能从 LLM 内部的解码过程中获益。
需要强调的是，LAL 属于核心架构层面的改动，而非参数高效微调（PEFT）方法，因此其效率收益在 训练阶段和推理阶段 均可体现。
在未来工作中，我们计划扩展到更大规模的基础模型，使用更高质量的指令数据以提升推理能力，并探索 流式处理 与 长上下文音频 场景。

PS：数据集说明：

VocalSound：VocalSound 数据集包含 21,024 条众包采集的语音录音，覆盖 6 类不同的发声表达，来自 3,365 名不同的受试者。

ESC-50：ESC-50 数据集由 2,000 条 5 秒长的环境音频片段组成，划分为 50 个类别。

DCASE2017 Task 4：DCASE 2017 Task 4 包含 17 种声音事件，分为“Warning”和“Vehicle”两大类，其评测集包含 1,350 条音频片段。

FSD50K：FSD50K 的评测集包含 10,231 条音频片段。我们在该评测集上进行评估，并报告多标签分类任务的 mAP（mean Average Precision）指标。包括人类声音 、 事物声音 、动物声音、 自然声音和音乐。

AudioSet：其中包含来自 YouTube 的 10 秒音频片段，这些片段按照 AudioSet 本体论被标注为一个或多个声音类别。

AudioCaps：AudioCaps 的评测集包含 901 条音频，每条音频配有 5 条文本描述，共计 4,505 对音频-描述样本。

Clotho V2：Clotho V2 的评测集包含 1,045 条音频，每条音频配有 5 条描述，共计 5,225 对音频-描述样本。

复杂音频推理（CompA-R）是一个合成生成的指令调优（IT）数据集，其中包含要求模型对输入音频进行复杂推理的指令。

Smart Turn–语义 VAD 模型

Smart Turn 是一个开源的语义语音活动检测（Semantic VAD）模型，它通过分析原始音频波形（而不是转录文本），来判断说话者是否已经完成了当前的发言轮次。

轮次检测（Turn Detection） 是对话式语音 AI 技术栈中最关键的功能之一。
轮次检测的核心目标，是判断语音智能体应当在何时对人类的语音作出回应。

目前，大多数语音智能体都基于 语音活动检测（Voice Activity Detection，VAD） 来实现轮次检测。VAD 的作用是将音频划分为“有语音”和“无语音”片段。然而，VAD 无法理解语音中的实际语言内容或声学信息。人类在进行轮次判断时，会综合语法结构、语调、语速，以及多种复杂的声学和语义线索。我们的目标是构建一种模型，使其在轮次判断上的表现能够更接近人类的直觉，而不是受限于基于 VAD 的方法。

架构

模型架构：尝试了多种架构和基础模型，包括 wav2vec2-BERT、wav2vec2、LSTM 和额外的 transformer 分类器层，最终，Smart Turn v3 以 Whisper Tiny 为基础，并包含一个线性分类器层。该模型基于 Transformer 架构，拥有约 800 万个参数。尽管模型规模很小，但它在测试集上的准确率却比 v2 版本更高

Smart Turn 以 16kHz 单声道 PCM 音频作为输入，与 Silero 等轻量级 VAD 模型配合使用。一旦 VAD 模型检测到静音，便会对用户回合的整个录音运行 Smart Turn 功能，如有必要，将从开头截断音频，将其缩短至约 8 秒。

当前模型的架构相对较为简单。未来可以尝试探索其他建模方式，以提升整体性能，或者让模型输出关于音频的更多附加信息，亦或是在输入端引入更多上下文信息。

如果在 Smart Turn 尚未完成执行之前 检测到用户有新的语音输入，则应当 基于整个当前轮次的完整录音重新运行 Smart Turn，而不是仅对新增的音频片段进行推理。Smart Turn 在获得足够上下文信息的情况下效果最佳，其设计目标并非用于处理非常短的音频片段。

例如，如果能够为模型提供额外的上下文信息，用于对推理过程进行条件约束，将会非常有价值。一个典型的使用场景是：让模型“知道”用户当前正在朗读的是 信用卡号码、电话号码或电子邮箱地址。在这种情况下，模型可以基于特定的语义或结构模式，对轮次检测做出更符合人类预期的判断。

能力：

体积相比 v2 缩小近 50 倍，仅 8 MB 🤯

语言支持大幅扩展：现已覆盖 23 种语言：
🇸🇦 阿拉伯语、🇧🇩 孟加拉语、🇨🇳 中文、🇩🇰 丹麦语、🇳🇱 荷兰语、🇩🇪 德语、🇬🇧 🇺🇸 英语、🇫🇮 芬兰语、🇫🇷 法语、🇮🇳 印地语、🇮🇩 印度尼西亚语、🇮🇹 意大利语、🇯🇵 日语、🇰🇷 韩语、🇮🇳 马拉地语、🇳🇴 挪威语、🇵🇱 波兰语、🇵🇹 葡萄牙语、🇷🇺 俄语、🇪🇸 西班牙语、🇹🇷 土耳其语、🇺🇦 乌克兰语，以及 🇻🇳 越南语。

在模型体积大幅缩小的情况下，准确率相比 v2 反而进一步提升

Accuracy results

阿里通义SpeakerLM：端到端解决说话人分割与识别

论文题目：《SpeakerLM: End-to-End Versatile Speaker Diarization and Recognition with Multimodal Large Language Models》
论文地址：https://arxiv.org/pdf/2508.06372
Pseudo–code/demo: https://sites.google.com/view/speakerlm/code

目标：解决“说话人分割与识别（SDR）”任务，简单讲就是从音频里搞清楚“谁在什么时候说了什么”，SpeakerLM是第一个能完整做SDR的音频-文本MLLM。

三种方案的对比：

（a）：SD+ASR级联，“先分割再识别”，有误差传递、无法联合优化；
（b）：SD+ASR+LLM，在级联后加LLM修正，依赖前端输出，改不了上游的错；
（c）：E2E-SDR（端到端），用一个SpeakerLM模型统一做，但需要考虑如何处理“注册说话人不匹配”的情况（比如多注册了人、少注册了人[这个比较难做]）。

SpeakerLM —— 一种面向 SDR 的统一多模态大语言模型，可在端到端方式下同时执行 SD 和 ASR。此外，为适配不同的真实应用场景，我们在 SpeakerLM 中引入了灵活的说话人注册机制，使其能够在多种注册配置下执行 SDR。SpeakerLM 通过多阶段训练策略，在大规模真实数据上逐步构建而成。实验结果表明，SpeakerLM 具有强大的数据扩展能力和泛化能力，在域内和跨域的公开 SDR 基准上均优于最新的级联式系统。此外，实验还显示，所提出的说话人注册机制能够有效保证 SpeakerLM 在不同的注册条件以及不同数量的已注册说话人下，持续保持稳健的 SDR 性能。

Introduction

SpeakerLM主要贡献:

第一个“端到端SDR的多模态大模型（SpeakerLM）”，不用拆SD和ASR，解决了级联系统的误差传递问题；采用音频编码器和两个投影器作为前端，构建了针对 SDR 的编码器–投影器–LLM 架构
加了“灵活的说话人注册机制”，能应对无注册、匹配注册、过量注册三种场景，特别贴合现实需求；将先验的说话人嵌入投影后与音频与文本 token 进行拼接，使模型能够处理真实应用中多种多说话人场景。
用“多阶段训练”让模型从简单到复杂逐步学习，数据越多性能越强，在域内、域外（比如车内噪音）都比现有基线好。

模型架构

SpeakerLM 在预训练文本 LLM 中集成了一个轻量级的模态对齐机制。对于输入的多说话人音频，我们首先使用音频编码器进行编码，然后通过一个投影器将音频嵌入注入到文本 LLM 的特征空间中。

对于说话人注册部分，我们使用冻结的文本分词器（tokenizer）对已注册说话人的姓名以及特殊标记（如 <start> 和 <end>）进行分词。已注册说话人的语音首先经过冻结的预训练嵌入提取器处理，以获得说话人嵌入；随后，这些嵌入通过单层线性投影器映射到 LLM 的主干网络中。

Audio Encoder and Projector

音频编码器使用预训练的 SenseVoice-large 编码器初始化，该编码器具备强大的音频表征能力，并在多语言语音识别和音频事件检测等各类音频理解任务中表现优异。

音频投影器采用随机初始化的两层 Transformer，之后接一个卷积神经网络层用于维度对齐。

Embedding Extractor and Projector

使用预训练的说话人嵌入模型来提取说话人嵌入，该模型能够提供稳健且具有判别性的特征表示，对精确的说话人识别和归因至关重要。采用开源的 ERes2NetV2 模型进行嵌入提取，该模型在多个说话人验证基准上达到了 SOTA 性能。提取出的嵌入通过单层线性投影器进行维度对齐。

Large Language Model

使用预训练的 Qwen2.5-7B-Instruct作为文本 LLM 主干，以充分利用其强大的指令跟随能力和通用语言理解能力，从而使 SpeakerLM 能够高效处理不同信息量的复杂多说话人 SDR 任务。

灵活的说话人注册机制

如图 2 所示，我们在 SpeakerLM 中引入了灵活的说话人注册机制。为了适配真实应用场景，我们提出了三种不同的注册策略：No-Regist、Match-Regist 和 Over-Regist，具体如图 3 所示。

设真实标注中的说话人数为 Ngt，注册的说话人数为 Nrg，则在不同注册设置下，两者的关系可以形式化为：

No-Regist 表示不执行任何说话人注册。这是传统级联式 SD 系统及其应用中的常规设置。我们仅将多说话人音频输入模型，而不提供任何关于说话人的先验信息。这种范式与传统级联式 SDR 框架相一致，输出中的每位说话人都以匿名说话人 ID 表示（如 spk0、spk1 等）。

Match-Regist 假设所有真实标签中出现的说话人均已提前注册，与 SA-ASR 的设定一致。模型需要将每位说话人正确匹配到对应的姓名。该设置能够很好地反映那些已知用户预先注册、并需要个性化输出（如带说话人姓名的转写）的实际场景。在 Match-Regist 中，准确的说话人–姓名关联至关重要，模型必须有效利用注册的说话人信息来进行识别。

Over-Regist 指注册的说话人数多于实际音频中出现的说话人。在这种情况下，模型必须判断哪些注册说话人并未出现在当前语句中，并对剩余的活跃说话人执行准确的带说话人归因的 SDR。这一设置比 Match-Regist 更具挑战性，因为模型不仅需要处理冗余的说话人信息，还必须抑制无关的身份。同时，这与实际场景高度一致：系统可能预先注册了大量用户，但在某次交互中只有其中一部分参与。

总体而言，所提出的说话人注册框架使 SpeakerLM 能够在不同程度的说话人监督条件下灵活执行 SDR，从匿名转写到带个性化姓名的转写均可适用，从而覆盖多种真实的多说话人应用场景。

多阶段训练策略

分了4个阶段，让模型循序渐进掌握SDR能力：

Stage1：只训ASR，得到“SpeakerLM-ASR”。用60万小时ASR数据，加LoRA训LLM，不加载说话人相关模块——目的是先把“听清楚内容”的能力拉满，毕竟ASR准了，后续SDR才好做。在这一阶段，说话人嵌入提取器与投影器不会加入模型。在随后的三个阶段中，这些模块会被加入完整架构。

Stage2：使用模拟的 SDR 数据训练随机初始化的投影器，同时 冻结 LLM 与音频编码器，目标是在 SDR 领域快速对齐音频与文本。使用模拟数据训练使得投影器能够在简化分布下建立初步的粗粒度对齐。与真实录音相比，模拟混合语音仅通过简单地拼接不同说话人的语句构造，并未模拟强噪声或混响。

Stage3：用真实SDR数据训音频编码器+projector。冻结LLM，联合训前两个模块——真实数据更复杂（比如会议远场语音），这一步是让模型抓真实场景的声学特征。

Stage4：联合训所有模块。给LLM加LoRA，一起训音频编码器、projector和LLM——最后一步整合语言（文本）和声学（音频）信息，搞定复杂多说话人场景。

数据构成

数据构成：真实+模拟，覆盖各种场景

公开语料库中采样了 238.55 小时音频用于训练与评估，覆盖多种真实世界的多说话人场景。此外，我们还使用了 7456.99 小时的内部数据用于训练与验证，以进一步增强模型性能。详细统计如表 1 所示。

主要是中文数据集，用来训和测SDR：

公开数据：AliMeeting（会议场景，训104.75h、测10h）、AISHELL4（会议场景，训107.5h、测12.72h）、AISHELL5（车内场景，测3.58h，有风声、轮胎声、空调声，特别难，用来测泛化性）；
内部数据：7426.7h训练、30.29h验证，是近场录音，用来提升模型数据量。

模拟数据：用AliMeeting、AISHELL2、LibriSpeech、In-House-Train等的近场语音混出来的，5000h训练、5.6h测试（叫Simulation-Test），每段50秒，2-4个说话人，加了真实噪音和混响——用来做Stage2的训练数据。

Experiments

实现细节

音频重采样至 16 kHz，录音被随机切分为 40 到 50 秒的片段，用于训练和测试 SpeakerLM。对于说话人注册，已注册说话人的语音被切分为 2–10 秒的片段用于嵌入提取，随后将对应嵌入取平均，生成单个代表性说话人嵌入。对于 Over-Regist，训练期间过度注册的说话人数在 1 到 50 之间均匀取值。

优化器AdamW，学习率从1e-5 warm-up到5e-5，再余弦衰减；用4个NVIDIA A800 GPU，每个阶段训1M步，每10K步验证一次。

评估指标

公开基准上评估 SDR 性能，包括同域数据 AliMeeting-Eval 和 AISHELL4-Eval，以及跨域数据 AISHELL5-Eval。
使用以下指标进行评估：字符错误率（CER）、cpCER、∆cp、saCER以及 ∆sa。

CER：只看ASR准不准，不管说话人（比如把“你好”写成“你郝”，CER就高）；
cpCER：联合看ASR和SD，无注册时找“最优标签排列”（比如模型标spk0，实际是spk1，只要内容对、排列对就算对）；
saCER：联合看ASR和SD，有注册时直接按名字对齐（比如模型把Mike的话标成Lucy，就算错）；
∆cp=cpCER-CER、∆sa=saCER-CER：反映“说话人归属误差”——比如CER很低但∆cp高，说明ASR准但说话人标错了，这俩指标不受ASR影响，更准。

基线模型：

SD+ASR：用Paraformer-large（ASR里的SOTA）当ASR，配4个SD工具（3D-Speaker、Pyannote3.1、Diarizen-base/large），共4个基线；
SD+ASR+LLM：用Diarizen-large+Para当前端，加LLM修正（ChatGPT4.5零样本、Qwen2.5-7B零样本、Qwen2.5-7B微调），共3个基线；
E2E-SDR：SpeakerLM。

实验结果

Performance without Speaker Registration

SpeakerLM 在无注册条件下，预测结果中的每个说话人都以匿名 ID 表示。

LM零样本（ChatGPT4.5、Qwen2.5零样本）特别差，CER反而升高——因为LLM会“ hallucination（幻觉）”，明明让它只改说话人标签，它却改了内容；就算微调Qwen2.5，也只比最强的SD+ASR（Diarizen-large+Para）好一点。

结果表明，当 SDR 数据规模有限时，SpeakerLM 表现落后于大多数级联基线。但随着训练数据量的增长，SpeakerLM 展现出强大的数据扩展能力（data scaling capability），其 cpCER 和 ∆cp 显著提升。

与此同时，CER 的提升幅度较小，这是因为企业内部数据多为近场录音，对具有混响的远场语音带来的 ASR 改善有限。当 SDR 训练数据达到 7,638.95 小时后，SpeakerLM 的性能显著超越所有基线系统。在 cpCER 方面，SpeakerLM 相比最强的级联系统，在 AliMeeting-Eval、AISHELL-4-Eval 和 AISHELL-5-Eval 上分别取得 6.60%、6.56% 和 13.82% 的绝对改进。值得注意的是，即使在难度较高且跨域的 AISHELL5-Eval 测试集上，SpeakerLM 也取得了 0.57 的 ∆cp，表明该模型在未见过且噪声环境下具有强大的鲁棒性和泛化能力。

在AliMeeting-Eval和Simulation-Test上，从Stage1到Stage4，cpCER和∆cp稳步下降，说明多阶段训练有效；第二阶段的 CER 高于第一阶段,这是因为 Stage 2 依赖模拟数据，而模拟过程并未包含来自这两个数据集的真实音频，导致了领域不匹配。后续阶段（Stage 3 和 Stage 4）中在更真实、更具多样性的会议风格数据上的微调，对缓解领域不匹配、提升模型在不同评测场景下的稳健性至关重要。

Performance with Speaker Registration

比SA-Transformer强太多：在AliMeeting-Eval上，SpeakerLM的saCER比SA-Transformer低25.98%——因为SA-Transformer只能处理“注册和实际完全匹配”的情况，而SpeakerLM能应对各种注册场景；
Match-Regist vs Over-Regist：两者的CER、cpCER差不多，但Over-Regist的∆sa更高（比如AliMeeting-Eval上，Match-Regist的∆sa=1.59%，Over-Regist=1.75%）——说明多余的注册信息会轻微影响说话人归属，但整体影响不大，模型能过滤冗余。

多余说话人数量对saCER的影响:

随着 Nov 的增加，并未观察到明显的性能退化。这反映出 SpeakerLM 对冗余说话人身份具有良好的鲁棒性，并且在推理过程中能够聚焦于与任务相关的说话人表征。

Impact of Embedding Extractors

选择ERes2NetV2/CAM++ 作为说话人特征提取模型，在多项说话人验证基准上，ERes2NetV2 的表现优于 CAM++：No-Regist时，ERes2NetV2的CER=13.97%、cpCER=16.05%，都比CAM++低——说明“说话人embedding质量”会影响SpeakerLM性能，好的embedding能让模型更准识别说话人。

Training Pseudo-code

无注册/匹配注册/过度注册任务配置：

在 SpeakerLM 中，我们为 SDR 任务引入了三种说话人注册（speaker registration）机制：无注册（No-Regist）、匹配注册（Match-Regist） 和 过度注册（Over-Regist）。在训练过程中，所有样本默认以匹配注册的形式加载。对于每一个训练批次，我们会从 0 到 1 的均匀分布中采样一个随机数，用于决定注册类型：

如果随机数小于 1/3，则保持匹配注册（Match-Regist）；
如果随机数在 1/3 与 2/3 之间，则从提示（prompt）中移除所有已注册的说话人（No-Regist）；
如果随机数大于 2/3，则从其他会话中随机采样 1 到 50 名说话人，并将其作为冗余的已注册说话人附加到提示中（Over-Regist）。

Prompts for LLMs

1. SD+ASR+LLM：在 SD+ASR+LLM 流水线中，我们使用基于文本的 LLM 来纠正 SD+ASR 前端生成的说话人标签。所使用的 prompt 继承自先前研究。

SD+ASR+LLM 的 LLM Prompt：
You are a helpful assistant. In the speaker diarization transcript below, some words are potentially misplaced. Please correct those words and move them to the right speaker. Directly show the corrected transcript without explaining what changes were made or why you made those changes.
（你是一名有帮助的助手。下面的说话人分离转录中，某些词语可能被错误地分配到说话人。请纠正这些词语并将其移动到正确的说话人处。直接展示修正后的转录，不要解释修改内容或理由。）

2. SpeakerLM-ASR ：在 SpeakerLM 的第一阶段训练中，我们使用纯 ASR 数据来增强模型的 ASR 性能。该模型被称为 SpeakerLM-ASR。使用的 LLM prompt 如下：

SpeakerLM-ASR 的 LLM Prompt：
You are a helpful assistant. Transcribe the speech. <start>path to the input speech<end>
（你是一名有帮助的助手。请进行语音转写。<start>输入语音的路径<end>）

3. SpeakerLM：在 SpeakerLM 中，LLM 的 prompt 会随着注册机制的不同而变化。这里给出了三种注册场景（No-Regist、Match-Regist 和 Over-Regist）的 prompt 设计。假设真实标注包含三位说话人：Mike、Lucy 和 Jack，则相应的 prompt 构造如下。

No-Regist（无注册）

You are a helpful assistant. Transcribe by roles. <start>path to the multi-speaker speech<end>
（你是一名有帮助的助手。请按角色进行转写。<start>多说话人语音的路径<end>）

Match-Regist（匹配注册）

You are a helpful assistant. Registered Speaker Embeddings:
Mike<start>path to the embedding of Mike<end>;
Lucy<start>path to the embedding of Lucy<end>;
Jack<start>path to the embedding of Jack<end>;
Transcribe by roles. <start>path to the multi-speaker speech<end> （你是一名有帮助的助手。已注册的说话人嵌入如下：
MikeMike 的嵌入路径；
LucyLucy 的嵌入路径；
JackJack 的嵌入路径；
请按角色进行转写。多说话人语音的路径
（说话人顺序没有特定要求。））

Over-Regist（过度注册）

You are a helpful assistant. Registered Speaker Embeddings:
Mike<start>path to the embedding of Mike<end>;
Lucy<start>path to the embedding of Lucy<end>;
Jack<start>path to the embedding of Jack<end>;
Andy<start>path to the embedding of Andy<end>;
Rose<start>path to the embedding of Rose<end>;
Frank<start>path to the embedding of Frank<end>;
Transcribe by roles. <start>path to the multi-speaker speech<end> （注：在此情况下，Andy、Rose 和 Frank 是来自其他会话的过度注册说话人。说话人顺序没有特定要求。）

Qwen3-Omni ：原生端到端的多语言全模态大模型

Qwen3-Omni ，这是一个原生端到端的多语言全模态基础模型。它旨在处理包括文本、图像、音频和视频在内的各种输入，同时提供文本和自然语音的实时流式响应。

主要特点：

原生全模态：Qwen3-Omni是原生全模态大模型，预训练全模态不降智。
强大的性能：Qwen3-Omni在36项音频及音视频基准测试中斩获32项开源SOTA与22项总体SOTA，超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强模型，同时其图像和文本性能也在同尺寸模型中达到SOTA水平。
多语言：Qwen3-Omni支持119种文本语言交互、19种语音理解语言与10种语音生成语言。
更快响应：Qwen3-Omni纯模型端到端音频对话延迟低至211ms，视频对话延迟低至507ms。
长音频：Qwen3-Omni支持长达30分钟音频理解。
个性化：Qwen3-Omni支持system prompt随意定制，可以修改回复风格，人设等。
工具调用：Qwen3-Omni支持function call，实现与外部工具/服务的高效集成。
开源通用音频Captioner：开源Qwen3-Omni-30B-A3B-Captioner，低幻觉且非常详细的通用音频caption模型，填补开源社区空白。

模型架构：

Qwen3-Omni采用Thinker-Talker架构：Thinker负责文本生成，Talker专注于流式语音Token生成，直接接收来自Thinker的高层语义表征。为实现超低延迟流式生成，Talker通过自回归方式预测多码本序列：在每一步解码中，MTP模块输出当前帧的残差码本，随后Code2Wav合成对应波形，实现逐帧流式生成。

创新架构设计AuT：音频编码器采用基于2000万小时音频数据训练的AuT模型，具备极强的通用音频表征能力。MoE：Thinker与Talker均采用MoE架构，支持高并发与快速推理。多码本技术：Talker采用多码本自回归方案——每步生成一个编解码帧，MTP模块同步输出剩余残差码本。
全模态不降智在文本预训练早期混合单模态与跨模态数据，可实现各模态混训性能相比纯单模态训练性能不下降，同时显著增强跨模态能力。
卓越的语音对话与指令跟随能力Qwen3-Omni在语音识别与指令跟随任务中达到Gemini-2.5-Pro相同水平。
实时音频和音视频交互AuT，Thinker, Talker + Code2wav全流程全流式，支持首帧token直接流式解码为音频输出。

Qwen3-Omni models

Qwen3-Omni-30B-A3B-Instruct：包含 thinker and talker ，支持音频、视频和文本输入，并可输出音频和文本。
Qwen3-Omni-30B-A3B-Thinking：包含 thinker ，配备思维链推理功能，支持音频、视频和文本输入，并输出文本。
Qwen3-Omni-30B-A3B-Captioner：基于 Qwen3-Omni-30B-A3B-Instruct 微调的下游音频细粒度字幕模型，能够为任意音频输入生成细节丰富、低幻觉的字幕。它包含thinker ，支持音频输入和文本输出。

Introduction

当前多模态的训练会出现一种模态的提升伴随着其他模态的退化，该工作探索在当前主流的基于大语言模型（LLM）的范式下实现集成式多模态训练，证明了联合多模态训练可以在所有模态上实现性能均衡，即不存在模态特异性的性能下降，同时显著增强跨模态能力。关键在于：在文本预训练的早期阶段混合单模态和跨模态数据。

关键：在文本预训练的早期阶段混合单模态和跨模态数据。预训练早期的多模态融合允许语言模型与视觉或音频共同训练，而不会导致语言能力下降；文本模态的加入显著提升了视觉和音频的性能，但从视觉或音频信号中并未观察到语言能力的显著提升；从经验来看，加入音频数据可以持续提升视觉模态在 MMMU 基准和 OCR 相关任务上的表现。

Qwen3-Omni 对 Qwen2.5-Omni的架构进行五项关键升级：

Thinker 与 Talker 均升级为 MoE（专家混合）结构，提升模型容量与任务适应性。
使用自研的 AuT（Audio Transformer）编码器替换Whisper编码器，该编码器在 2000 万小时的有监督音频上从零训练而成，能够提供更强的通用音频表示能力。AuT 使用分块窗口注意力（block-wise window attention），以实现实时的 prefill 缓存。
在语音生成端，引入多码本表示，其更高的表达容量有助于更真实地建模多样化的音色、超语段要素以及声学现象。
Talker 从单轨 codec 建模升级为多轨 codec 建模，通过 MTP 模块自回归地预测多个码本层；同时波形生成阶段用轻量级卷积网络（ConvNet）替代了分块式 DiT。
输入与输出音频码率均降低至 12.5 Hz，且输出 codec 支持单帧、即时的语音合成。

此外，还有四个大的改进：

支持超过 40 分钟的长音频理解；
扩展语言覆盖范围：支持 119 种书写语言、19 种口语理解语言，以及 10 种口语生成语言；
Thinking 模式实现全模态推理，包括音频—视频场景与仅音频场景；
流式性能进一步提升，端到端延迟最低可达 234 毫秒。

最核心的是 Qwen3-Omni 在文本与视觉模态上保持了与同规模单模态 Qwen 模型一致的最先进性能，没有出现性能退化。

Architecture

Thinker 与 Talker 均采用 Mixture-of-Experts（MoE）架构，以支持高并发与快速推理。
Talker 不再只使用 Thinker 的高级文本表征，而是基于音频与视觉的多模态特征进行条件建模。其设计动机如下：
(i) 对于文本内容而言，离散 token 与其 embedding 在信息量上基本等价；
(ii) 多模态条件对于音频–视频协调的语音生成（例如在语音翻译中保持韵律/音色）是必要的。
此外，这种解耦使外部模块（如 RAG、函数调用、安全过滤器）能够对 Thinker 的文本输出进行干预，并在需要时通过受控预处理将文本输入给 Talker，用于流式合成。
由于文本表征被解耦，Thinker 和 Talker 可以使用不同的系统提示语（system prompts），从而分别控制 Thinker 的文本响应风格与 Talker 的音频生成风格。
Talker 采用多码本（multi-codebook）自回归方案：每一步生成一个 codec 帧，剩余的残差码本由 MTP 模块预测完成。
Code2Wav 以轻量级因果卷积网络（causal ConvNet）实现，简化了音频合成的最终阶段。

在训练和推理过程中，Talker 直接接收来自 Thinker 的高维多模态特征，并共享完整的对话历史。因此，整个系统作为一个整体运行，实现端到端训练与统一推理。

Audio Transformer (AuT)

Audio Transformer（AuT）是一种注意力式的 encoder–decoder 模型，如图 3 所示，在 2000 万小时的有监督音频数据上从零训练而成。训练过程中，音频的滤波器组特征（filter bank features）在进入注意力层之前，通过 Conv2D 模块进行 8 倍下采样，将 token 速率降至 12.5 Hz。为了学习更强大、更通用的音频表示，AuT 在大规模音频数据集上进行训练，涵盖语音识别与音频理解任务。具体而言，训练数据组成如下：

80% 中文与英文的伪标签 ASR 数据；
10% 其他语言的 ASR 数据；
10% 音频理解数据。

为在实时 prefill 缓存效率与离线音频任务性能之间取得平衡，AuT 使用具有动态注意力窗口大小的 flash attention，覆盖从 1 秒到 8 秒的注意力查询模式。将 AuT encoder 用作音频编码器，模型参数约为 0.6B

Perceivation (感知)

Text, Audio, Image and Video (w/o Audio).

Thinker 将文本、音频、图像与无音轨视频转换为一系列可作为输入的表征。文本基于Qwen3文本分词器，语音处理为16 kHz，并将原始波形转换为 128 维 Mel 频谱图，通过AUT编码，每一帧音频表示约对应原始音频信号的 80 ms。视频编码器基于Qwen3-VL 的视觉编码器（SigLIP2-So400m），可同时处理图像与视频输入。为了尽可能保留视频信息并与音频采样率对齐，我们采用动态帧率采样视频帧。

Video and Multimodal Position Embedding (TM-RoPE)

参考Qwen2.5-Omni，使用 时间对齐的多模态旋转位置编码（TM-RoPE），它在多模态旋转位置编码（M-RoPE）基础上加入了绝对时间信息。TM-RoPE 将传统旋转位置编码分解为三个维度：

时间维（temporal）
高度维（height）
宽度维（width）

在原始 M-RoPE 中，时间相关性由前 16 个旋转角建模，这些角对应高频且震荡更强的模式。该设计有利于捕获局部时间变化，但会影响模型对长序列的外推能力。

为解决这一问题，我们重新分配了旋转角数量：

时间维 24 个
高度维 20 个
宽度维 20 个

该分配在局部语义与长程依赖之间实现了更平衡的表示，从而提升整体性能。

TM-RoPE 会根据输入模态的不同进行定制化应用：

文本模态：三个维度共享相同的位置 ID，使 TM-RoPE 等价于一维 RoPE。
音频模态：同样共享位置 ID，并额外加入绝对时间编码，每个时间 ID 对应 80 ms。
图像模态：所有视觉 token 分配相同的时间 ID，而其行列位置分别决定高度与宽度的 ID。

对于音视频输入：

音频：每 80 ms 分配一个时间 ID；
视频：每帧视频根据其真实时间戳分配 递增的时间 ID，动态调整以确保与音频保持 80 ms 分辨率对齐。
视频的高度与宽度 ID 与静态图像保持一致。

为避免多模态之间的位置冲突，所有模态的位置编号保持连续，每种模态的起始位置 ID 为前一种模态最大位置 ID 加一。该精细化的位置编码方案使模型能够有效整合并联合建模多模态信息。

相较 Qwen2.5-Omni 的关键区别：不同于 Qwen2.5-Omni 将音视频表示强制切分为固定的 2 秒块，Qwen3-Omni 直接基于绝对时间的时间 ID 对齐多模态表示。这种设计赋予模型处理任意时长流式输入的灵活性。

Speech Generation

在多轮对话的语音合成中，Talker 模块依赖于由 Thinker 组件提供的丰富上下文，该上下文包括历史文本 token、多模态表示以及当前轮的流式文本。对长上下文信息的依赖至关重要，因为高保真语音合成需要根据当前对话动态调整声学属性，如韵律、响度和情感，这一原则在上下文感知生成模型中已被充分验证。

在架构上，直接在 RVQ token 上进行操作。Talker 采用层次化预测策略：骨干网络（backbone）输入当前帧的聚合码本特征，并通过线性头预测第零码本，随后多 token 预测（MTP）模块生成所有剩余码本。这一策略使模型能够学习声学细节的完整表示，从而增强语音的表现力。因此，波形重建被简化为轻量级因果卷积网络（Code2Wav），在显著降低推理延迟和计算开销（FLOPs）的同时，相比更复杂的基于 DiT 的声码器实现了更高的音频保真度。

流式与并发设计

在流式视听交互场景中，首包延迟是影响用户体验的关键因素，而模型的并发能力对于降低服务成本和提高响应速度至关重要。下面是 Qwen3-Omni 如何通过算法与架构优化提升并发性并降低首包延迟。

分块预填充与 MoE 架构。在 Qwen3-Omni 中，保留了 Qwen2.5-Omni 中的分块预填充机制，其音频和视觉编码器能够沿时间维度输出分块（chunk）。在实时交互中，Thinker 和 Talker 模块执行异步预填充：当 Thinker 完成当前块的预填充后，其输出的高层表示会立即异步用于预填充 Talker 的当前块，同时 Thinker 预填充下一块。这种方法显著降低了 Thinker 和 Talker 的 Time-To-First-Token (TTFT)。

在架构上，Qwen3-Omni 的 Thinker 与 Talker 均采用 MoE设计，这对于提升服务吞吐量非常有效。与稠密模型相比，MoE 架构在处理长序列时显著降低了 KV 缓存带来的 IO 消耗，从而提高生成过程中的每秒 token 数（TPS）并增强并发性能。

流式多码本编解码生成：为了最小化用户接收首个生成包的等待时间，提出了仅左侧上下文的多码本生成机制。如图 2 所示，一旦 Talker 生成第一个 token，MTP 模块即可预测当前帧的剩余 token，然后由流式多码本编解码器将其解码为波形，该编解码器仅关注左侧上下文。与 Qwen2.5-Omni 需要等待 Talker 生成足够块级上下文才能合成波形不同，Qwen3-Omni 在 Talker 生成每个 token 后即可输出波形，从而显著降低首包延迟。

轻量级 MTP 模块与 ConvNet：MTP 模块和编解码器均为轻量级模块，计算 FLOPs 低，支持批处理推理，非常适合高并发场景。MTP 模块是超轻量级、固定步长的自回归稠密 Transformer，在推理硬件上对内存带宽要求低，从而天然支持高吞吐量请求的批处理。其固定步长自回归推理机制允许高效利用固定 KV 缓存空间加速，实现低延迟推理。同时，基于 ConvNet 的编解码器也能在低延迟下实现高吞吐量，因为其卷积架构在多种推理平台上均有广泛硬件加速支持，并且支持高效的批处理推理。

表 2 给出了 Qwen3-Omni 在典型计算资源下，不同并发场景下的理论首包延迟（first-packet latency）。实验在 vLLM 框架上进行，用于处理并发的视听流，同时对 MTP 模块和编解码器采用了 torch.compile 和 CUDA Graph 加速优化。

首包延迟受到多个因素影响：

Thinker 与 Talker 的模型规模会影响尾包预处理延迟（包括音频和视觉编码器的多模态数据预处理和推理）以及 Time-To-First-Token (TTPT)。
MTP 模块与编解码器的架构与规模会影响它们的推理延迟。

由于这些组件之间存在顺序依赖，总体首包延迟是各个延迟的累加。结果显示，Thinker 和 Talker 的 MoE 架构 能确保在高并发下，其预填充延迟和 TTPT 基本不受影响。同时，MTP 模块和编解码器的轻量化设计最小化了计算开销，对首包延迟的影响也很小。

此外，在输出首个数据包后，模型开始进行流式音频合成，由于 Talker 的 token 生成速率为 12.5 Hz，每个 token 即可合成 80 ms 的音频。因此，生成实时因子（RTF）通过以下公式计算：

实验结果表明，RTF 在不同并发水平下始终低于 1，确保用户能够持续接收流式音频响应

Pretraining

Qwen3-Omni 在一个多样化的数据集上进行预训练，该数据集涵盖多种语言和方言（如表 3 所示）以及多种模态，包括图文、视频文本、音频文本、视频音频、视频音频文本以及纯文本语料库。与 Qwen2.5-Omni 使用每个任务单一提示词不同，我们采用更丰富的自然语言提示，以增强模型的泛化能力和指令遵循能力。为了在所有模态下实现稳健性能，训练策略从早期预训练阶段就整合了单模态和跨模态数据。

Qwen3-Omni 的预训练分为三个阶段：

编码器对齐阶段：音频和视觉编码器在固定的 LLM 上单独训练，最初重点训练各自的 adapter，随后再训练编码器本身。不采用在冻结 LLM 的情况下联合训练编码器与 adapter 的方法，因为该方法可能导致编码器过度补偿冻结 LLM 的限制，从而降低感知能力。
通用阶段：使用了一个大规模数据集，约含 2 万亿 token，其中文本：0.57 万亿、音频：0.77 万亿、图像：0.82 万亿、视频：0.05 万亿、视频-音频：0.05 万亿。在此阶段，引入更多样化的多模态数据和任务，增强了模型在听觉、视觉、文本及视听信息上的理解与交互能力。
长上下文阶段：最后，将最大 token 长度从 8,192 提升至 32,768，并增加了训练数据中长音频和长视频的比例。实验结果表明，这些调整显著提升了模型对长序列数据的理解能力。

后训练

Thinker

后训练阶段包括对 Thinker 的三阶段训练，使 Qwen3-Omni 具备指令遵循能力。训练数据集采用 ChatML格式，涵盖纯文本对话、视觉模态对话、音频模态对话以及混合模态对话数据。

第一阶段：轻量化监督微调（SFT）
通过有针对性的指令优化，将预训练表示与下游任务需求进行桥接。SFT 有意偏离预训练数据结构，但保持与预训练模型的架构一致，以实现高效的知识迁移，同时保留预训练特征的完整性。

第二阶段：强对弱蒸馏（Strong-to-Weak Distillation）采用 Qwen3中描述的蒸馏流程，包括两个阶段：

离策略蒸馏（Off-policy Distillation）：初期阶段，教师模型生成的输出被整合，用于响应蒸馏。这帮助轻量学生模型掌握基础推理能力，为后续的在线训练奠定基础。
在线蒸馏（On-policy Distillation）：学生模型根据采样提示生成响应序列，随后进行微调，将学生预测的 logits 与教师模型（Qwen3-32B 或 Qwen3-235B-A22B）的 logits 对齐，通过最小化 KL 散度进行优化。

第三阶段：GSPO 强化，利用 GSPO全面提升模型在文本、图像、视频和音频等多模态上的能力和稳定性。针对不同模态使用两类奖励信号：

规则基奖励（Rule-based Reward）：用于可验证的多模态任务（如数学、编码、指令遵循），奖励信号源自预定义规则，可高精度评估模型输出的正确性，避免奖励漏洞（reward hacking）。
模型基奖励（Model-based Reward）：用于缺乏客观评价指标的多模态任务，采用 LLM 作为评估者（LLM-as-a-judge）协议。通用任务由 Qwen3 担任评估，视觉-语言任务由 Qwen2.5-VL 担任评估。评估过程中，LLM 可获取对应的真实答案或参考答案，以实现更稳健、可靠的评价。

Talker

对 Talker 采用四阶段训练，使 Qwen3-Omni 能够同时生成文本与语音响应。训练数据统一采用 ChatML 格式，确保与 Thinker 的一致性。

第一阶段：使用数亿条带多模态上下文的语音数据训练 Talker，建立从多模态表示到语音的单调映射关系。
第二阶段：进行高质量数据的持续预训练（Continual Pretraining, CPT），缓解第一阶段噪声数据导致的幻觉问题，显著提升语音生成质量。同时进行长上下文训练，增强 Talker 处理长复杂输入并生成语境适配语音的能力。
第三阶段：构建多语言语音偏好对（preference pairs），通过 直接偏好优化（Direct Preference Optimization, DPO）提升多语言语音生成的泛化能力和系统稳定性。
第四阶段：对基模型进行说话人微调（speaker fine-tuning），使 Talker 可以采用特定声音，并优化语音自然度、表现力和可控性。

Captioner

字幕生成是多模态理解的基础任务，也是大型多模态模型训练与评估的重要组成部分。然而，现有研究大多集中在视觉字幕生成，较少关注音频模态，而听觉感知是人类感知与交互的重要组成。为弥补这一空白并推动多模态感知研究，我们提出 Qwen3-Omni-30BA3B-Captioner。该模型通过在大规模音频描述数据集上微调 Qwen3-Omni-30B-A3B 得到，可为任意音频输入生成详细、低幻觉的字幕。

Evaluation

对一系列模型进行了全面评估，包括 Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking 以及两款内部开发的变体 Qwen3-Omni-Flash-Instruct 和 Qwen3-Omni-Flash-Thinking。这些 “Flash” 模型旨在提升计算效率和性能，同时引入新功能，尤其是对多方言的支持。评估结果分为两大类：理解能力（X→Text） 和 语音生成能力（X→Speech）。

X→Text 评估

Qwen3-Omni 理解各种多模态输入（文本、音频、视觉以及视听视频）并生成文本响应的能力。

文本→文本：评估通用任务、推理能力、编码能力、对齐任务、代理（Agent）以及多语言任务。

表4 ：Qwen3-Omni-30B-A3B-Instruct 的性能在多个基准任务中超过了更大的开源模型 Qwen3-235B-A22B Non-Thinking 以及强大的闭源模型 GPT-4o-0327
表5：Qwen3-Omni-30B-A3B-Thinking 的表现与 Gemini-2.5-Flash-Thinking 以及Qwen3-235B-A22B Non-Thinking 接近。
Qwen3-Omni-30B-A3B 在文本任务中的表现也与其对应的纯文本模型版本保持一致，包括：Qwen3-30B-A3B-Instruct-2507、Qwen3-30B-A3B-Thinking-2507

音频→文本：分为基础音频任务和高级音频任务两类。基础任务包括自动语音识别（ASR）、语音转文本（S2TT）以及音乐理解；高级任务包括语音聊天和音频推理。另外，还评估模型在各种音乐信息检索任务上的能力，如流派识别、情感与主题识别、乐器识别以及音乐关键词标注。

表 6 所示，Qwen3-Omni-Instruct 在 Librispeech、Wenetspeech、Fleurs、CommonVoice、Opencpop-test 以及 MIR-1K（vocal）等数据集上取得了英语与中文 ASR 以及歌词识别的最新最优性能（SOTA）。在多语言 ASR 和 S2TT 任务上，Qwen3-Omni 的表现同样优于或可与其他专业模型或通用模型（如 Voxtral-Small 和 Gemini-2.5-Pro）媲美。这些结果表明 Qwen3-Omni 在语音识别与语音翻译任务上具备非常强的能力。

此外，如表 7 所示，Qwen3-Omni-Thinking 在 VoiceBench 上取得了 89.5 的平均得分，超过了除 Gemini-2.5-Pro（89.6）之外的所有其他音频大模型，展现出优秀的语音交互能力。

在音频推理方面，Qwen3-Omni 同样表现突出：在 MMAU 基准上超越了强大的闭源模型 Gemini-2.5-Pro 与 Gemini-2.5-Flash，在 MMSU 上超过了 Gemini-2.5-Flash 和 GPT-4o-Audio。

表 8 中将 Qwen3-Omni-Instruct 与通用音频语言模型和专业音乐模型进行了比较。Qwen3-Omni-Instruct 在 RUL-MuchoMusic 上取得了最新最优（SOTA）表现。在 GTZAN、MTG-Jamendo 以及 MagnaTagATune 上，Qwen3-Omni-Instruct 的得分也显著超过了其他音频语言模型（包括 Gemini-2.5-Pro 和 GPT-4o-Audio），并超过了在这些数据集上测试的多种自监督音乐专业模型。

视觉→文本：通用视觉问答能力、数学与 STEM 推理能力、文档理解能力、数值推理与计数能力、动态视觉数据理解能力。将 Qwen3-Omni-Instruct 与 Qwen2.5-VL-72B 以及其他表现优异的闭源视觉语言模型进行了对比。如表 9 所示，Qwen3-Omni-Instruct 的整体表现与 Qwen2.5-VL-72B 相当，并且在 数学与 STEM 相关任务（如 MMMU-Pro overall、MathVista mini、MATH-Vision full）上取得了优于 GPT-4o 和 Gemini-2.0-Flash 的成绩。

Qwen3-Omni-Thinking 与多种最先进推理模型进行了比较。
表 10 的结果显示，我们提出的模型取得了显著的性能提升。例如，在 数学与 STEM 基准 上，它比 Qwen3-Omni-Instruct 基线提升了 4.4 个点。
值得注意的是，Qwen3-Omni-30B-A3B-Thinking 的性能已经可与规模更大的模型相媲美，展现了在 性能与计算效率之间的优秀平衡。

然而，该模型仍存在一个限制：在 长视频任务 上表现不佳。原因：1、位置外推能力有限（positional extrapolation）2、上下文长度受限

音视频→文本：在 WorldSense 进行基准测试以及两个视听推理基准进行测试。在 通用理解任务 中，Qwen3-Omni-Instruct 在 WorldSense 基准上实现了当前最佳性能，并以显著优势超越了其他 Omni 模型。该结果表明其在基础多模态信息融合方面具有卓越能力。

X→Speech 评估

评估主要集中在给定文本条件下的语音生成，即与文本到语音（TTS）任务的相似性，评估内容包括以下三个方面：

零样本语音生成：内容一致性（WER，字错误率）和说话人相似性（SIM）方面的表现
多语言语音生成：评估模型在零样本条件下生成多语言语音的内容一致性与说话人相似性。
跨语言语音生成：评估模型在零样本条件下进行跨语言语音生成的内容一致性。

零样本语音生成：

如表 13 所示，Qwen3-Omni 展现了 高度竞争力的性能，凸显了其通过预训练及持续预训练所获得的稳健语音理解与生成能力。此外，通过 强化学习（RL）优化，Qwen3-Omni 在语音生成的稳定性方面也取得了显著提升，并在 test-en 数据集上达到了最佳性能。

多语言语音生成：

Qwen3-Omni 支持跨 10 种语言 的语音生成。我们将其性能与 MiniMax-Speech 和 ElevenLabs Multilingual v2 模型在多语言语音生成任务上进行了对比。

如表 14 所示，Qwen3-Omni 在 中文、英文和法语 等语言上显著超越了其他模型，并在其余语言中取得了具有竞争力的结果。

跨语言语音生成评估：Qwen3-Omni 在 any-to-en（任意语言到英语） 和 any-to-ko（任意语言到韩语） 的语音克隆任务中均优于 CosyVoice3。在 any-to-ja（任意语言到日语） 任务中，即便 未进行文本规范化，Qwen3-Omni 仍能达到与 CosyVoice3 相当的性能，而 CosyVoice3 会将所有日语字符转换为假名（kana）。

跨模态性能不退化评估

由于不同模态的异质性，每种模态都需要不同的预训练目标和优化技术，因此采用标准化的数据整合方法变得不切实际。为了确保公平而严格的评估，我们设计了一个 受控对比实验。具体方法如下：我们预训练了三个参数量匹配的模型：仅文本基线模型（text-only baseline）、仅视觉基线模型（vision-only baseline）以及多模态 “Omni” 模型。为了隔离多模态效应，所有潜在的混淆变量都得到了精确控制。具体而言，Omni 模型使用与单模态基线相同的文本和视觉语料进行训练。此外，我们在所有模型间对关键训练参数进行了对齐，包括学习率策略、批大小以及每种模态的有效训练轮数（通过调整数据采样比例进行归一化）。因此，本实验中唯一的区别在于 Omni 模型在预训练阶段加入了额外的音频和视听数据。

如表 16 所示，我们评估了涵盖多种模态的综合基准，包括：文本模态（通用任务、数学与 STEM 任务、编程任务、多语言任务）、视觉模态（大学水平问题、OCR 相关任务）以及视频模态（视频理解任务）。实验结果表明：

在文本预训练的早期阶段混合单模态与跨模态数据，可以在所有模态上实现更优性能；
联合多模态训练能够促进不同模态之间的相互增强，从而提升单模态的表现；

这充分展示了 Qwen3-Omni 在多样化评估标准下的通用性与稳健性。

根据表 16 及内部实验结果，我们观察到以下规律：

预训练早期的多模态融合允许语言模型与视觉或音频共同训练，而不会导致语言能力下降；
文本模态的加入显著提升了视觉和音频的性能，但从视觉或音频信号中并未观察到语言能力的显著提升；
从经验来看，加入音频数据可以持续提升视觉模态在 MMMU 基准和 OCR 相关任务上的表现。

结论：

Qwen3-Omni 是一个里程碑：据我们所知，它首次提供了证据表明，完全整合的端到端多模态训练可以在不降低核心语言能力和其他模态表现的情况下实现。我们希望与学术社区分享这些成果，并期待能够激发更多相关研究。

未来工作中，我们计划在多个方向进一步推进模型发展，包括多说话人语音识别（multi-speaker ASR）、视频 OCR、视听主动学习，以及增强对基于代理（agent）工作流和函数调用的支持。

Step-Audio-EditX

论文：https://arxiv.org/abs/2511.03601
Demo：https://stepaudiollm.github.io/step-audio-editx/
Github：https://github.com/stepfun-ai/Step-Audio-EditX

Step-Audio-EditX —— 全球首个基于大语言模型（LLM）的开源音频编辑模型，能够在语音的情感、说话风格和副语言特征（如语气、语速、语调等）上实现高度富有表现力且可迭代的编辑，同时具备强大的零样本文本转语音（TTS）能力。

核心创新在于：模型仅依赖大间隔（large-margin）合成数据进行训练，无需使用嵌入先验或辅助模块。这种大间隔学习策略使模型能够在多种音色上实现可迭代控制与高表达力，并从根本上区别于传统聚焦于表示层面解耦的思路。实验结果表明，Step-Audio-EditX 在情感编辑和其他细粒度语音控制任务上均超越了 MiniMax-2.6-hd 和 Doubao-Seed-TTS-2.0。

当前 TTS 的问题：由于合成语音中的情感、风格、口音和音色等属性仍然直接来源于参考音频，限制了对这些属性的独立控制，另外，对于克隆语音通常无法有效地遵循提供的风格或情感指令。

许多以往关于语音解耦的研究依赖以下方法来实现属性分离：对抗式训练、特征工程以及创新的网络结构设计。相比之下，文章提出了一种简单但稳定的数据驱动方法。具体来说，我们设计了一条数据生成流程，用于构建高质量的数据对，这些数据对在保持完全相同语言内容的同时，在情绪、说话风格、口音、副语言特征等一个或多个属性上具有明显可区分的差异。通过在这样的数据对上训练模型，能够实现有效的属性解耦，使模型能够对输入语音的属性进行编辑。此外，通过多次迭代的“编辑”步骤，目标属性的强度可以被逐步增强或减弱。除了情绪、风格和副语言特征编辑之外，该方法可以扩展到其他任务，包括语速调整、语音去噪以及静音片段裁剪等。

主要贡献：

Step-Audio-EditX，这是首个基于大语言模型（LLM）的开源音频模型，擅长富有表现力且可迭代的音频编辑，涵盖情绪、说话风格和副语言特征，并具备强大的 zero-shot TTS 能力。
实验结果表明，仅通过大间距（large-margin）数据的后训练，即可实现对情绪和说话风格的可控调节，无需额外的呈现建模或适配器模块。
使用大间距数据进行后训练不仅能够实现可迭代的控制与高度的表达能力，而且在跨说话人场景下同样有效，这标志着从传统的基于表征层的解耦方法向新的范式转变。

Architecture

Prompt Text：任务提示/prompt音频对应的文本
Target Text：带合成的音频文本

基于 Step-Audio 中的音频编辑合成模型，主要改进包括扩展了情感和语音风格的范围，增加了零样本文本转语音 (TTS) 和副语言编辑功能，并将模型参数从 130B 减少到 3B。

系统由三个主要组件组成：

双码本音频分词器：将参考音频或输入音频转换为离散的 token；
音频大语言模型：生成双码本 token 序列；
音频解码器：使用流匹配（flow matching）方法，将音频 LLM 预测的双码本 token 序列转换回音频波形。

Audio Tokenizer：采用并行语言分词器（16.7 Hz，1024 码本）和语义分词器（25 Hz，4096 码本），交错比例为 2:3。观察到双码本分词器能够保留大量情感、韵律及其他非语言信息，这表明该方法在信息解耦方面仍不够理想，这一不足恰好使其非常适合作为验证LLM 后训练策略及所提出的大间隔数据驱动方法有效性的实验对象。

Audio LLM：为了充分利用预训练文本 LLM 的强大语言处理能力，3B 模型首先使用基于文本的 LLM 进行初始化，然后在文本数据与音频双码本token以 1:1 比例混合的数据集上进行训练。音频 LLM 以聊天格式处理文本token及其对应的双码本音频token，最终生成双码本token作为唯一输出。

Audio Decoder：音频解码器由 Flow Matching 模块和 BigVGANv2声码器组成。Flow Matching 模块在输出音频令牌、参考音频以及说话人嵌入（speaker embedding）作为条件下生成 Mel 频谱图，而 BigVGANv2 声码器则进一步将 Mel 频谱图转换为音频波形。对于 Flow Matching 模块，采用扩散变换器（DiT）作为骨干网络，并在 20 万小时高质量语音上训练该模型。

Data

SFT 数据：零样本 TTS、情感编辑、说话风格编辑以及副语言编辑。

零样本文本转语音：中文和英文以及少量粤语四川话的内部数据，总计约 60,000 个独立说话人
情感与说话风格编辑：高质量数据难以收集，提出简单高效的大边距合成数据方法。

该方法在同一说话人之间进行零样本语音克隆，覆盖不同的情感和说话风格，同时确保对比样本对之间具有足够大的差距。仅需 每种情感或风格的一个提示音频片段，避免了昂贵的数据收集成本。此外，该方法巧妙地将复杂的情感与风格描述 转换为基于比较的样本对构建格式。具体方法如下：

声优录音：声优录制表达丰富的情感和说话风格。对于每位声优，每种情感和风格组合录制约 10 秒 的音频片段。
零样本克隆：对于每种情感和说话风格，构建三元组 ⟨文本提示, 中性音频, 情感/风格音频⟩。通过选择同一说话人的对应中性与情感/风格音频作为提示音频，并使用 StepTTS 语音克隆接口 处理，文本指令描述目标属性。
边距评分（Margin Scoring）：为评估生成的三元组，我们使用一个小型人工标注数据集训练评分模型。该模型对音频对进行 1-10 分评分，边距分数越高表示效果越理想。
边距选择（Margin Selection）：根据边距评分阈值筛选样本。该阈值会根据不同情感和风格进行调整，通用下限设为 6 分。

3. 副语言编辑（Paralinguistic Editing）

副语言如呼吸、笑声以及填充停顿（例如“嗯”），对于提升合成语音的自然度和表现力至关重要。通过使用 “半合成”策略 实现了副语言编辑能力，该策略利用 NVSpeech 数据集——一个表现力丰富的语音语料库，其对多种副语言类型进行了详细标注，从而使得构建用于模型训练的比较四元组成为可能。

四元组 ⟨text_without_tags, audio_without_tags, text_nv_source, audio_nv_source⟩ 的构建方式不同于三元组：它使用 NVSpeech 的 原始音频和转录文本 作为目标输出，而将通过 StepTTS 语音克隆生成的音频作为输入，该音频是基于去除副语言标注后的原始转录文本合成的。

由于副语言编辑是 在时间域上进行的编辑任务，且存在显著的内在边距差异，因此 数据选择不需要边距评分模型。只需一小部分四元组数据，即可有效激发模型的副语言编辑能力。

强化学习数据:基于人工标注，以及使用 LLM-as-a-Judge（大型语言模型作为评判） 方法

人工标注：收集用户提供的真实世界的 提示音频 及对应文本提示，然后使用 SFT 模型生成 20 个候选响应。接着，通过人工标注员根据 正确性、韵律和自然度 对每个响应进行 5 分制评分，构建 选择/拒绝对。仅保留评分边距大于 3 的样本对。

LLM-as-a-Judge：使用理解能力模型对模型响应的 情感和说话风格编辑 进行 1-10 分评分，再根据评分生成偏好对，并仅在最终数据集中保留 评分边距大于 8 分 的样本对。

经过筛选的大边距样本对将用于训练 奖励模型 和 PPO

训练

两阶段：SFT，然后进行 PPO

SFT 阶段通过在 聊天格式下使用不同系统提示来增强模型的零样本文本转语音合成与编辑能力。

在零样本 TTS 任务中，提示音频被编码为 双码本tokens，随后将其解码为字符串形式，并嵌入到系统提示的说话人信息中。待合成文本作为 用户提示，生成的双码本 tokens 则作为系统响应返回。
对于编辑任务，所有操作在统一的系统提示下定义。用户提示包含 原始音频 及编辑操作的描述性指令，系统响应则返回 编辑后的音频 tokens。

模型在 SFT 阶段训练 1 个 epoch，学习率范围从 1 × 10⁻⁵ 到 1 × 10⁻⁶。

强化学习用于提升模型在 零样本 TTS 的稳定性，以及在执行编辑指令时的能力和表现力。当 源提示音频与目标编辑输出在情感或风格上存在显著差异 时，这种提升尤为明显，例如将快乐语音生成悲伤语音，或将高音量语音转换为耳语。

该强化学习方法提供了一种新的思路：不再单纯追求理想的语音表示解耦，而是同时优化大边距样本对的构建与奖励模型的评估效果。

奖励模型从 3B SFT 模型 初始化，并使用 人工标注数据与 LLM-as-a-judge 生成的大边距数据 进行训练，优化方法采用 Bradley-Terry 损失。

模型为 token 级奖励模型，直接在大边距双码本 token 对上训练，无需在奖励计算过程中通过音频解码器将 token 转回波形。
模型训练 1 个 epoch，学习率采用 余弦衰减策略（cosine decay），初始值为 2 × 10⁻⁵，下限为 1 × 10⁻⁵。

PPO 训练：获得奖励模型后，使用 PPO 算法 进行进一步训练。训练使用与奖励模型训练相同的提示种子，但只选择 对 SFT 模型最具挑战性的提示。

在 PPO 阶段，critic 先预热 80 步，随后再训练执行者（actor）。
优化器初始学习率为 1 × 10⁻⁶，遵循余弦衰减策略，下限为 2 × 10⁻⁷。
使用 PPO 剪切阈值 ϵ = 0.2，并施加 KL 散度惩罚系数 β = 0.05。

Evaluation

情感与说话风格编辑结果: 如表 1 所示，在 Iter0 音频进行首次编辑后，情感和说话风格的准确率都有显著提升。此外，经过连续迭代编辑后，情感和说话风格的准确率进一步增强。

闭源模型上的泛化能力:Step-Audio-EditX 首次编辑 后，所有声音模型的情感和风格准确率均显著提升。经过接下来的两轮迭代，准确率进一步增强，从而有力证明了本模型的 强泛化能力。

闭源模型上的情感控制,Step-Audio-EditX 在零样本克隆能力下展现出 更高的情感准确率，优于其他两款模型。仅经过 一次编辑迭代，所有音频样本的情感准确率均显著提升。将一次情感编辑迭代应用于零样本克隆音频，其效果 超过了闭源模型原生情感控制功能生成的结果。

副语言编辑: 如表 4 所示，在仅进行一次编辑迭代后，通过加入副语言标签（paralinguistic tags），模型在副语言元素的重建与插入方面取得了显著性能提升。实验结果表明：经过一次 Step-Audio-EditX 的副语言编辑后，生成的副语言效果已经可与闭源模型使用原生副语言标签直接合成的结果相媲美，展现出强大的泛化能力与编辑一致性。

扩展能力：

语速编辑：构造了三元组⟨text, audiosource, audiofaster/slower⟩，其中针对同一说话人，通过 SoX 工具包 的受控速度扰动生成快/慢版本音频。由于语速变化会显著改变 token 序列长度，仅使用 SFT 即可实现有效的语速编辑。

去噪与静音剪裁：基于生成式的方法，实现提示音频和合成音频的定向编辑，包括去噪和静音剪裁。

去噪（Denoising）构造三元组：⟨text, audioaugment, audiosource⟩其中 audiosource 为干净音频（ground truth），audioaugment 通过添加噪声与混响模拟生成。

静音剪裁（Silence Trimming）构造三元组：⟨text, audiosource, audiotrimming⟩audiosource 含有静音片段，audiotrimming 则通过 Silero-VAD 提取语音区间后拼接生成。

ASR专有名词纠错后处理：SS+GL方法

论文题目：《Generative Annotation for ASR Named Entity Correction》
论文地址：https://arxiv.org/pdf/2508.20700
资源地址：https://github.com/L6-NLP/Generative-Annotation-NEC

核心：基于音频特征+实体词库，使用神经网络检索可能最的实体词，然后通过LLM进行纠错

华为这篇论文的核心目标——解决ASR（自动语音识别）里“专有名词老认错”的问题。比如像“ChatGPT”“长江白鲟”这种领域特定的命名实体，ASR（比如Whisper）在通用场景里挺准，但遇到这些词常转错，后续用这些转录文本做任务就全乱了。

命名实体纠错 (NEC) 方法是指用于纠正ASR转录文本中的命名实体错误，现在主流的命名实体纠错 (NEC)方法分两类：

(1) 在转录文本生成过程中同时纠正错误；一般需要训练额外的模块，使 ASR 模型具备上下文偏置能力，或者利用上下文信息来纠正 ASR 模型中的命名实体错误。这些方法需要对ASR系统进行修改，使其具备纠错能力，因此这些方法很难应用于第三方 ASR 系统。

(2) 在转录文本生成后纠正错误，即后编辑错误。不需要对 ASR 系统进行任何修改，因此后编辑 NEC 方法更具适用性。其中最常见的是PED-NEC（基于语音编辑距离的方法），当 ASR 转录文本中实体和相关错误文本的词形相似时，我们可以通过遍历实体数据存储轻松定位错误，但PED-NEC有个大毛病——如果错的文本和真实实体“长得太不一样”，就彻底歇菜。比如：

“大语言模型”被ASR转成“大原模型”，俩词字面差挺多；
“Midjourney”转成“米德仲尼”（英文变中文音译）；
“灵耀X”转成“01X”（汉字变数字）；
“ChatGPT”转成“Check GPT”（拼写差一截）。

这时候PED-NEC没法定位错词，自然就纠正不了，这就是论文要解决的核心问题。

为了解决上述问题，创新性地提出了一种基于生成式方法的 NEC（命名实体校正） 方法，用于在转录文本中自动标注待纠正片段。具体来说，利用语音声学特征、候选命名实体以及 ASR 转录结果，生成（标注）出转录文本中需要被纠正的词语，并据此进行修正。该基于错误标注的 NEC 方法能够在识别出待纠正文本后，实现端到端的文本纠错，无需考虑词形变化，因此相比以往基于规则的替换方法具有更高的优越性。

Method：核心是两步：SS（语音特征检索候选实体）+ GL（生成式标注错误文本）。简单说，不依赖文本长得像不像，而是基于语音相似性进行实体检索，再让模型“智能标出”错词，最后替换——完美解决“长得不一样”的问题。

纠错流程如图2所示。首先预先构建一个数据存储库（datastore），用于保存实体的音频-文本对。在获得语音片段和 ASR 转录结果后，执行语音检索【SAN（自注意力网络）和FFN（前馈网络）】，以判断该语音片段的某一部分是否与数据存储库中某个候选实体的语音特征相似。

如果存在相似的候选实体，就将该候选实体与 ASR 转录文本拼接在一起，作为提示（prompt）输入纠错模型，以引导模型生成 ASR 转录中可能错误的词语（即与正确实体对应的错误文本）。最后，将检测出的错误文本替换为数据存储库中的正确实体。

Datastore Creation：收集实体列表 X={x1,x2,…xn} ，以及基于TTS合成对应的的语音：

将 TTS 生成的音频输入到编码器，并将编码器最后一层的输出作为实体 x_i 的语音表示。为了提高检索准确率并降低内存占用，我们在编码器的末尾添加了一个CNN层

数据存储存储键值（表示实体）对：

Entity Retrieval：用户的输入音频片段 s 输入到编码器中，并从编码器最后一层的输出中得到它的表示 s’：

引入自注意力网络（SAN）和前馈网络（FFN）来计算数据存储区 s 包含候选实体 xi′ 的概率 pi ：

最后应用平均池化，获取最终的分类：

判断数据存储中是否存在语音片段中的实体。如果概率 pi 高于我们设定的阈值，则选择前 K 个候选实体进行进一步校正。

Error Correction：通过上述实体检索方法获得若干候选实体，用符号“|||”连接实体，然后用引号将实体字符串与 ASR 转录文本连接起来。实体+转录文本字符串用作提示，引导纠错模型在转录文本中生成与候选实体具有相似语音特征的错误实体。该过程实际上是一种生成式标注方法，因为纠错模型会在原始 ASR 转录文本中输出一个或多个单词。

方法还具备实体拒绝功能。如果模型无法将候选实体与转录文本中可能存在的错误实体匹配，则会生成符号<empty> 表示没有返回结果。

emptry表示改候选词不采用，Error 表示错误的文本，用该位置的原本实体词替换

模型旨在找到语音相似且符合语言模型的待更正文本，最后一步是用数据存储中的真实实体替换错误文本。

Experimental ：

1. 数据准备：训练+测试集都很实在训练数据：用了Aishell数据集里的54129个中文实体，正负样本1:10（正样本是含实体的音频文本对，负样本是不含的）；还特意让20%的Prompt里加了“无关实体”（比如该纠正“ChatGPT”，却加了“Midjourney”当候选），练模型生成“”的能力，避免过纠正。测试集：搞了两个，一个是开源的，一个是自己建的：

Aishell测试集：从Aishell的开发集和测试集里挑了3101个去重实体，测通用场景；
BuzzWord测试集：自己建的“难点集”，1500段2023-2024年的语音——500段是“正例”（含新词、外来词、数字实体，比如“ChatGLM-6B”“苍兰诀”“Matebook D16”），1000段是“负例”（不含实体），还特意平衡了男女说话人，模拟真实场景。

评估指标：看四个关键数据，别嫌麻烦，这些数能直接看出效果：

CER：整体字符错误率（越低越好）；
NNE-CER：非实体部分的错误率（越低越好，要是这数高了，说明把不该改的改了，过纠正）；
NE-CER：实体部分的错误率（越低越好）；
NE-Recall：实体召回率（越高越好，意思是“能把多少实体从错的里捞对”）。

对比的基线方法：跟四种方法比，确保新方法真的好：

原始Whisper（没纠正的ASR结果）；
PED-NEC（传统的基于编辑距离的方法）；
PED+GL（用PED找候选，用新的GL纠正）；
SS+NEC（用新的SS找候选，用传统PED纠正）。

原始Whisper最差，实体召回率才70.85%；
PED-NEC比Whisper好，但有个问题：NNE-CER从10.00升到10.42，说明它有点“瞎改”，把非实体的内容也改坏了（过纠正）；
而SS+GL呢？所有指标都最优：整体CER最低（9.85），实体错误率最低（7.41），实体召回率最高（87.31，比PED-NEC高4个百分点），而且NNE-CER几乎和Whisper一样（10.01），没怎么过纠正——这就很牛了！

论文还特意从Aishell里挑了50个“错词和实体长得特别不一样”的案例做了个“词形差异集”，SS+GL在这上面表现更突出，把PED-NEC甩得更远。

BuzzWord难点集这是最能体现新方法优势的地方，因为这里面全是ASR最容易认错的新词、外来词，数据更惊艳：

原始Whisper在这直接“崩了”，实体召回率才12.22%——10个实体里才对1个多，可见这些新词多难认；
PED-NEC虽然比Whisper好，但召回率也才61.82%，实体错误率还有23.62%；
再看SS+GL：实体召回率直接冲到87.47%，比PED-NEC高了26个百分点！实体错误率也降到7.26%，而且NNE-CER还是15.29，没瞎改非实体内容——这就证明，对付“长得不一样”的新词、外来词，SS+GL是真的行。

关键图表分析：证明方法为啥有效：

这图看的是模型的注意力分布，能看到：

模型标注的错误文本（比如“米德仲尼”）、候选实体（比如“Midjourney”），还有对应的语音片段，这三者之间的注意力值特别高；
这就说明模型真的把“错词-候选实体-语音”三者关联起来了，不是瞎标错词，标注是有依据的。

这图横坐标是检索时的概率阈值（比如0.1、0.2…0.9），纵坐标一边是检索的F1值（越高说明检索越准），一边是纠正的CER（越低说明纠正越好）。

有意思的是：不是检索F1越高，纠正效果越好；反而当阈值低一点（比如0.3左右），检索召回率高、精度低的时候，纠正的CER最低；
原因很简单：SS+GL的GL模块能“容错”——就算检索多找了几个不太准的候选，GL也能通过生成“”排除掉，不用怕候选里有“杂质”。

实体拒绝案例——证明“不瞎改”：

这个案例特别典型：候选实体是“韩宇”（人名），ASR转录本里有两个发音一样的词——“韩雨”（另一个人名，需要改）和“韩语”（语言，不用改）。

PED-NEC：因为发音一样，把俩都改成“韩宇”了，造成过纠正；
SS+GL：只把“韩雨”改成“韩宇”，“韩语”不动——因为GL模块能结合语境判断，知道“韩语”不是人名，不用改，避免了瞎改的问题。

除了纠正效果好，SS+GL还有三个大优势：

联合标注有效：图4已经证明了，模型能精准关联“语音-候选实体-错词”，不会标错对象；
实体拒绝能力强：检索时能滤掉低相似度的候选，GL还能生成“”跳过不用改的，所以检索时可以放宽阈值，多找候选也不怕，反而能提高召回率；
自带CED功能：CED是“错误实体检测”，传统PED-NEC得单独加个CED模块才能找错词，而SS+GL的GL模块在生成错词的过程中，就已经完成了“检测错词”的步骤，不用额外加模块，更简洁。

基于生成式的纠错方法只对“待纠正文本”进行标注，从而使得时间消耗极小，但当数据存储库（datastore）中包含大量实体时，实体检索部分可能会变得非常耗时。

在这种情况下：

一方面，我们可以用 PED（即前文提到的 PED+GL 方法） 替代检索步骤，以降低整体延迟；
另一方面，未来我们计划将当前的检索方法改进为向量检索（vector search），借助现有成熟的向量搜索引擎，大幅提升检索速度。

Phoenix-VAD

论文：https://arxiv.org/pdf/2509.20410

口语对话模型在智能人机交互方面取得了显著进展，但仍缺乏一种可即插即用的全双工语义端点检测模块，从而限制了音频交互的无缝体验。本文提出了一种基于大语言模型（LLM）的流式语义端点检测模型——Phoenix-VAD。Phoenix-VAD 利用大语言模型的语义理解能力，并结合滑动窗口训练策略，实现了在流式推理场景下的可靠语义端点检测。实验证明，在语义完整与语义不完整的语音场景中，Phoenix-VAD 均取得了优异且具竞争力的性能。

现有方法在这一方面存在明显局限。传统的VAD仅依赖声学特征判断“是否存在人声”，无法理解语义层面的意图，因而难以实现自然的语义对齐。语义VAD虽在一定程度上引入了语义判断，但通常依赖外部自动语音识别（ASR）模块，导致系统延迟增加，并可能损失语音中的细粒度语义信息。至于如 RTTL-DG、Moshi 等端到端方案，虽具备一定的语义理解能力，但模型高度耦合，难以在不同对话系统中直接复用，每次更换对话模型都需重新训练或微调，部署成本较高。

Phoenix-VAD ——一种基于大语言模型的语义端点检测框架，旨在实现模块化、低延迟、可流式推理的全双工语音交互。

Phoenix-VAD 基于用户语音的语义完整性进行端点检测，并使用不同的超时阈值来判断终止条件。当用户查询语义不完整时，模型会应用更长的超时阈值，以避免过早终止响应。

音频编码器：用的是150M参数的Zipformer，之前还在10万多组内部ASR数据上训练过，能把原始语音波形转换成25Hz的“帧级特征”——简单说就是先把语音里的关键信息抽出来，方便后续处理。

适配器：就是两个线性层加个ReLU激活函数，专门解决“音频特征和文本特征对不上”的问题。它先把编码器输出的音频特征，按几帧拼一块做下采样，再转成LLM能“看懂”的文本embedding，最后输出适配好的特征。

LLM：用的是Qwen2.5-0.5B-Instruct，给它喂两样东西：一是适配器处理好的音频特征，二是文本提示（比如告诉它“你是个VAD，要判断用户是不是还在说”），最后让它输出两个结果：要么是“Continue Speaking”（用户还在说），要么是“Stop Speaking”（用户说完了）。

Sliding Window:

滑动窗口策略仅使用每个窗口内的音频进行预测，从而降低了对整个输入序列的依赖。与处理整个序列相比，它能够进行增量式的分块预测，在延迟方面具有潜在优势。同时，该模型可以利用每个窗口内的信息，为语义推理提供足够的局部上下文，并支持流式推理。

针对100Hz的语音特征序列，窗口设成256帧（对应2560ms），每次往前挪32帧（320ms）；训练的时候，只盯着每个窗口“最后一个chunk”做监督——不用等整段语音，就能一块一块增量预测，既保留了局部的语义上下文，又能减少延迟，刚好满足实时交互的需求。

在训练过程中，音频编码器被冻结，仅训练适配器和 LLM。LLM 骨干网络使用 LoRa 进行微调，以增强其多模态推理能力。训练目标使用标准交叉熵损失进行优化

Data:

造文本：结合内部的文本资源和ChatGPT API，生成两种文本：一种是“语义完整”的（比如“帮我查一下最新的订单信息”），一种是“语义不完整”的（比如“帮我查<停顿>最新的订单信息”）；

合成音频：用Index-TTS工具把文本合成语音，为了模拟不同人的声音，还从库里随机选了1007个英语、1010个中文说话人的声音模板；另外还故意插点静音段，还原真实聊天里的“犹豫、中断”场景；

标标签：用Paraformer工具给每个字标上时间戳，再根据“用户停止说话”的时间点，标两种训练标签：“Continue”（还在说）和“Stop”（说完了）。还特别设置了不同的超时阈值：语义完整的话，等400毫秒就判断“说完了”；不完整的话，等1000毫秒，避免提前打断用户。

Experiments:

用40万条音频（总共570小时）训练，然后拿2000条“语义完整”+2000条“语义不完整”的音频做测试：

语义不完整的场景里，准确率98.5%，“说完了”的F1分数0.918，“还在说”的F1分数0.992

语义完整的场景更稳，准确率98.6%，“说完了”F1 0.905，“还在说”F1 0.993

简单说就是，判断“用户还在说”几乎不会错，判断“说完了”也很靠谱。

对比其他开源VAD：

消融实验：

如果把滑动窗口的步长从320毫秒缩到160毫秒（更细的粒度），性能会下降——因为太细的粒度会让判断更犹豫，还会放大时间戳标注的误差；如果适配器只在ASR数据上训练，也不如“联合训练”效果好，因为ASR数据只关注“语音转文字对不对”，缺了“判断说话边界”需要的时间线索。

Phoenix-VAD最核心的价值就是：靠LLM的语义理解能力，加上滑动窗口的实时 trick，弄出了一个“靠谱、实时、能随便用”的语义端点检测模块，刚好补上了全双工语音交互的短板。以后优化方向：一是让模型能过滤“没用的声音”（比如背景噪音、无意义的嘟囔）；二是用真实场景的录音再训练，让它在实际聊天里更好用；最后打算把它装到端到端的对话系统里，让整个交互更顺畅。

Datapipline Overview

数据集分布

实验

语音理解

语音生成

总体框架：检索 + 强化学习，两阶段协同

增强版 GLCLAP 热词检索

LLM-ASR

基于强化学习引导判别的上下文 ASR

数据集和效果

Context-Biasing Training Datasets

GLCLAP微调数据

热词词表（Hotword Vocabulary）

评测设置（Evaluation）

结果

工程与落地视角的一些启发

Introduction

Methodology

Speech Tokenization and Detokenization

Dual-Resolution Speech Representations (DRSR)

Multimodal Large Language Model (MLLM)

Post-Training

预对齐阶段

Core-Cocktail 训练阶段

多任务 DPO 训练

全双工交互训练

Experiments

评估任务和指标：

结果

限制

Introduction

Methodology

基线音频 LLM：

LAL：轻量级音频-LLM 集成方法：

PAL：一种面向编码器的、在 LAL 基础上扩展语音理解能力的架构

实验

LAL：实验设置

PAL：实验设置

总结：

PS：数据集说明：

Introduction

模型架构

多阶段训练策略

数据构成

Experiments

实现细节

评估指标

实验结果

Performance without Speaker Registration

Performance with Speaker Registration

Impact of Embedding Extractors

Training Pseudo-code

无注册/匹配注册/过度注册任务配置：

Prompts for LLMs

Introduction

Architecture

Audio Transformer (AuT)

Perceivation (感知)

Speech Generation

流式与并发设计

Pretraining

后训练

Thinker

Talker

Captioner

Evaluation

X→Text 评估

X→Speech 评估

跨模态性能不退化评估

结论：

相关知识补充：

Architecture

Data

训练

Evaluation