Fun-Audio-Chat：端到端语音交互模型

Fun-Audio-Chat 是为自然、低延迟语音交互构建的大型音频语言模型。它引入了双分辨率语音表示（一个高效的 5Hz 共享主干 + 一个 25Hz 的精炼头）以在降低计算的同时保持高语音质量，并采用 Core-Cocktail 训练以保留强大的文本 LLM 能力。它在语音问答、音频理解、语音函数调用以及语音指令遵循和情感共鸣基准上都取得了顶级成果。

训练/推理代码：https://github.com/FunAudioLLM/Fun-Audio-Chat
https://funaudiollm.github.io/funaudiochat/
https://arxiv.org/pdf/2512.20156

现有模型面临的挑战：语音 Token（通常约 25Hz）与文本 Token（约 3Hz）在时间分辨率上的不匹配会削弱语义信息，同时带来高计算成本、限制实际部署，并在多模态训练过程中导致文本 LLM 知识的灾难性遗忘。

Fun-Audio-Chat采用 双分辨率语音表征（Dual-Resolution Speech Representations, DRSR） 架构：共享的 LLM 主干以高效的 5Hz 帧率 处理音频（通过语音 Token 分组实现），而 Speech Refined Head（SRH） 则以 25Hz 分辨率 生成高质量语音 Token。该双分辨率设计在计算效率与语音生成质量之间实现了有效平衡，使 GPU 训练时长降低近 50%。

不同于某些语音模型的大规模音频-文本预训练与后训练方法，Fun-Audio-Chat基于预训练模型，全量监督微调阶段采用 Core-Cocktail Training 策略缓解灾难性遗忘问题，后训练使用多任务 DPO 训练以增强模型在鲁棒性、音频理解、指令遵循及情感化语音共情能力方面的表现。Fun-Audio-Chat 在有效保留原始文本 LLM 知识的同时，获得了强大的音频理解、推理与生成能力。

模型在语音转文本与语音-语音生成任务上取得了具有竞争力的性能，并在多项口语问答基准测试中位列同规模模型的领先水平。同时，其在音频理解、语音函数调用、语音指令遵循以及语音共情等任务上亦展现出媲美甚至优于同类模型的表现。构建了 Fun-Audio-Chat-Duplex，一种全双工变体，在口语问答基准与全双工交互场景中均取得了优异性能。

Introduction

现有语音大模型面临以下挑战：

语音token与文本token速率不匹配，跨模态对齐时多个语音帧映射到单个文本 token 的语义空间，会影响语义信息且LLM 难以复用其原生 token-level 推理能力；
多模态的预训练与后训练，会导致其原有知识发生灾难性遗忘；
频帧率通常较高（如 12.5Hz 或 25Hz），整体计算成本偏高，限制了模型在实际场景部署。

针对以上问题，提出 Fun-Audio-Chat：

大规模后训练与模型扩展能力。基于DrVoice的两项关键创新——双分辨率语音表征（DRSR）架构 与 Core-Cocktail 训练策略——基础上，进一步扩展到显著更大的数据与模型规模，包括覆盖 数百万小时的多样化音频数据，以及 dense 8B 参数模型与 MoE 30B-A3B 参数模型。DRSR 依托于 主干 LLM 的高效 5Hz 处理 与 25Hz 生成头，即使在更大规模训练中，仍能保持高计算效率（训练 GPU 时长约 降低 50%）；同时，Core-Cocktail 训练策略 通过 两阶段训练、分阶段学习率及中间模型合并机制，在 8B 与 30B-A3B 模型 中均有效缓解了灾难性遗忘问题。
多任务 DPO 训练以提升鲁棒性与泛化能力。DPO 训练增强 Fun-Audio-Chat 的能力，包括：对真实语音数据的鲁棒性、指令遵循能力、音频理解能力以及语音共情能力。通过多任务 DPO 训练，Fun-Audio-Chat 获得了超越基础语音-文本交互的高级能力，包括 语音函数调用、语音指令遵循，以及语音共情（识别并推理用户情绪状态并生成具有共情特质的响应），使模型能够以适当的情感智能与功能执行能力，理解并应对复杂语音交互场景。
全双工语音交互能力。Fun-Audio-Chat-Duplex，一种支持双向同时语音通信的全双工变体。该模型在口语问答基准任务上表现出具有竞争力的性能，同时在全双工交互指标上亦取得优异结果，展现出在自然对话与轮流发言（turn-taking）方面的强大能力。

Methodology

ps： DrVoice：https://arxiv.org/pdf/2506.09349

语音输入经过 **MLLM（多模态大语言模型）** 的 **Tokenization**、**分组处理** 和编码，分别用于两种自回归预测任务：**Text Head**：预测文本 token，**Speech Refined Head（SRH）**：预测语音 token。生成的语音 token 随后通过 **speech detokenizer** 转换为语音波形。需要注意的是：SRH 通过 **5 次自回归前向传播** 生成 **5 个语音 token**，其中 5 为分组因子。

上图展示了 Fun-Audio-Chat 及其全双工变体 Fun-Audio-Chat-Duplex 的架构。

Fun-Audio-Chat 的框架主要由三个模块组成：

语音输入处理模块：通过 Speech Encoder 与 Speech Tokenizer 将原始音频波形转换为结构化表示，分别用于用户端（User）和助手端（Assistant）。
多模态大语言模型：整合 共享 LLM 主干 与专门的 Text Head 和 Speech Refined Head（SRH），用于生成文本 token 与语音 token。
Speech Detokenizer：将生成的语音 token 重建为音频波形。

该架构实现了统一的音频-文本编码和同步的语音-文本生成。在推理阶段，无论输入为文本还是语音，均会被转换到一个统一的语义表示空间，由 MLLM 处理，从而通过 SRH 和 Text Head 同时生成语音和文本输出。

Speech Tokenization and Detokenization

Fun-Audio-Chat 采用 Whisper-Large-v3作为 语音编码器，从用户语音输入中提取连续表征。随后， Adapter 模块 对这些特征进行时间分辨率降采样，并将其维度匹配到 LLM 的隐藏空间。

鉴于语义 token 在语音表征中的有效性其，尤是其与文本内容的高度对应性，采用 S3Tokenizer 作为 语音分词器，将音频波形转换为离散的语义 token 序列。S=[s0,s1,…,sT−1]其中 T 表示序列长度，用于助手端（Assistant）的输出。

S3Tokenizer 最初是在 CosyVoice [论文] [代码库] 中引入的，它是一个基于预训练的 SenseVoice-Large 模型的监督语义语音分词器，它增强了提取的词元与文本和副语言信息的语义关系，对数据噪声具有鲁棒性，并减少了对干净数据收集的依赖，从而使模型训练可以使用**更广泛的数据来源**。

在逆向过程中，Speech Detokenizer [CosyVoice3的模型解码合成音频]利用 speaker-specific embeddings 编码音色等声学特征。随后，Flow Matching 模型 将这些 token 转换为 Mel 频谱表示，再通过 HiFi-GAN 声码器 将 Mel 频谱重建为音频波形。

Dual-Resolution Speech Representations (DRSR)

为了在支持跨模态能力的同时 保持预训练文本 LLM 的文本能力，Fun-Audio-Chat 采用了先前工作 DrVoice中提出的 双分辨率语音表征（Dual-Resolution Speech Representations，DRSR） 架构。该架构有效解决了 语音 token（通常约 25Hz）与文本 token（约 3Hz）之间的时间分辨率不匹配问题，同时提升计算效率，并实现高质量语音生成。

语音 Token 分组。为弥合时间分辨率差异，采用 DrVoice中的分组技术，将 25Hz 的语音 token 转换为 5Hz 的表示，并输入至 共享 LLM 主干。该分组变换可表示为：

其中 𝐬_j表示单个语音 Token ，Concat 表示串联，k=5 是基于语音 Token 频率 (25Hz) 与所需 LLM 处理频率 (5Hz) 之比的分组因子。这种机制将序列长度从T减少到T/k，允许共享LLM以5Hz帧速率运行，这大大减少了计算开销（训练GPU时间减少了大约50%），同时保留了LLM的语义推理能力。

Speech Refined Head (SRH).分组机制提升了计算效率，但其同时会丢失对自然语音合成至关重要的细粒度声学信息。为弥补这一不足，Fun-Audio-Chat 引入了一个专用的 SRH，用于在 完整的 25Hz 分辨率下生成语音 token。SRH 执行一种反分组（ungrouping）操作，来自 共享 LLM 的最终隐藏状态h_L^[SLLM]首先通过线性投影被转换为与分组大小一致的嵌入表示：

接下来分解为 k 段：

生成的 𝐇 为 SRH 提供条件上下文，SRH 以 25Hz 自回归方式生成语音标记。训练目标优化语音标记预测：

其中 si 表示第 i 个语音标记。这种双分辨率框架允许 Fun-Audio-Chat 遵循 DrVoice 中建立的设计原则，同时实现计算效率（共享 LLM 层中的 5Hz 处理）和高保真语音合成（通过 SRH 生成 25Hz）。

Multimodal Large Language Model (MLLM)

MLLM 架构在预训练文本 LLM 的基础上进行扩展，使其具备统一的音频-文本处理能力，从而能够接收语音或文本任一模态输入，并同时生成语音与文本输出。Fun-Audio-Chat 属于并行式联合语音-文本模型。借鉴 Moshi 的做法，我们在模型中引入 显式文本流，用于为语音生成提供语义引导。模型设计仅在 助手侧进行模态对齐，这反映了人机对话中的固有非对称性：用户通常只提供单一模态输入（文本或语音），而助手则能够输出协调一致的多模态响应（即联合语音-文本输出或仅文本输出）。

模型利用 LLM 的自回归特性，在每一步迭代地将语音 token s_t 与文本 token t_t 一并输入至 共享 LLM 层。两类 token 的嵌入向量通过逐元素相加（addition）进行融合，形成统一的输入表示。第 t步的复合嵌入：

其中，E_speech与E_text 分别表示语音与文本 token 的嵌入函数。为解决语音序列与文本序列在长度上的不匹配问题，我们对较短的序列进行填充，并在每个话语中使用特殊静音标记 <|SIL|>作为填充值。

模型的生成过程遵循自回归范式：

其中，x 表示输入，y_t=(s_t,t_t) 表示在时间步 t 的联合语音–文本输出。该建模方式在同一自回归过程中统一了语音与文本的联合生成。

Post-Training

Fun-Audio-Chat 基于已有的预训练模型构建，并采用多阶段后训练流程进行训练，利用覆盖多领域、多任务的数百万小时语音数据，其中包括对话语音与多语言语音，以及面向语音理解任务的音频数据，从而保证对多种应用场景与使用需求的全面覆盖。自建数据则包括文本、ASR、TTS、音频理解、语音指令跟随以及语音共情数据。

整个多阶段训练流程包括以下三个阶段：
(1) Pre-alignment：利用大规模语音-文本配对数据，对 Speech Encoder、Adapter 与 Speech Refined Head 进行对齐训练；
(2) Core-Cocktail 训练阶段：用于监督式全参数微调，采用由 CosyVoice 3基于数十亿文本 token 合成的高质量语音数据，并通过合成语音的词错误率（WER）阈值筛选得到；
(3) 多任务 DPO 训练阶段：引入多样化真实语音数据以提升鲁棒性，引入音频理解与 ASR 数据以增强理解与感知能力，同时使用指令跟随数据（包含情感、风格与韵律控制）以提升语音指令跟随能力，并结合语音共情数据以强化情感理解与共情式响应生成能力。

预对齐阶段

Speech Encoder 采用 Whisper-Large-v3的权重进行初始化，从而提供稳健的语音理解能力。Shared LLM Layer 使用 Qwen3-30B-A3B进行初始化，或可替代性地采用视觉-语言基础模型 Qwen3-VL-8B，以充分利用预训练文本 LLM 强大的语义理解能力。此外，来自 CosyVoice 3的预训练 Speech Tokenizer 与 Speech Detokenizer 被直接引入，并在 Fun-Audio-Chat 的整个训练过程中保持冻结。

预对齐训练：使用大规模语音-文本配对数据，对 Speech Encoder、Adapter 与 Speech Refined Head 进行联合对齐学习。在该阶段中，Shared LLM Layer 被保持冻结，以确保其预训练能力不受破坏。

Core-Cocktail 训练阶段

实验观察到，多模态模型训练过程中存在一个基础性的学习率折衷问题：学习率过高将导致 MLLM 性能退化，并加剧基础文本 LLM 知识的灾难性遗忘；而学习率过低则会导致收敛缓慢，甚至训练停滞。为解决这一优化难题并避免知识流失，采用了此前在 DrVoice中提出的 Core-Cocktail Training 方法论，其核心是一种 两阶段训练策略。

阶段一：高学习率微调。 在该初始阶段，我们对全部 MLLM 参数、Audio Encoder 与 Adapter 进行全量微调，并采用较高的学习率。对于 Fun-Audio-Chat，在阶段一中学习率按照余弦退火策略从 1×10⁻⁴逐步衰减至 1×10⁻⁵。该阶段的目标是使模型参数能够快速迁移至更有利于多模态学习的损失曲面区域，从而实现快速任务适配。

中间模型合并。 为缓解阶段一高强度训练可能带来的 MLLM 性能退化问题，引入中间模型合并操作。将阶段一训练后的 MLLM 参数 M₁ 与原始预训练 LLM 参数 M₀ 进行加权插值，得到合并模型： M_r←αM₁+(1−α)M₀

其中 α用于控制插值平衡。该合并过程重新引入基础 LLM 的核心知识，从而保护其原有的文本理解能力。较小的 α值将更有利于保留基础 LLM 的知识。在我们的实现中，α=0.5。

阶段二：低学习率精调。 在阶段二中，我们对合并后的模型 M_r 以更低的学习率进行全量微调。对于 Fun-Audio-Chat，学习率同样按余弦退火策略从 1×10−5 衰减至 1×10−6。该阶段实现了稳定且精细的优化，在避免高学习率相关不稳定性的同时进一步提升模型性能。Core-Cocktail Training 策略在快速适配与知识保持之间实现了有效平衡，显著缓解了灾难性遗忘问题，并促进高效的多模态学习。

多任务 DPO 训练

在完成 Core-Cocktail 训练之后，采用多任务 DPO 训练提升模型在真实语音数据上的鲁棒性、音频理解能力、语音指令遵循能力以及语音共情能力。多任务 DPO 阶段引入了多维度的偏好学习目标：（1）鲁棒性偏好：更偏好在噪声环境或多样化语音输入下仍能保持输出质量的响应；（2）指令遵循偏好：更偏好能够准确遵循语音指令（包括情绪、风格与韵律控制）的响应；（3）音频理解偏好：更偏好体现对音频内容进行准确理解与推理的响应；（4）语音共情偏好：更偏好能够展现恰当情绪理解与富有共情反馈的响应。DPO 训练损失在这些偏好维度上联合计算，从而使模型能够学习到一个在多种能力之间取得平衡的统一偏好信号。该多任务 DPO 训练阶段使模型能够更好地对齐人类偏好，并在真实世界会话场景中表现出更优性能，从而区别于主要依赖监督微调的既有工作。

全双工交互训练

为实现实时全双工语音交互，提出并采用并行语音–文本输入流架构，并将 Fun-Audio-Chat 扩展为全双工变体 Fun-Audio-Chat-Duplex，从而支持自然、类人化的无缝双向通信。具体而言，并行语音–文本输入流允许模型在助手生成语音的同时继续接收用户语音输入，从而有效利用原本空闲的时间片。该并行输入机制能够同时处理来自用户与助手的语音输入，使模型能够应对重叠语音片段并保持会话语境一致性。全双工交互训练从 Core-Cocktail 阶段得到的检查点继续训练，在其已具备的多模态能力基础上进一步强化。该阶段采用通过数据增强方式构造的全双工对话数据进行训练：即基于高质量半双工对话数据，并按照 OmniFlatten中的方法模拟全双工交互行为，将传统轮流发言的文本对话转化为并行双流式交互，其中用户与助手均可同时发声。通过全双工训练，模型能够学习自然的轮次切换、打断处理与跟进反馈等交互行为。

OmniFlatten：https://aclanthology.org/2025.acl-long.709.pdf

Experiments

评估任务和指标：

语音转文本 (S→T) 评估。VoiceBench 、OpenAudioBench两种类型的口语问答基准
语音到语音 (S→S) 评估。UltraEval-Audio 用于端到端语音转语音问答评价。
音频理解。 MMAU、MMAU-Pro 和 MMSU来评估综合音频理解能力。
语音识别。验证英语和普通话 (ZH) 性能
语音功能调用。 Speech-ACEBench、Speech-BFCL 和 Speech-SmartInteract评估模型基于语音指令执行函数调用的能力。
语音指令跟随和语音同理心。 VStyle 基准评估模型理解和执行语音指令的能力，以控制语音生成属性，如情绪、说话风格、速度、音调和音量。

评估指标：

对于全双工交互评估，我们使用S2M-T（多模态响应中的文本输出准确性）和S2M-S（多模态响应中的语音输出准确性）来衡量知识理解性能，并使用轮流成功率来衡量模型在全双工场景下正确处理轮流的交互百分比。

结果

语音问答：Fun-Audio-Chat-8B 在 OpenAudioBench 上取得 76.61% 的整体最佳成绩，在 VoiceBench 上取得 83.21% 的整体最佳成绩，居于约 8B 规模模型中的领先水平；同时，Fun-Audio-Chat-30B-A3B 在与大规模基线模型（含顶级闭源模型）的比较中亦展现出具有竞争力的结果。

语音理解：Fun-Audio-Chat 在综合音频理解基准（包括 MMAU、MMAU-Pro 和 MMSU）上取得了最优表现，优于多种强大的开源基线模型

语音功能调用

Fun-Audio-Chat-30B-A3B 在所有评测模型中取得了最高的总体得分（79.63%），并在 Speech-ACEBench（单轮：76.40%）和 Speech-SmartInteract（84.13%）等任务上表现尤为突出。该模型在理解基于语音的函数调用指令并准确执行方面展现出强大能力，这对于构建实际可用的语音控制应用至关重要。在并行函数调用场景中（Fun-Audio-Chat-8B 在 ACEBench-Parallel 上取得 54.50%，在 BFCL-Parallel 上取得 87.63%），结果进一步凸显了 Fun-Audio-Chat 在语音交互中处理复杂、多步骤指令的能力。

语音指令跟随和语音同理心

全双工交互

全双工知识理解。 表7展示了Fun-Audio-Chat-Duplex的全双工知识理解性能。结果表明，Fun-Audio-Chat-Duplex 在全双工对话场景中保持了强大的知识理解能力。全双工架构成功地保留了模型的知识理解能力，同时实现了同步双向通信，使系统即使在处理重叠的语音输入和输出时也能保持上下文和理解。

Fun-Audio-Chat-Duplex-30B-A3B 实现了完美的轮流成功率（100.00%），优于 Moshi（99.77%）和 FreezeOmni （93.87%）。 Fun-Audio-Chat-Duplex-8B 达到了 99.94%，也展现了出色的轮流能力。这些结果表明，Fun-Audio-Chat-Duplex 成功实现了自然高效的全双工语音交互，该模型能够处理同时语音并保持适当的对话流程，密切反映了人与人对话的动态。

计算效率：双分辨率设计显着降低了计算要求和潜在延迟，经验测量显示，与以更高帧速率运行的模型相比，训练期间的 GPU 时间减少了约 50%，且不影响语音质量

限制

多轮对话中的复杂问题回答，该模型有时会表现出上下文记忆丢失，其中先前轮次的信息可能无法一致保留。

语音指令跟随能力在表达方面表现出一些不稳定。

语音共情能力表现出一定的不稳定。

PAL: 探索如何在音频与LLM之间实现高效的语义信息传递

如何设计音频编码器与 LLM 的集成架构，使得 LLM 能够高效、准确地从音频编码中“探测”出与文本查询相关的信息？

如何将丰富的音频语义高效地从音频编码器传递到 LLM 中，仍然缺乏系统性的研究。目前最常用的集成范式，是将音频编码器输出的 token 映射到 LLM 的输入 token 空间（例如通过 MLP 或 Q-Former），并将其前置或插入到文本 token 序列中。将这一通用方案称为 PLITS（Prepend to the LLM’s Input Token Space）集成方式。

论文提出了一种高效的替代方案——轻量级音频 LLM 集成方法（Lightweight Audio LLM Integration，LAL）。LAL 仅通过 LLM 不同层中的注意力机制引入音频表示，而绕过其前馈网络模块。该方法能够在合适的抽象层级上对丰富的音频语义进行编码，从而有效地将其集成到 LLM 的不同模块中。与现有的集成方式相比，该设计显著降低了计算开销。

在完全相同的训练流程下，LAL 在多种基础 LLM 和任务上均能够保持与现有集成方法相当的性能，甚至取得更优表现。对于通用音频任务，LAL 相较于强 PLITS 基线模型的性能提升最高可达 30%，同时内存占用最多降低 64.1%，吞吐量最高提升 247.5%。此外，在通用音频-音乐-语音 LLM 场景下，PAL 的性能与完全基于 PLITS 集成的系统相当，但在计算效率和内存效率方面具有显著优势。

LLM 中内在的两类知识：（1）参数化知识，主要源于大规模语言预训练并嵌入于 FFN 层中；（2）上下文知识，通过注意力机制动态地引入和调制。 音频输入作为一种上下文信息，可以仅通过基于注意力的调制，在文本 token 表征中激活所需的概念，而无需对音频表示进行直接的 FFN 处理。由此，音频信息得以间接访问 LLM 的参数化知识：音频上下文“搭载”在文本 token 之上，注意力机制对其表征进行重构，进而在 FFN 处理中触发与相关概念对应的路径。该策略不仅在架构效率上具有优势，也为多模态信息融合机制提供了更为深入的理解。

Introduction

两种主流的架构范式：

PLITS（Prepend to the LLM’s Input Token Space）集成方式。将一个或多个音频编码器的输出映射到 LLM 的输入空间（例如通过 MLP、Q-Former），随后将这些音频 token 前置或插入到文本 token 序列中，并将整个序列作为统一输入。
Flamingo 风格的架构。在相邻的 LLM 层之间插入交叉注意力（cross-attention）和前馈网络（FFN）模块。在每一次插入中，文本 token 首先对一组潜在的音频 token 进行注意力计算，随后通过该模块中的 FFN，最后再进入下一层 LLM。缺点：交叉注意力与 FFN 模块的交错堆叠会增加模型的顺序深度以及单层计算量，从而可能减慢前向传播速度。

本文提出了 LAL，一种轻量级的集成方式，其仅将音频 token 作为 Key和值Value 注入到 LLM 的注意力模块中（不构造音频查询 Query），并且使音频 token 绕过 LLM 的前馈网络（FFN）。这种设计将注意力计算复杂度从

O((N_a+N_t)²)

降低至 O((N_a+N_t)N_t),

其中 N_a 和 N_t分别表示音频 token 与文本 token 的数量。由于在实际场景中通常满足 N_a ≫ N_t ，该设计能够带来显著的计算效率提升。LAL 在内存占用和计算量方面均实现了显著降低。与 LoRA 等参数高效训练方法不同，LAL 属于一种核心架构层面的改动，因此其带来的效率优势不仅体现在训练阶段，同样适用于推理阶段。

PLITS 与 Flamingo 类集成方法代表了从音频编码器中提取信息的两种互补策略。LAL 通过限制音频 token 与 LLM 的交互方式，提供了一种计算与内存高效的机制；而在 PLITS 风格的集成下，某些音频编码器则可以从 LLM 内部更丰富的解码过程中获益。具体而言，采用语言对比学习或自监督目标训练的编码器（如 CLAP、SSLAM）更适合使用 LAL 集成方式；而 Whisper 由于其采用自回归语音到文本转写及下一 token 预测目标进行预训练，则能够从 PLITS 风格集成所提供的额外解码能力中获得更多收益。

基于上述观察，本文提出了一种 LAL 与 PLITS 相结合的混合集成框架——PAL，用于构建通用的音频、音乐和语音 LLM。该框架实现了一种面向音频编码器感知的融合策略，在效率与性能之间取得平衡。与单独采用 PLITS 集成方式相比，该设计在显著降低计算与内存开销的同时，仍能获得强劲的性能表现。实验系统地探索了性能与效率之间的权衡关系，揭示了面向编码器感知的融合策略如何在最小参数开销的前提下，实现音频编码器向 LLM 的高效信息传递。

Methodology

以当前最先进的集成方式 PLITS 作为基线方法，LAL 为本文提出的方法，PAL 为二者的混合方案。需要说明的是，文中使用 LAL 和 PAL 同时指代集成策略本身以及相应的音频-LLM 模型。

在音频编码器方面，采用 SSLAM 和 CLAP，并使用一种高效的、基于 Q-Former 的连接器来融合二者的信息，在不增加 token 数量的情况下完成融合，称为 LFST。若未使用 LFST，则音频编码器默认为 SSLAM；当使用 LFST 时，则表示 SSLAM 与 CLAP 的组合。

关于 LFST 的连接器：

用于融合语言对齐的编码器（如 CLAP）与自监督编码器（如 SSLAM）。该连接器生成一组紧凑的潜在 token，既融合了 CLAP 的语义信息，又保留了 SSLAM 的细粒度时空特征，同时保持序列长度固定，避免了简单拼接带来的计算开销。

编码器输出为：

其中 F表示频率，T表示时间，d 表示特征维度。单个潜在 token z会广播到每一个时空位置，从而得到每个 z_f,t。

在连接器内部，该模块包含 3 层交叉注意力（cross attention）层，每个 z_f,t 会通过与对应局部区域的 Hsslam和 Hclap 的交叉注意力进行更新。

为了在跨 (F,T)扁平化时保留时间结构，我们在频率轴上插入换行符（newline token），使得每一个新的时间步以该标记开头，然后才是其频谱 token

基线音频 LLM：

将音频 token 前置到 LLM 输入空间（PLITS）：将音频 token 前置到 LLM 输入 token 空间的基线音频 LLM 作为基准。

音频编码器的输出首先通过一个 Q-Former 连接器映射到 LLM 的输入嵌入空间，生成音频 token。随后，这些音频 token 被直接拼接在文本 token 之前，形成一个联合序列，并共同经过 LLM 的所有层进行处理，从而实现音频与文本的联合解码。该范式的核心特征在于音频 token 向 LLM 提供的方式——即作为前置 token 与文本一同输入。

LAL：轻量级音频-LLM 集成方法：

有研究表明，LLM 会将语义编码为可在隐藏状态中被选择性激活的特征。基于这一观点，提出如下假设：有效的音频-LLM 集成，并不需要对 LLM 做复杂改动，而是需要音频 token 能够触发文本 token embding 中与声音相关的概念特征。

换言之，不同的听觉输入应当在文本表示中激活相应的语言概念。例如，当输入中包含狗叫声时，与“狗”这一概念相关的特征应被激活，使模型能够将听觉信号锚定到语言层面，并正确回答诸如“当前包含哪种动物的声音？”这样的问题。该假设直接指导了我们的架构设计目标：寻找一条最简单、但又能可靠地将音频线索传递到承载语义概念的文本特征中的路径。

一个标准的 LLM 层由注意力子模块和前馈网络（FFN）子模块组成。由于注意力机制负责 token 之间的信息交互，它是音频影响文本的必要通道；同时我们认为，仅通过注意力机制，文本 token 便足以从音频中获取所需信息。

基于这一原则，我们提出了 LAL（Lightweight Audio LLM integration）。与基线方法类似，首先通过一个共享的 Q-Former 生成音频 token；在 LLM 的每一层中，使用一个 MLP 将这些音频 token 投影到该层的输入空间。随后，音频信息仅以 Key 和 Value 的形式注入到注意力模块中，而 Query 仍然仅由文本 token 构成。这样，音频只会调制文本 token 的注意力上下文，而不会经过 LLM 的前馈网络，从而实现更高效的音频-文本融合。

设第 l 层的文本隐藏状态为:H_l^t∈R^N_t×d, Q-Former 输出的音频特征为 A∈R^Na×da.在每一层引入一个投影器:P_l:R^da→R^d,将音频特征映射到该层的表示空间：

随后，在 token 维度上将文本与音频表示进行拼接：

如图 2(B) 所示，Query 仅由文本 token 生成，而 Key 和 Value 则由拼接后的序列计算：

由此得到文本 token 的 LAL 更新形式为：

更新后的H~_l^t随后按照标准做法进入 FFN，并结合残差连接进行处理。通过这种方式，音频信息仅通过注意力上下文影响文本 token，使由音频激活的特征与其对应的语言概念对齐，从而实现有效的跨模态信息传递。

计算与内存效率

与 PLITS 以及 Flamingo 风格架构相比，LAL 在三个方面显著提升了效率，且随着音频序列长度的增加，这些优势会进一步放大。实验中，我们观察到最高可达 64.1% 的显存占用降低，以及最高 247.5% 的训练吞吐提升（samples/sec）。

注意力复杂度

PLITS：在 Na+Nt 个 token 上执行完整的因果注意力，计算复杂度为：

LAL：仅文本 token 生成 Query，Key 和 Value 包含音频与文本，复杂度为

从而消除了 N_a²项以及所有音频—音频之间的注意力交互。

前馈网络（FFN）：

PLITS：音频 token 在每一层中既参与注意力计算，又通过 FFN，导致浮点运算量和激活存储随 NaN_aNa 成比例增长。
LAL：音频 token 不进入 FFN，仅作为 Key 和 Value 服务于文本 Query，从而减少了每层的浮点运算量以及反向传播所需的激活存储。

随音频长度的扩展性。
在多模态 LLM 中，非文本模态通常会产生远多于文本的 token，音频亦是如此。随着音频片段变长或 token 化更密集，Na增大，PLITS 的计算代价为 (Na+Nt)²，其中 Na² 项将占据主导。相比之下，LAL 的复杂度为 (Na+Nt)Nt，对 Na 呈线性增长。因此，音频越长或切分越细，二者在计算与内存上的差距就越大。此外，由于更多 token 绕过了每一层中最昂贵的 FFN，LAL 在前馈阶段的节省也会随 Na 的增大而进一步扩大。

相比Lora：

LAL 是一种核心架构层面的修改。LoRA 等方法主要改变训练阶段参数的适配方式，而在推理阶段基本保持原有的前向计算模式；LAL 则直接改变了注意力与 FFN 的路由方式，因此其计算与内存效率的收益不仅在训练阶段成立，在推理阶段同样适用。

冻结 LLM FFN 的 LAL 集成：验证了在冻结 LLM 前馈网络（FFN）模块的情况下，LAL 集成方式仍然保持有效，且性能并未出现显著下降。这一结果对于降低训练成本、提升参数效率，以及在实现多模态对齐的同时保留 LLM 预训练知识，具有重要意义。出于表述清晰与实验一致性的考虑，本文的主要实验仍聚焦于 FFN 可训练的标准设置。

参数化知识与上下文知识的利用。

LAL 如何高效利用预训练 LLM 中内在的两类知识：（1）参数化知识，主要源于大规模语言预训练并嵌入于 FFN 层中；（2）上下文知识，通过注意力机制动态地引入和调制。

LAL 的实验成功（见表 1 和表 2）表明，音频输入作为一种上下文信息，可以仅通过基于注意力的调制，在文本 token 表征中激活所需的概念，而无需对音频表示进行直接的 FFN 处理。由此，音频信息得以间接访问 LLM 的参数化知识：音频上下文“搭载”在文本 token 之上，注意力机制对其表征进行重构，进而在 FFN 处理中触发与相关概念对应的路径。该策略不仅在架构效率上具有优势，也为多模态信息融合机制提供了更为深入的理解。

LAL 的实证评估。在多种基础 LLM 上对 LAL 进行了训练与评估，覆盖通用音频任务，包括分类、描述生成（captioning）和推理。在表 1（分类与描述生成）和表 2（推理）中，我们给出了 LAL 与 PLITS 的受控对比，结果表明 LAL 在推理速度与内存占用更优的同时，能够达到与 PLITS 相当甚至更高的准确率。其次，在表 3（分类与描述生成）和表 4（推理）中，我们将 LAL 与已有方法进行了比较。需要注意的是，不同先前方法在训练数据规模和模型规模上存在显著差异，而我们的模型实验训练在这两个维度上均处于较低水平。

这些实验结果不应被简单理解为“全面优于所有方法”，而应被解读为一个更有说服力的结论：即在使用更少训练数据、更小模型、计算资源更受限的情况下，LAL 能够达到与现有方法相当的性能水平，表现出良好的竞争力。

PAL：一种面向编码器的、在 LAL 基础上扩展语音理解能力的架构

前文已经证明：

LAL：高效、省算力，适合通用音频（general audio）
PLITS：计算更重，但允许音频 token 在 LLM 内部被“语言化”处理

本节提出的关键问题是：

是否所有音频编码器都适合用 LAL？还是有些情况下必须用 PLITS？

对于 Whisper 语音编码器在 情感识别、性别分类 等任务上：PLITS 明显优于 LAL，这一现象与经典神经语言学理论相符：Wernicke 区主要负责语言理解，长期以来被认为处理书面语和口语，而角回则支持跨听觉、视觉及其他感官输入的关联。类比而言，语音特征在结合语言上下文进行解释时最为有用，而通用音频则受益于模态专属的处理通路。

语音（speech）-人类声音
→ 本质上是“语言的声学形式”
→ 在 LLM 内部、结合语言上下文进行解码更有价值
→ 因此更适合 PLITS（直接进入 LLM token 流）

通用音频 / 音乐 / 事件音
→ 非语言模态
→ 更适合走 模态专属通路
→ 用 LAL 即可

基于此，我们提出了 PAL（Probing the Audio Encoders via LLM），一种面向编码器的混合集成架构，可根据不同编码器选择合适的集成方式：通用音频编码器（SSLAM 和 CLAP）采用 LAL 集成，而语音编码器 Whisper 采用 PLITS 集成.

PAL 的实验评估：我们在涵盖语音、音乐和通用音频的统一 instruction tuning 数据集上训练 PAL，并在分类与推理基准上进行评测。结果显示，在分类任务中（表 5）以及推理任务中（表 6 和表 7）：

MMAU多任务音频理解与推理能力：包括语音、环境音、音乐等，用于测试模型感知理解、事件识别、推理以及高级知识应用

MMAR：面向音频理解与推理的挑战性基准，**音频 + 问答对**，覆盖 **语音、环境声**、音乐

PAL 的准确率与 PLITS 相当，同时保持了更高的计算效率。

Whisper 的“副作用”：对非语音任务也有帮助:

此外，我们观察到引入 Whisper 编码器后，通用音频（sound）和音乐任务的性能有所变化。我们推测，这是因为 Whisper 会编码背景声音，从而具备一定的事件检测能力。

在 PAL 与 PLITS 的对比中，我们严格控制实验条件，使用相同的 backbone、数据和训练超参数。除 Audio Flamingo 2 外，其他系统均基于 PLITS。表7种一些已有系统（Qwen2.5-Omni-7B）在指标上高于 PLITS，主要是因为它们使用了更大的训练数据集、更大的语言模型（LLM）以及更强的音频编码器。

PAL 采用两阶段训练流程（见表 9）。在阶段一中，我们以用于 LAL 的阶段一数据集为基础，并额外引入来自 OpenASQA的、以语音理解为重点的数据进行增强。在阶段二中，我们在一个经过精心整理的音频、语音与音乐推理指令数据集 AudioSkills上进行微调。由于部分源数据集的原始音频文件不可获取，我们使用了 AudioSkills 中的 600 万条样本子集（原始规模为 1000 万）。

实验

LAL：实验设置

训练流程（Training Protocol）
在两个目前规模最大的通用音频指令微调数据集上训练所提出的音频 LLM 变体：OpenAQA和 CompA-R。整体采用两阶段训练流程：
1）连接器预训练阶段：仅训练音频-文本connector，其余模块全部冻结；
2）联合训练阶段：同时训练connector和 LLM。
在整个训练过程中，音频编码器始终保持冻结状态。

针对推理和开放式问答任务，我们进一步增加两个训练阶段：

阶段 3：使用 OpenAQA中的开放式问答数据进行训练；
阶段 4：使用推理数据集 CompA-R进行训练。

采用 OpenAQA提出的两阶段训练设置对 LAL 进行训练，并据此获得表 1 中的实验结果。此外，我们还在 OpenAQA提供的更大规模开放式数据以及推理数据集 CompA-R上进行训练，其评测结果见表 2。

评测流程（Evaluation Protocol）
为了评估 LAL 是否能够有效地将关键音频事件信息从编码器传递到 LLM 的潜在表示空间中，我们在下游的分类、描述生成（captioning）和推理任务上进行评测。

分类任务：使用 gpt-text-embedding-ada 对模型输出文本和目标音频标签进行编码，并计算语义相似度；

描述生成任务：在标准音频描述数据集上评测，报告 CIDEr 和 SPICE 指标；
推理任务：采用 CompA-R-test 以及 Ghosh 的评测协议，通过一个纯文本的 GPT-4 评审模型，结合音频事件的辅助元数据，对音频-LLM 的输出在 有用性（Helpfulness）、清晰度（Clarity）、正确性（Correctness）、深度（Depth）和参与度（Engagement） 五个维度进行打分。

PAL：实验设置

训练流程：PAL 采用与 LAL 相同的两阶段训练流程。音频编码器在整个过程中同样保持冻结。

在阶段 1 中，构建了一个混合数据集：以通用音频 OpenAQA 的 Stage 1 数据为基础，并加入用于语音理解的 OpenASQA Stage 1 划分。
在阶段 2 中，使用一个精心整理的音频、语音和音乐推理指令微调语料，即 AudioSkills中的 600 万条子集。

语音理解评测：语音识别以及说话人性别分类。这些任务在阶段 1 训练完成后进行评测，用以衡量新引入的 Whisper 编码器与 LLM 的集成效果。随后，在 MMAR 和 MMAU 基准上评测通用音频、音乐以及语音推理能力，并报告细粒度的类别级性能结果。

总结：

提出了 LAL，一种仅通过注意力机制中的 Key 和 Value 注入音频信息、并跳过音频 token 的前馈网络（FFN）处理的轻量级集成方式。该方法减少了注意力交互与中间激活，在分类、描述生成和推理任务上保持与当前最先进基线 PLITS 相当的性能的同时，实现了 最高 64.1% 的显存占用降低 和 最高 247.5% 的训练吞吐提升。
此外，我们提出了 PAL，一种 编码器感知（encoder-aware） 的混合集成框架：对 SSLAM 和 CLAP 采用 LAL，而对 Whisper 采用 PLITS，因为 Whisper 能从 LLM 内部的解码过程中获益。
需要强调的是，LAL 属于核心架构层面的改动，而非参数高效微调（PEFT）方法，因此其效率收益在 训练阶段和推理阶段 均可体现。
在未来工作中，我们计划扩展到更大规模的基础模型，使用更高质量的指令数据以提升推理能力，并探索 流式处理 与 长上下文音频 场景。

PS：数据集说明：

VocalSound：VocalSound 数据集包含 21,024 条众包采集的语音录音，覆盖 6 类不同的发声表达，来自 3,365 名不同的受试者。

ESC-50：ESC-50 数据集由 2,000 条 5 秒长的环境音频片段组成，划分为 50 个类别。

DCASE2017 Task 4：DCASE 2017 Task 4 包含 17 种声音事件，分为“Warning”和“Vehicle”两大类，其评测集包含 1,350 条音频片段。

FSD50K：FSD50K 的评测集包含 10,231 条音频片段。我们在该评测集上进行评估，并报告多标签分类任务的 mAP（mean Average Precision）指标。包括人类声音 、 事物声音 、动物声音、 自然声音和音乐。

AudioSet：其中包含来自 YouTube 的 10 秒音频片段，这些片段按照 AudioSet 本体论被标注为一个或多个声音类别。

AudioCaps：AudioCaps 的评测集包含 901 条音频，每条音频配有 5 条文本描述，共计 4,505 对音频-描述样本。

Clotho V2：Clotho V2 的评测集包含 1,045 条音频，每条音频配有 5 条描述，共计 5,225 对音频-描述样本。

复杂音频推理（CompA-R）是一个合成生成的指令调优（IT）数据集，其中包含要求模型对输入音频进行复杂推理的指令。

Smart Turn–语义 VAD 模型

Smart Turn 是一个开源的语义语音活动检测（Semantic VAD）模型，它通过分析原始音频波形（而不是转录文本），来判断说话者是否已经完成了当前的发言轮次。

轮次检测（Turn Detection） 是对话式语音 AI 技术栈中最关键的功能之一。
轮次检测的核心目标，是判断语音智能体应当在何时对人类的语音作出回应。

目前，大多数语音智能体都基于 语音活动检测（Voice Activity Detection，VAD） 来实现轮次检测。VAD 的作用是将音频划分为“有语音”和“无语音”片段。然而，VAD 无法理解语音中的实际语言内容或声学信息。人类在进行轮次判断时，会综合语法结构、语调、语速，以及多种复杂的声学和语义线索。我们的目标是构建一种模型，使其在轮次判断上的表现能够更接近人类的直觉，而不是受限于基于 VAD 的方法。

架构

模型架构：尝试了多种架构和基础模型，包括 wav2vec2-BERT、wav2vec2、LSTM 和额外的 transformer 分类器层，最终，Smart Turn v3 以 Whisper Tiny 为基础，并包含一个线性分类器层。该模型基于 Transformer 架构，拥有约 800 万个参数。尽管模型规模很小，但它在测试集上的准确率却比 v2 版本更高

Smart Turn 以 16kHz 单声道 PCM 音频作为输入，与 Silero 等轻量级 VAD 模型配合使用。一旦 VAD 模型检测到静音，便会对用户回合的整个录音运行 Smart Turn 功能，如有必要，将从开头截断音频，将其缩短至约 8 秒。

当前模型的架构相对较为简单。未来可以尝试探索其他建模方式，以提升整体性能，或者让模型输出关于音频的更多附加信息，亦或是在输入端引入更多上下文信息。

如果在 Smart Turn 尚未完成执行之前 检测到用户有新的语音输入，则应当 基于整个当前轮次的完整录音重新运行 Smart Turn，而不是仅对新增的音频片段进行推理。Smart Turn 在获得足够上下文信息的情况下效果最佳，其设计目标并非用于处理非常短的音频片段。

例如，如果能够为模型提供额外的上下文信息，用于对推理过程进行条件约束，将会非常有价值。一个典型的使用场景是：让模型“知道”用户当前正在朗读的是 信用卡号码、电话号码或电子邮箱地址。在这种情况下，模型可以基于特定的语义或结构模式，对轮次检测做出更符合人类预期的判断。

能力：

体积相比 v2 缩小近 50 倍，仅 8 MB 🤯

语言支持大幅扩展：现已覆盖 23 种语言：
🇸🇦 阿拉伯语、🇧🇩 孟加拉语、🇨🇳 中文、🇩🇰 丹麦语、🇳🇱 荷兰语、🇩🇪 德语、🇬🇧 🇺🇸 英语、🇫🇮 芬兰语、🇫🇷 法语、🇮🇳 印地语、🇮🇩 印度尼西亚语、🇮🇹 意大利语、🇯🇵 日语、🇰🇷 韩语、🇮🇳 马拉地语、🇳🇴 挪威语、🇵🇱 波兰语、🇵🇹 葡萄牙语、🇷🇺 俄语、🇪🇸 西班牙语、🇹🇷 土耳其语、🇺🇦 乌克兰语，以及 🇻🇳 越南语。

在模型体积大幅缩小的情况下，准确率相比 v2 反而进一步提升

Accuracy results

阿里通义SpeakerLM：端到端解决说话人分割与识别

论文题目：《SpeakerLM: End-to-End Versatile Speaker Diarization and Recognition with Multimodal Large Language Models》
论文地址：https://arxiv.org/pdf/2508.06372
Pseudo–code/demo: https://sites.google.com/view/speakerlm/code

目标：解决“说话人分割与识别（SDR）”任务，简单讲就是从音频里搞清楚“谁在什么时候说了什么”，SpeakerLM是第一个能完整做SDR的音频-文本MLLM。

三种方案的对比：

（a）：SD+ASR级联，“先分割再识别”，有误差传递、无法联合优化；
（b）：SD+ASR+LLM，在级联后加LLM修正，依赖前端输出，改不了上游的错；
（c）：E2E-SDR（端到端），用一个SpeakerLM模型统一做，但需要考虑如何处理“注册说话人不匹配”的情况（比如多注册了人、少注册了人[这个比较难做]）。

SpeakerLM —— 一种面向 SDR 的统一多模态大语言模型，可在端到端方式下同时执行 SD 和 ASR。此外，为适配不同的真实应用场景，我们在 SpeakerLM 中引入了灵活的说话人注册机制，使其能够在多种注册配置下执行 SDR。SpeakerLM 通过多阶段训练策略，在大规模真实数据上逐步构建而成。实验结果表明，SpeakerLM 具有强大的数据扩展能力和泛化能力，在域内和跨域的公开 SDR 基准上均优于最新的级联式系统。此外，实验还显示，所提出的说话人注册机制能够有效保证 SpeakerLM 在不同的注册条件以及不同数量的已注册说话人下，持续保持稳健的 SDR 性能。

Introduction

SpeakerLM主要贡献:

第一个“端到端SDR的多模态大模型（SpeakerLM）”，不用拆SD和ASR，解决了级联系统的误差传递问题；采用音频编码器和两个投影器作为前端，构建了针对 SDR 的编码器–投影器–LLM 架构
加了“灵活的说话人注册机制”，能应对无注册、匹配注册、过量注册三种场景，特别贴合现实需求；将先验的说话人嵌入投影后与音频与文本 token 进行拼接，使模型能够处理真实应用中多种多说话人场景。
用“多阶段训练”让模型从简单到复杂逐步学习，数据越多性能越强，在域内、域外（比如车内噪音）都比现有基线好。

模型架构

SpeakerLM 在预训练文本 LLM 中集成了一个轻量级的模态对齐机制。对于输入的多说话人音频，我们首先使用音频编码器进行编码，然后通过一个投影器将音频嵌入注入到文本 LLM 的特征空间中。

对于说话人注册部分，我们使用冻结的文本分词器（tokenizer）对已注册说话人的姓名以及特殊标记（如 <start> 和 <end>）进行分词。已注册说话人的语音首先经过冻结的预训练嵌入提取器处理，以获得说话人嵌入；随后，这些嵌入通过单层线性投影器映射到 LLM 的主干网络中。

Audio Encoder and Projector

音频编码器使用预训练的 SenseVoice-large 编码器初始化，该编码器具备强大的音频表征能力，并在多语言语音识别和音频事件检测等各类音频理解任务中表现优异。

音频投影器采用随机初始化的两层 Transformer，之后接一个卷积神经网络层用于维度对齐。

Embedding Extractor and Projector

使用预训练的说话人嵌入模型来提取说话人嵌入，该模型能够提供稳健且具有判别性的特征表示，对精确的说话人识别和归因至关重要。采用开源的 ERes2NetV2 模型进行嵌入提取，该模型在多个说话人验证基准上达到了 SOTA 性能。提取出的嵌入通过单层线性投影器进行维度对齐。

Large Language Model

使用预训练的 Qwen2.5-7B-Instruct作为文本 LLM 主干，以充分利用其强大的指令跟随能力和通用语言理解能力，从而使 SpeakerLM 能够高效处理不同信息量的复杂多说话人 SDR 任务。

灵活的说话人注册机制

如图 2 所示，我们在 SpeakerLM 中引入了灵活的说话人注册机制。为了适配真实应用场景，我们提出了三种不同的注册策略：No-Regist、Match-Regist 和 Over-Regist，具体如图 3 所示。

设真实标注中的说话人数为 Ngt，注册的说话人数为 Nrg，则在不同注册设置下，两者的关系可以形式化为：

No-Regist 表示不执行任何说话人注册。这是传统级联式 SD 系统及其应用中的常规设置。我们仅将多说话人音频输入模型，而不提供任何关于说话人的先验信息。这种范式与传统级联式 SDR 框架相一致，输出中的每位说话人都以匿名说话人 ID 表示（如 spk0、spk1 等）。

Match-Regist 假设所有真实标签中出现的说话人均已提前注册，与 SA-ASR 的设定一致。模型需要将每位说话人正确匹配到对应的姓名。该设置能够很好地反映那些已知用户预先注册、并需要个性化输出（如带说话人姓名的转写）的实际场景。在 Match-Regist 中，准确的说话人–姓名关联至关重要，模型必须有效利用注册的说话人信息来进行识别。

Over-Regist 指注册的说话人数多于实际音频中出现的说话人。在这种情况下，模型必须判断哪些注册说话人并未出现在当前语句中，并对剩余的活跃说话人执行准确的带说话人归因的 SDR。这一设置比 Match-Regist 更具挑战性，因为模型不仅需要处理冗余的说话人信息，还必须抑制无关的身份。同时，这与实际场景高度一致：系统可能预先注册了大量用户，但在某次交互中只有其中一部分参与。

总体而言，所提出的说话人注册框架使 SpeakerLM 能够在不同程度的说话人监督条件下灵活执行 SDR，从匿名转写到带个性化姓名的转写均可适用，从而覆盖多种真实的多说话人应用场景。

多阶段训练策略

分了4个阶段，让模型循序渐进掌握SDR能力：

Stage1：只训ASR，得到“SpeakerLM-ASR”。用60万小时ASR数据，加LoRA训LLM，不加载说话人相关模块——目的是先把“听清楚内容”的能力拉满，毕竟ASR准了，后续SDR才好做。在这一阶段，说话人嵌入提取器与投影器不会加入模型。在随后的三个阶段中，这些模块会被加入完整架构。

Stage2：使用模拟的 SDR 数据训练随机初始化的投影器，同时 冻结 LLM 与音频编码器，目标是在 SDR 领域快速对齐音频与文本。使用模拟数据训练使得投影器能够在简化分布下建立初步的粗粒度对齐。与真实录音相比，模拟混合语音仅通过简单地拼接不同说话人的语句构造，并未模拟强噪声或混响。

Stage3：用真实SDR数据训音频编码器+projector。冻结LLM，联合训前两个模块——真实数据更复杂（比如会议远场语音），这一步是让模型抓真实场景的声学特征。

Stage4：联合训所有模块。给LLM加LoRA，一起训音频编码器、projector和LLM——最后一步整合语言（文本）和声学（音频）信息，搞定复杂多说话人场景。

数据构成

数据构成：真实+模拟，覆盖各种场景

公开语料库中采样了 238.55 小时音频用于训练与评估，覆盖多种真实世界的多说话人场景。此外，我们还使用了 7456.99 小时的内部数据用于训练与验证，以进一步增强模型性能。详细统计如表 1 所示。

主要是中文数据集，用来训和测SDR：

公开数据：AliMeeting（会议场景，训104.75h、测10h）、AISHELL4（会议场景，训107.5h、测12.72h）、AISHELL5（车内场景，测3.58h，有风声、轮胎声、空调声，特别难，用来测泛化性）；
内部数据：7426.7h训练、30.29h验证，是近场录音，用来提升模型数据量。

模拟数据：用AliMeeting、AISHELL2、LibriSpeech、In-House-Train等的近场语音混出来的，5000h训练、5.6h测试（叫Simulation-Test），每段50秒，2-4个说话人，加了真实噪音和混响——用来做Stage2的训练数据。

Experiments

实现细节

音频重采样至 16 kHz，录音被随机切分为 40 到 50 秒的片段，用于训练和测试 SpeakerLM。对于说话人注册，已注册说话人的语音被切分为 2–10 秒的片段用于嵌入提取，随后将对应嵌入取平均，生成单个代表性说话人嵌入。对于 Over-Regist，训练期间过度注册的说话人数在 1 到 50 之间均匀取值。

优化器AdamW，学习率从1e-5 warm-up到5e-5，再余弦衰减；用4个NVIDIA A800 GPU，每个阶段训1M步，每10K步验证一次。

评估指标

公开基准上评估 SDR 性能，包括同域数据 AliMeeting-Eval 和 AISHELL4-Eval，以及跨域数据 AISHELL5-Eval。
使用以下指标进行评估：字符错误率（CER）、cpCER、∆cp、saCER以及 ∆sa。

CER：只看ASR准不准，不管说话人（比如把“你好”写成“你郝”，CER就高）；
cpCER：联合看ASR和SD，无注册时找“最优标签排列”（比如模型标spk0，实际是spk1，只要内容对、排列对就算对）；
saCER：联合看ASR和SD，有注册时直接按名字对齐（比如模型把Mike的话标成Lucy，就算错）；
∆cp=cpCER-CER、∆sa=saCER-CER：反映“说话人归属误差”——比如CER很低但∆cp高，说明ASR准但说话人标错了，这俩指标不受ASR影响，更准。

基线模型：

SD+ASR：用Paraformer-large（ASR里的SOTA）当ASR，配4个SD工具（3D-Speaker、Pyannote3.1、Diarizen-base/large），共4个基线；
SD+ASR+LLM：用Diarizen-large+Para当前端，加LLM修正（ChatGPT4.5零样本、Qwen2.5-7B零样本、Qwen2.5-7B微调），共3个基线；
E2E-SDR：SpeakerLM。

实验结果

Performance without Speaker Registration

SpeakerLM 在无注册条件下，预测结果中的每个说话人都以匿名 ID 表示。

LM零样本（ChatGPT4.5、Qwen2.5零样本）特别差，CER反而升高——因为LLM会“ hallucination（幻觉）”，明明让它只改说话人标签，它却改了内容；就算微调Qwen2.5，也只比最强的SD+ASR（Diarizen-large+Para）好一点。

结果表明，当 SDR 数据规模有限时，SpeakerLM 表现落后于大多数级联基线。但随着训练数据量的增长，SpeakerLM 展现出强大的数据扩展能力（data scaling capability），其 cpCER 和 ∆cp 显著提升。

与此同时，CER 的提升幅度较小，这是因为企业内部数据多为近场录音，对具有混响的远场语音带来的 ASR 改善有限。当 SDR 训练数据达到 7,638.95 小时后，SpeakerLM 的性能显著超越所有基线系统。在 cpCER 方面，SpeakerLM 相比最强的级联系统，在 AliMeeting-Eval、AISHELL-4-Eval 和 AISHELL-5-Eval 上分别取得 6.60%、6.56% 和 13.82% 的绝对改进。值得注意的是，即使在难度较高且跨域的 AISHELL5-Eval 测试集上，SpeakerLM 也取得了 0.57 的 ∆cp，表明该模型在未见过且噪声环境下具有强大的鲁棒性和泛化能力。

在AliMeeting-Eval和Simulation-Test上，从Stage1到Stage4，cpCER和∆cp稳步下降，说明多阶段训练有效；第二阶段的 CER 高于第一阶段,这是因为 Stage 2 依赖模拟数据，而模拟过程并未包含来自这两个数据集的真实音频，导致了领域不匹配。后续阶段（Stage 3 和 Stage 4）中在更真实、更具多样性的会议风格数据上的微调，对缓解领域不匹配、提升模型在不同评测场景下的稳健性至关重要。

Performance with Speaker Registration

比SA-Transformer强太多：在AliMeeting-Eval上，SpeakerLM的saCER比SA-Transformer低25.98%——因为SA-Transformer只能处理“注册和实际完全匹配”的情况，而SpeakerLM能应对各种注册场景；
Match-Regist vs Over-Regist：两者的CER、cpCER差不多，但Over-Regist的∆sa更高（比如AliMeeting-Eval上，Match-Regist的∆sa=1.59%，Over-Regist=1.75%）——说明多余的注册信息会轻微影响说话人归属，但整体影响不大，模型能过滤冗余。

多余说话人数量对saCER的影响:

随着 Nov 的增加，并未观察到明显的性能退化。这反映出 SpeakerLM 对冗余说话人身份具有良好的鲁棒性，并且在推理过程中能够聚焦于与任务相关的说话人表征。

Impact of Embedding Extractors

选择ERes2NetV2/CAM++ 作为说话人特征提取模型，在多项说话人验证基准上，ERes2NetV2 的表现优于 CAM++：No-Regist时，ERes2NetV2的CER=13.97%、cpCER=16.05%，都比CAM++低——说明“说话人embedding质量”会影响SpeakerLM性能，好的embedding能让模型更准识别说话人。

Training Pseudo-code

无注册/匹配注册/过度注册任务配置：

在 SpeakerLM 中，我们为 SDR 任务引入了三种说话人注册（speaker registration）机制：无注册（No-Regist）、匹配注册（Match-Regist） 和 过度注册（Over-Regist）。在训练过程中，所有样本默认以匹配注册的形式加载。对于每一个训练批次，我们会从 0 到 1 的均匀分布中采样一个随机数，用于决定注册类型：

如果随机数小于 1/3，则保持匹配注册（Match-Regist）；
如果随机数在 1/3 与 2/3 之间，则从提示（prompt）中移除所有已注册的说话人（No-Regist）；
如果随机数大于 2/3，则从其他会话中随机采样 1 到 50 名说话人，并将其作为冗余的已注册说话人附加到提示中（Over-Regist）。

Prompts for LLMs

1. SD+ASR+LLM：在 SD+ASR+LLM 流水线中，我们使用基于文本的 LLM 来纠正 SD+ASR 前端生成的说话人标签。所使用的 prompt 继承自先前研究。

SD+ASR+LLM 的 LLM Prompt：
You are a helpful assistant. In the speaker diarization transcript below, some words are potentially misplaced. Please correct those words and move them to the right speaker. Directly show the corrected transcript without explaining what changes were made or why you made those changes.
（你是一名有帮助的助手。下面的说话人分离转录中，某些词语可能被错误地分配到说话人。请纠正这些词语并将其移动到正确的说话人处。直接展示修正后的转录，不要解释修改内容或理由。）

2. SpeakerLM-ASR ：在 SpeakerLM 的第一阶段训练中，我们使用纯 ASR 数据来增强模型的 ASR 性能。该模型被称为 SpeakerLM-ASR。使用的 LLM prompt 如下：

SpeakerLM-ASR 的 LLM Prompt：
You are a helpful assistant. Transcribe the speech. <start>path to the input speech<end>
（你是一名有帮助的助手。请进行语音转写。<start>输入语音的路径<end>）

3. SpeakerLM：在 SpeakerLM 中，LLM 的 prompt 会随着注册机制的不同而变化。这里给出了三种注册场景（No-Regist、Match-Regist 和 Over-Regist）的 prompt 设计。假设真实标注包含三位说话人：Mike、Lucy 和 Jack，则相应的 prompt 构造如下。

No-Regist（无注册）

You are a helpful assistant. Transcribe by roles. <start>path to the multi-speaker speech<end>
（你是一名有帮助的助手。请按角色进行转写。<start>多说话人语音的路径<end>）

Match-Regist（匹配注册）

You are a helpful assistant. Registered Speaker Embeddings:
Mike<start>path to the embedding of Mike<end>;
Lucy<start>path to the embedding of Lucy<end>;
Jack<start>path to the embedding of Jack<end>;
Transcribe by roles. <start>path to the multi-speaker speech<end> （你是一名有帮助的助手。已注册的说话人嵌入如下：
MikeMike 的嵌入路径；
LucyLucy 的嵌入路径；
JackJack 的嵌入路径；
请按角色进行转写。多说话人语音的路径
（说话人顺序没有特定要求。））

Over-Regist（过度注册）

You are a helpful assistant. Registered Speaker Embeddings:
Mike<start>path to the embedding of Mike<end>;
Lucy<start>path to the embedding of Lucy<end>;
Jack<start>path to the embedding of Jack<end>;
Andy<start>path to the embedding of Andy<end>;
Rose<start>path to the embedding of Rose<end>;
Frank<start>path to the embedding of Frank<end>;
Transcribe by roles. <start>path to the multi-speaker speech<end> （注：在此情况下，Andy、Rose 和 Frank 是来自其他会话的过度注册说话人。说话人顺序没有特定要求。）

Qwen3-Omni ：原生端到端的多语言全模态大模型

Qwen3-Omni ，这是一个原生端到端的多语言全模态基础模型。它旨在处理包括文本、图像、音频和视频在内的各种输入，同时提供文本和自然语音的实时流式响应。

主要特点：

原生全模态：Qwen3-Omni是原生全模态大模型，预训练全模态不降智。
强大的性能：Qwen3-Omni在36项音频及音视频基准测试中斩获32项开源SOTA与22项总体SOTA，超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强模型，同时其图像和文本性能也在同尺寸模型中达到SOTA水平。
多语言：Qwen3-Omni支持119种文本语言交互、19种语音理解语言与10种语音生成语言。
更快响应：Qwen3-Omni纯模型端到端音频对话延迟低至211ms，视频对话延迟低至507ms。
长音频：Qwen3-Omni支持长达30分钟音频理解。
个性化：Qwen3-Omni支持system prompt随意定制，可以修改回复风格，人设等。
工具调用：Qwen3-Omni支持function call，实现与外部工具/服务的高效集成。
开源通用音频Captioner：开源Qwen3-Omni-30B-A3B-Captioner，低幻觉且非常详细的通用音频caption模型，填补开源社区空白。

模型架构：

Qwen3-Omni采用Thinker-Talker架构：Thinker负责文本生成，Talker专注于流式语音Token生成，直接接收来自Thinker的高层语义表征。为实现超低延迟流式生成，Talker通过自回归方式预测多码本序列：在每一步解码中，MTP模块输出当前帧的残差码本，随后Code2Wav合成对应波形，实现逐帧流式生成。

创新架构设计AuT：音频编码器采用基于2000万小时音频数据训练的AuT模型，具备极强的通用音频表征能力。MoE：Thinker与Talker均采用MoE架构，支持高并发与快速推理。多码本技术：Talker采用多码本自回归方案——每步生成一个编解码帧，MTP模块同步输出剩余残差码本。
全模态不降智在文本预训练早期混合单模态与跨模态数据，可实现各模态混训性能相比纯单模态训练性能不下降，同时显著增强跨模态能力。
卓越的语音对话与指令跟随能力Qwen3-Omni在语音识别与指令跟随任务中达到Gemini-2.5-Pro相同水平。
实时音频和音视频交互AuT，Thinker, Talker + Code2wav全流程全流式，支持首帧token直接流式解码为音频输出。

Qwen3-Omni models

Qwen3-Omni-30B-A3B-Instruct：包含 thinker and talker ，支持音频、视频和文本输入，并可输出音频和文本。
Qwen3-Omni-30B-A3B-Thinking：包含 thinker ，配备思维链推理功能，支持音频、视频和文本输入，并输出文本。
Qwen3-Omni-30B-A3B-Captioner：基于 Qwen3-Omni-30B-A3B-Instruct 微调的下游音频细粒度字幕模型，能够为任意音频输入生成细节丰富、低幻觉的字幕。它包含thinker ，支持音频输入和文本输出。

Introduction

当前多模态的训练会出现一种模态的提升伴随着其他模态的退化，该工作探索在当前主流的基于大语言模型（LLM）的范式下实现集成式多模态训练，证明了联合多模态训练可以在所有模态上实现性能均衡，即不存在模态特异性的性能下降，同时显著增强跨模态能力。关键在于：在文本预训练的早期阶段混合单模态和跨模态数据。

关键：在文本预训练的早期阶段混合单模态和跨模态数据。预训练早期的多模态融合允许语言模型与视觉或音频共同训练，而不会导致语言能力下降；文本模态的加入显著提升了视觉和音频的性能，但从视觉或音频信号中并未观察到语言能力的显著提升；从经验来看，加入音频数据可以持续提升视觉模态在 MMMU 基准和 OCR 相关任务上的表现。

Qwen3-Omni 对 Qwen2.5-Omni的架构进行五项关键升级：

Thinker 与 Talker 均升级为 MoE（专家混合）结构，提升模型容量与任务适应性。
使用自研的 AuT（Audio Transformer）编码器替换Whisper编码器，该编码器在 2000 万小时的有监督音频上从零训练而成，能够提供更强的通用音频表示能力。AuT 使用分块窗口注意力（block-wise window attention），以实现实时的 prefill 缓存。
在语音生成端，引入多码本表示，其更高的表达容量有助于更真实地建模多样化的音色、超语段要素以及声学现象。
Talker 从单轨 codec 建模升级为多轨 codec 建模，通过 MTP 模块自回归地预测多个码本层；同时波形生成阶段用轻量级卷积网络（ConvNet）替代了分块式 DiT。
输入与输出音频码率均降低至 12.5 Hz，且输出 codec 支持单帧、即时的语音合成。

此外，还有四个大的改进：

支持超过 40 分钟的长音频理解；
扩展语言覆盖范围：支持 119 种书写语言、19 种口语理解语言，以及 10 种口语生成语言；
Thinking 模式实现全模态推理，包括音频—视频场景与仅音频场景；
流式性能进一步提升，端到端延迟最低可达 234 毫秒。

最核心的是 Qwen3-Omni 在文本与视觉模态上保持了与同规模单模态 Qwen 模型一致的最先进性能，没有出现性能退化。

Architecture

Thinker 与 Talker 均采用 Mixture-of-Experts（MoE）架构，以支持高并发与快速推理。
Talker 不再只使用 Thinker 的高级文本表征，而是基于音频与视觉的多模态特征进行条件建模。其设计动机如下：
(i) 对于文本内容而言，离散 token 与其 embedding 在信息量上基本等价；
(ii) 多模态条件对于音频–视频协调的语音生成（例如在语音翻译中保持韵律/音色）是必要的。
此外，这种解耦使外部模块（如 RAG、函数调用、安全过滤器）能够对 Thinker 的文本输出进行干预，并在需要时通过受控预处理将文本输入给 Talker，用于流式合成。
由于文本表征被解耦，Thinker 和 Talker 可以使用不同的系统提示语（system prompts），从而分别控制 Thinker 的文本响应风格与 Talker 的音频生成风格。
Talker 采用多码本（multi-codebook）自回归方案：每一步生成一个 codec 帧，剩余的残差码本由 MTP 模块预测完成。
Code2Wav 以轻量级因果卷积网络（causal ConvNet）实现，简化了音频合成的最终阶段。

在训练和推理过程中，Talker 直接接收来自 Thinker 的高维多模态特征，并共享完整的对话历史。因此，整个系统作为一个整体运行，实现端到端训练与统一推理。

Audio Transformer (AuT)

Audio Transformer（AuT）是一种注意力式的 encoder–decoder 模型，如图 3 所示，在 2000 万小时的有监督音频数据上从零训练而成。训练过程中，音频的滤波器组特征（filter bank features）在进入注意力层之前，通过 Conv2D 模块进行 8 倍下采样，将 token 速率降至 12.5 Hz。为了学习更强大、更通用的音频表示，AuT 在大规模音频数据集上进行训练，涵盖语音识别与音频理解任务。具体而言，训练数据组成如下：

80% 中文与英文的伪标签 ASR 数据；
10% 其他语言的 ASR 数据；
10% 音频理解数据。

为在实时 prefill 缓存效率与离线音频任务性能之间取得平衡，AuT 使用具有动态注意力窗口大小的 flash attention，覆盖从 1 秒到 8 秒的注意力查询模式。将 AuT encoder 用作音频编码器，模型参数约为 0.6B

Perceivation (感知)

Text, Audio, Image and Video (w/o Audio).

Thinker 将文本、音频、图像与无音轨视频转换为一系列可作为输入的表征。文本基于Qwen3文本分词器，语音处理为16 kHz，并将原始波形转换为 128 维 Mel 频谱图，通过AUT编码，每一帧音频表示约对应原始音频信号的 80 ms。视频编码器基于Qwen3-VL 的视觉编码器（SigLIP2-So400m），可同时处理图像与视频输入。为了尽可能保留视频信息并与音频采样率对齐，我们采用动态帧率采样视频帧。

Video and Multimodal Position Embedding (TM-RoPE)

参考Qwen2.5-Omni，使用 时间对齐的多模态旋转位置编码（TM-RoPE），它在多模态旋转位置编码（M-RoPE）基础上加入了绝对时间信息。TM-RoPE 将传统旋转位置编码分解为三个维度：

时间维（temporal）
高度维（height）
宽度维（width）

在原始 M-RoPE 中，时间相关性由前 16 个旋转角建模，这些角对应高频且震荡更强的模式。该设计有利于捕获局部时间变化，但会影响模型对长序列的外推能力。

为解决这一问题，我们重新分配了旋转角数量：

时间维 24 个
高度维 20 个
宽度维 20 个

该分配在局部语义与长程依赖之间实现了更平衡的表示，从而提升整体性能。

TM-RoPE 会根据输入模态的不同进行定制化应用：

文本模态：三个维度共享相同的位置 ID，使 TM-RoPE 等价于一维 RoPE。
音频模态：同样共享位置 ID，并额外加入绝对时间编码，每个时间 ID 对应 80 ms。
图像模态：所有视觉 token 分配相同的时间 ID，而其行列位置分别决定高度与宽度的 ID。

对于音视频输入：

音频：每 80 ms 分配一个时间 ID；
视频：每帧视频根据其真实时间戳分配 递增的时间 ID，动态调整以确保与音频保持 80 ms 分辨率对齐。
视频的高度与宽度 ID 与静态图像保持一致。

为避免多模态之间的位置冲突，所有模态的位置编号保持连续，每种模态的起始位置 ID 为前一种模态最大位置 ID 加一。该精细化的位置编码方案使模型能够有效整合并联合建模多模态信息。

相较 Qwen2.5-Omni 的关键区别：不同于 Qwen2.5-Omni 将音视频表示强制切分为固定的 2 秒块，Qwen3-Omni 直接基于绝对时间的时间 ID 对齐多模态表示。这种设计赋予模型处理任意时长流式输入的灵活性。

Speech Generation

在多轮对话的语音合成中，Talker 模块依赖于由 Thinker 组件提供的丰富上下文，该上下文包括历史文本 token、多模态表示以及当前轮的流式文本。对长上下文信息的依赖至关重要，因为高保真语音合成需要根据当前对话动态调整声学属性，如韵律、响度和情感，这一原则在上下文感知生成模型中已被充分验证。

在架构上，直接在 RVQ token 上进行操作。Talker 采用层次化预测策略：骨干网络（backbone）输入当前帧的聚合码本特征，并通过线性头预测第零码本，随后多 token 预测（MTP）模块生成所有剩余码本。这一策略使模型能够学习声学细节的完整表示，从而增强语音的表现力。因此，波形重建被简化为轻量级因果卷积网络（Code2Wav），在显著降低推理延迟和计算开销（FLOPs）的同时，相比更复杂的基于 DiT 的声码器实现了更高的音频保真度。

流式与并发设计

在流式视听交互场景中，首包延迟是影响用户体验的关键因素，而模型的并发能力对于降低服务成本和提高响应速度至关重要。下面是 Qwen3-Omni 如何通过算法与架构优化提升并发性并降低首包延迟。

分块预填充与 MoE 架构。在 Qwen3-Omni 中，保留了 Qwen2.5-Omni 中的分块预填充机制，其音频和视觉编码器能够沿时间维度输出分块（chunk）。在实时交互中，Thinker 和 Talker 模块执行异步预填充：当 Thinker 完成当前块的预填充后，其输出的高层表示会立即异步用于预填充 Talker 的当前块，同时 Thinker 预填充下一块。这种方法显著降低了 Thinker 和 Talker 的 Time-To-First-Token (TTFT)。

在架构上，Qwen3-Omni 的 Thinker 与 Talker 均采用 MoE设计，这对于提升服务吞吐量非常有效。与稠密模型相比，MoE 架构在处理长序列时显著降低了 KV 缓存带来的 IO 消耗，从而提高生成过程中的每秒 token 数（TPS）并增强并发性能。

流式多码本编解码生成：为了最小化用户接收首个生成包的等待时间，提出了仅左侧上下文的多码本生成机制。如图 2 所示，一旦 Talker 生成第一个 token，MTP 模块即可预测当前帧的剩余 token，然后由流式多码本编解码器将其解码为波形，该编解码器仅关注左侧上下文。与 Qwen2.5-Omni 需要等待 Talker 生成足够块级上下文才能合成波形不同，Qwen3-Omni 在 Talker 生成每个 token 后即可输出波形，从而显著降低首包延迟。

轻量级 MTP 模块与 ConvNet：MTP 模块和编解码器均为轻量级模块，计算 FLOPs 低，支持批处理推理，非常适合高并发场景。MTP 模块是超轻量级、固定步长的自回归稠密 Transformer，在推理硬件上对内存带宽要求低，从而天然支持高吞吐量请求的批处理。其固定步长自回归推理机制允许高效利用固定 KV 缓存空间加速，实现低延迟推理。同时，基于 ConvNet 的编解码器也能在低延迟下实现高吞吐量，因为其卷积架构在多种推理平台上均有广泛硬件加速支持，并且支持高效的批处理推理。

表 2 给出了 Qwen3-Omni 在典型计算资源下，不同并发场景下的理论首包延迟（first-packet latency）。实验在 vLLM 框架上进行，用于处理并发的视听流，同时对 MTP 模块和编解码器采用了 torch.compile 和 CUDA Graph 加速优化。

首包延迟受到多个因素影响：

Thinker 与 Talker 的模型规模会影响尾包预处理延迟（包括音频和视觉编码器的多模态数据预处理和推理）以及 Time-To-First-Token (TTPT)。
MTP 模块与编解码器的架构与规模会影响它们的推理延迟。

由于这些组件之间存在顺序依赖，总体首包延迟是各个延迟的累加。结果显示，Thinker 和 Talker 的 MoE 架构 能确保在高并发下，其预填充延迟和 TTPT 基本不受影响。同时，MTP 模块和编解码器的轻量化设计最小化了计算开销，对首包延迟的影响也很小。

此外，在输出首个数据包后，模型开始进行流式音频合成，由于 Talker 的 token 生成速率为 12.5 Hz，每个 token 即可合成 80 ms 的音频。因此，生成实时因子（RTF）通过以下公式计算：

实验结果表明，RTF 在不同并发水平下始终低于 1，确保用户能够持续接收流式音频响应

Pretraining

Qwen3-Omni 在一个多样化的数据集上进行预训练，该数据集涵盖多种语言和方言（如表 3 所示）以及多种模态，包括图文、视频文本、音频文本、视频音频、视频音频文本以及纯文本语料库。与 Qwen2.5-Omni 使用每个任务单一提示词不同，我们采用更丰富的自然语言提示，以增强模型的泛化能力和指令遵循能力。为了在所有模态下实现稳健性能，训练策略从早期预训练阶段就整合了单模态和跨模态数据。

Qwen3-Omni 的预训练分为三个阶段：

编码器对齐阶段：音频和视觉编码器在固定的 LLM 上单独训练，最初重点训练各自的 adapter，随后再训练编码器本身。不采用在冻结 LLM 的情况下联合训练编码器与 adapter 的方法，因为该方法可能导致编码器过度补偿冻结 LLM 的限制，从而降低感知能力。
通用阶段：使用了一个大规模数据集，约含 2 万亿 token，其中文本：0.57 万亿、音频：0.77 万亿、图像：0.82 万亿、视频：0.05 万亿、视频-音频：0.05 万亿。在此阶段，引入更多样化的多模态数据和任务，增强了模型在听觉、视觉、文本及视听信息上的理解与交互能力。
长上下文阶段：最后，将最大 token 长度从 8,192 提升至 32,768，并增加了训练数据中长音频和长视频的比例。实验结果表明，这些调整显著提升了模型对长序列数据的理解能力。

后训练

Thinker

后训练阶段包括对 Thinker 的三阶段训练，使 Qwen3-Omni 具备指令遵循能力。训练数据集采用 ChatML格式，涵盖纯文本对话、视觉模态对话、音频模态对话以及混合模态对话数据。

第一阶段：轻量化监督微调（SFT）
通过有针对性的指令优化，将预训练表示与下游任务需求进行桥接。SFT 有意偏离预训练数据结构，但保持与预训练模型的架构一致，以实现高效的知识迁移，同时保留预训练特征的完整性。

第二阶段：强对弱蒸馏（Strong-to-Weak Distillation）采用 Qwen3中描述的蒸馏流程，包括两个阶段：

离策略蒸馏（Off-policy Distillation）：初期阶段，教师模型生成的输出被整合，用于响应蒸馏。这帮助轻量学生模型掌握基础推理能力，为后续的在线训练奠定基础。
在线蒸馏（On-policy Distillation）：学生模型根据采样提示生成响应序列，随后进行微调，将学生预测的 logits 与教师模型（Qwen3-32B 或 Qwen3-235B-A22B）的 logits 对齐，通过最小化 KL 散度进行优化。

第三阶段：GSPO 强化，利用 GSPO全面提升模型在文本、图像、视频和音频等多模态上的能力和稳定性。针对不同模态使用两类奖励信号：

规则基奖励（Rule-based Reward）：用于可验证的多模态任务（如数学、编码、指令遵循），奖励信号源自预定义规则，可高精度评估模型输出的正确性，避免奖励漏洞（reward hacking）。
模型基奖励（Model-based Reward）：用于缺乏客观评价指标的多模态任务，采用 LLM 作为评估者（LLM-as-a-judge）协议。通用任务由 Qwen3 担任评估，视觉-语言任务由 Qwen2.5-VL 担任评估。评估过程中，LLM 可获取对应的真实答案或参考答案，以实现更稳健、可靠的评价。

Talker

对 Talker 采用四阶段训练，使 Qwen3-Omni 能够同时生成文本与语音响应。训练数据统一采用 ChatML 格式，确保与 Thinker 的一致性。

第一阶段：使用数亿条带多模态上下文的语音数据训练 Talker，建立从多模态表示到语音的单调映射关系。
第二阶段：进行高质量数据的持续预训练（Continual Pretraining, CPT），缓解第一阶段噪声数据导致的幻觉问题，显著提升语音生成质量。同时进行长上下文训练，增强 Talker 处理长复杂输入并生成语境适配语音的能力。
第三阶段：构建多语言语音偏好对（preference pairs），通过 直接偏好优化（Direct Preference Optimization, DPO）提升多语言语音生成的泛化能力和系统稳定性。
第四阶段：对基模型进行说话人微调（speaker fine-tuning），使 Talker 可以采用特定声音，并优化语音自然度、表现力和可控性。

Captioner

字幕生成是多模态理解的基础任务，也是大型多模态模型训练与评估的重要组成部分。然而，现有研究大多集中在视觉字幕生成，较少关注音频模态，而听觉感知是人类感知与交互的重要组成。为弥补这一空白并推动多模态感知研究，我们提出 Qwen3-Omni-30BA3B-Captioner。该模型通过在大规模音频描述数据集上微调 Qwen3-Omni-30B-A3B 得到，可为任意音频输入生成详细、低幻觉的字幕。

Evaluation

对一系列模型进行了全面评估，包括 Qwen3-Omni-30B-A3B-Instruct、Qwen3-Omni-30B-A3B-Thinking 以及两款内部开发的变体 Qwen3-Omni-Flash-Instruct 和 Qwen3-Omni-Flash-Thinking。这些 “Flash” 模型旨在提升计算效率和性能，同时引入新功能，尤其是对多方言的支持。评估结果分为两大类：理解能力（X→Text） 和 语音生成能力（X→Speech）。

X→Text 评估

Qwen3-Omni 理解各种多模态输入（文本、音频、视觉以及视听视频）并生成文本响应的能力。

文本→文本：评估通用任务、推理能力、编码能力、对齐任务、代理（Agent）以及多语言任务。

表4 ：Qwen3-Omni-30B-A3B-Instruct 的性能在多个基准任务中超过了更大的开源模型 Qwen3-235B-A22B Non-Thinking 以及强大的闭源模型 GPT-4o-0327
表5：Qwen3-Omni-30B-A3B-Thinking 的表现与 Gemini-2.5-Flash-Thinking 以及Qwen3-235B-A22B Non-Thinking 接近。
Qwen3-Omni-30B-A3B 在文本任务中的表现也与其对应的纯文本模型版本保持一致，包括：Qwen3-30B-A3B-Instruct-2507、Qwen3-30B-A3B-Thinking-2507

音频→文本：分为基础音频任务和高级音频任务两类。基础任务包括自动语音识别（ASR）、语音转文本（S2TT）以及音乐理解；高级任务包括语音聊天和音频推理。另外，还评估模型在各种音乐信息检索任务上的能力，如流派识别、情感与主题识别、乐器识别以及音乐关键词标注。

表 6 所示，Qwen3-Omni-Instruct 在 Librispeech、Wenetspeech、Fleurs、CommonVoice、Opencpop-test 以及 MIR-1K（vocal）等数据集上取得了英语与中文 ASR 以及歌词识别的最新最优性能（SOTA）。在多语言 ASR 和 S2TT 任务上，Qwen3-Omni 的表现同样优于或可与其他专业模型或通用模型（如 Voxtral-Small 和 Gemini-2.5-Pro）媲美。这些结果表明 Qwen3-Omni 在语音识别与语音翻译任务上具备非常强的能力。

此外，如表 7 所示，Qwen3-Omni-Thinking 在 VoiceBench 上取得了 89.5 的平均得分，超过了除 Gemini-2.5-Pro（89.6）之外的所有其他音频大模型，展现出优秀的语音交互能力。

在音频推理方面，Qwen3-Omni 同样表现突出：在 MMAU 基准上超越了强大的闭源模型 Gemini-2.5-Pro 与 Gemini-2.5-Flash，在 MMSU 上超过了 Gemini-2.5-Flash 和 GPT-4o-Audio。

表 8 中将 Qwen3-Omni-Instruct 与通用音频语言模型和专业音乐模型进行了比较。Qwen3-Omni-Instruct 在 RUL-MuchoMusic 上取得了最新最优（SOTA）表现。在 GTZAN、MTG-Jamendo 以及 MagnaTagATune 上，Qwen3-Omni-Instruct 的得分也显著超过了其他音频语言模型（包括 Gemini-2.5-Pro 和 GPT-4o-Audio），并超过了在这些数据集上测试的多种自监督音乐专业模型。

视觉→文本：通用视觉问答能力、数学与 STEM 推理能力、文档理解能力、数值推理与计数能力、动态视觉数据理解能力。将 Qwen3-Omni-Instruct 与 Qwen2.5-VL-72B 以及其他表现优异的闭源视觉语言模型进行了对比。如表 9 所示，Qwen3-Omni-Instruct 的整体表现与 Qwen2.5-VL-72B 相当，并且在 数学与 STEM 相关任务（如 MMMU-Pro overall、MathVista mini、MATH-Vision full）上取得了优于 GPT-4o 和 Gemini-2.0-Flash 的成绩。

Qwen3-Omni-Thinking 与多种最先进推理模型进行了比较。
表 10 的结果显示，我们提出的模型取得了显著的性能提升。例如，在 数学与 STEM 基准 上，它比 Qwen3-Omni-Instruct 基线提升了 4.4 个点。
值得注意的是，Qwen3-Omni-30B-A3B-Thinking 的性能已经可与规模更大的模型相媲美，展现了在 性能与计算效率之间的优秀平衡。

然而，该模型仍存在一个限制：在 长视频任务 上表现不佳。原因：1、位置外推能力有限（positional extrapolation）2、上下文长度受限

音视频→文本：在 WorldSense 进行基准测试以及两个视听推理基准进行测试。在 通用理解任务 中，Qwen3-Omni-Instruct 在 WorldSense 基准上实现了当前最佳性能，并以显著优势超越了其他 Omni 模型。该结果表明其在基础多模态信息融合方面具有卓越能力。

X→Speech 评估

评估主要集中在给定文本条件下的语音生成，即与文本到语音（TTS）任务的相似性，评估内容包括以下三个方面：

零样本语音生成：内容一致性（WER，字错误率）和说话人相似性（SIM）方面的表现
多语言语音生成：评估模型在零样本条件下生成多语言语音的内容一致性与说话人相似性。
跨语言语音生成：评估模型在零样本条件下进行跨语言语音生成的内容一致性。

零样本语音生成：

如表 13 所示，Qwen3-Omni 展现了 高度竞争力的性能，凸显了其通过预训练及持续预训练所获得的稳健语音理解与生成能力。此外，通过 强化学习（RL）优化，Qwen3-Omni 在语音生成的稳定性方面也取得了显著提升，并在 test-en 数据集上达到了最佳性能。

多语言语音生成：

Qwen3-Omni 支持跨 10 种语言 的语音生成。我们将其性能与 MiniMax-Speech 和 ElevenLabs Multilingual v2 模型在多语言语音生成任务上进行了对比。

如表 14 所示，Qwen3-Omni 在 中文、英文和法语 等语言上显著超越了其他模型，并在其余语言中取得了具有竞争力的结果。

跨语言语音生成评估：Qwen3-Omni 在 any-to-en（任意语言到英语） 和 any-to-ko（任意语言到韩语） 的语音克隆任务中均优于 CosyVoice3。在 any-to-ja（任意语言到日语） 任务中，即便 未进行文本规范化，Qwen3-Omni 仍能达到与 CosyVoice3 相当的性能，而 CosyVoice3 会将所有日语字符转换为假名（kana）。

跨模态性能不退化评估

由于不同模态的异质性，每种模态都需要不同的预训练目标和优化技术，因此采用标准化的数据整合方法变得不切实际。为了确保公平而严格的评估，我们设计了一个 受控对比实验。具体方法如下：我们预训练了三个参数量匹配的模型：仅文本基线模型（text-only baseline）、仅视觉基线模型（vision-only baseline）以及多模态 “Omni” 模型。为了隔离多模态效应，所有潜在的混淆变量都得到了精确控制。具体而言，Omni 模型使用与单模态基线相同的文本和视觉语料进行训练。此外，我们在所有模型间对关键训练参数进行了对齐，包括学习率策略、批大小以及每种模态的有效训练轮数（通过调整数据采样比例进行归一化）。因此，本实验中唯一的区别在于 Omni 模型在预训练阶段加入了额外的音频和视听数据。

如表 16 所示，我们评估了涵盖多种模态的综合基准，包括：文本模态（通用任务、数学与 STEM 任务、编程任务、多语言任务）、视觉模态（大学水平问题、OCR 相关任务）以及视频模态（视频理解任务）。实验结果表明：

在文本预训练的早期阶段混合单模态与跨模态数据，可以在所有模态上实现更优性能；
联合多模态训练能够促进不同模态之间的相互增强，从而提升单模态的表现；

这充分展示了 Qwen3-Omni 在多样化评估标准下的通用性与稳健性。

根据表 16 及内部实验结果，我们观察到以下规律：

预训练早期的多模态融合允许语言模型与视觉或音频共同训练，而不会导致语言能力下降；
文本模态的加入显著提升了视觉和音频的性能，但从视觉或音频信号中并未观察到语言能力的显著提升；
从经验来看，加入音频数据可以持续提升视觉模态在 MMMU 基准和 OCR 相关任务上的表现。

结论：

Qwen3-Omni 是一个里程碑：据我们所知，它首次提供了证据表明，完全整合的端到端多模态训练可以在不降低核心语言能力和其他模态表现的情况下实现。我们希望与学术社区分享这些成果，并期待能够激发更多相关研究。

未来工作中，我们计划在多个方向进一步推进模型发展，包括多说话人语音识别（multi-speaker ASR）、视频 OCR、视听主动学习，以及增强对基于代理（agent）工作流和函数调用的支持。

Step-Audio-EditX

论文：https://arxiv.org/abs/2511.03601
Demo：https://stepaudiollm.github.io/step-audio-editx/
Github：https://github.com/stepfun-ai/Step-Audio-EditX

Step-Audio-EditX —— 全球首个基于大语言模型（LLM）的开源音频编辑模型，能够在语音的情感、说话风格和副语言特征（如语气、语速、语调等）上实现高度富有表现力且可迭代的编辑，同时具备强大的零样本文本转语音（TTS）能力。

核心创新在于：模型仅依赖大间隔（large-margin）合成数据进行训练，无需使用嵌入先验或辅助模块。这种大间隔学习策略使模型能够在多种音色上实现可迭代控制与高表达力，并从根本上区别于传统聚焦于表示层面解耦的思路。实验结果表明，Step-Audio-EditX 在情感编辑和其他细粒度语音控制任务上均超越了 MiniMax-2.6-hd 和 Doubao-Seed-TTS-2.0。

当前 TTS 的问题：由于合成语音中的情感、风格、口音和音色等属性仍然直接来源于参考音频，限制了对这些属性的独立控制，另外，对于克隆语音通常无法有效地遵循提供的风格或情感指令。

许多以往关于语音解耦的研究依赖以下方法来实现属性分离：对抗式训练、特征工程以及创新的网络结构设计。相比之下，文章提出了一种简单但稳定的数据驱动方法。具体来说，我们设计了一条数据生成流程，用于构建高质量的数据对，这些数据对在保持完全相同语言内容的同时，在情绪、说话风格、口音、副语言特征等一个或多个属性上具有明显可区分的差异。通过在这样的数据对上训练模型，能够实现有效的属性解耦，使模型能够对输入语音的属性进行编辑。此外，通过多次迭代的“编辑”步骤，目标属性的强度可以被逐步增强或减弱。除了情绪、风格和副语言特征编辑之外，该方法可以扩展到其他任务，包括语速调整、语音去噪以及静音片段裁剪等。

主要贡献：

Step-Audio-EditX，这是首个基于大语言模型（LLM）的开源音频模型，擅长富有表现力且可迭代的音频编辑，涵盖情绪、说话风格和副语言特征，并具备强大的 zero-shot TTS 能力。
实验结果表明，仅通过大间距（large-margin）数据的后训练，即可实现对情绪和说话风格的可控调节，无需额外的呈现建模或适配器模块。
使用大间距数据进行后训练不仅能够实现可迭代的控制与高度的表达能力，而且在跨说话人场景下同样有效，这标志着从传统的基于表征层的解耦方法向新的范式转变。

Architecture

Prompt Text：任务提示/prompt音频对应的文本
Target Text：带合成的音频文本

基于 Step-Audio 中的音频编辑合成模型，主要改进包括扩展了情感和语音风格的范围，增加了零样本文本转语音 (TTS) 和副语言编辑功能，并将模型参数从 130B 减少到 3B。

系统由三个主要组件组成：

双码本音频分词器：将参考音频或输入音频转换为离散的 token；
音频大语言模型：生成双码本 token 序列；
音频解码器：使用流匹配（flow matching）方法，将音频 LLM 预测的双码本 token 序列转换回音频波形。

Audio Tokenizer：采用并行语言分词器（16.7 Hz，1024 码本）和语义分词器（25 Hz，4096 码本），交错比例为 2:3。观察到双码本分词器能够保留大量情感、韵律及其他非语言信息，这表明该方法在信息解耦方面仍不够理想，这一不足恰好使其非常适合作为验证LLM 后训练策略及所提出的大间隔数据驱动方法有效性的实验对象。

Audio LLM：为了充分利用预训练文本 LLM 的强大语言处理能力，3B 模型首先使用基于文本的 LLM 进行初始化，然后在文本数据与音频双码本token以 1:1 比例混合的数据集上进行训练。音频 LLM 以聊天格式处理文本token及其对应的双码本音频token，最终生成双码本token作为唯一输出。

Audio Decoder：音频解码器由 Flow Matching 模块和 BigVGANv2声码器组成。Flow Matching 模块在输出音频令牌、参考音频以及说话人嵌入（speaker embedding）作为条件下生成 Mel 频谱图，而 BigVGANv2 声码器则进一步将 Mel 频谱图转换为音频波形。对于 Flow Matching 模块，采用扩散变换器（DiT）作为骨干网络，并在 20 万小时高质量语音上训练该模型。

Data

SFT 数据：零样本 TTS、情感编辑、说话风格编辑以及副语言编辑。

零样本文本转语音：中文和英文以及少量粤语四川话的内部数据，总计约 60,000 个独立说话人
情感与说话风格编辑：高质量数据难以收集，提出简单高效的大边距合成数据方法。

该方法在同一说话人之间进行零样本语音克隆，覆盖不同的情感和说话风格，同时确保对比样本对之间具有足够大的差距。仅需 每种情感或风格的一个提示音频片段，避免了昂贵的数据收集成本。此外，该方法巧妙地将复杂的情感与风格描述 转换为基于比较的样本对构建格式。具体方法如下：

声优录音：声优录制表达丰富的情感和说话风格。对于每位声优，每种情感和风格组合录制约 10 秒 的音频片段。
零样本克隆：对于每种情感和说话风格，构建三元组 ⟨文本提示, 中性音频, 情感/风格音频⟩。通过选择同一说话人的对应中性与情感/风格音频作为提示音频，并使用 StepTTS 语音克隆接口 处理，文本指令描述目标属性。
边距评分（Margin Scoring）：为评估生成的三元组，我们使用一个小型人工标注数据集训练评分模型。该模型对音频对进行 1-10 分评分，边距分数越高表示效果越理想。
边距选择（Margin Selection）：根据边距评分阈值筛选样本。该阈值会根据不同情感和风格进行调整，通用下限设为 6 分。

3. 副语言编辑（Paralinguistic Editing）

副语言如呼吸、笑声以及填充停顿（例如“嗯”），对于提升合成语音的自然度和表现力至关重要。通过使用 “半合成”策略 实现了副语言编辑能力，该策略利用 NVSpeech 数据集——一个表现力丰富的语音语料库，其对多种副语言类型进行了详细标注，从而使得构建用于模型训练的比较四元组成为可能。

四元组 ⟨text_without_tags, audio_without_tags, text_nv_source, audio_nv_source⟩ 的构建方式不同于三元组：它使用 NVSpeech 的 原始音频和转录文本 作为目标输出，而将通过 StepTTS 语音克隆生成的音频作为输入，该音频是基于去除副语言标注后的原始转录文本合成的。

由于副语言编辑是 在时间域上进行的编辑任务，且存在显著的内在边距差异，因此 数据选择不需要边距评分模型。只需一小部分四元组数据，即可有效激发模型的副语言编辑能力。

强化学习数据:基于人工标注，以及使用 LLM-as-a-Judge（大型语言模型作为评判） 方法

人工标注：收集用户提供的真实世界的 提示音频 及对应文本提示，然后使用 SFT 模型生成 20 个候选响应。接着，通过人工标注员根据 正确性、韵律和自然度 对每个响应进行 5 分制评分，构建 选择/拒绝对。仅保留评分边距大于 3 的样本对。

LLM-as-a-Judge：使用理解能力模型对模型响应的 情感和说话风格编辑 进行 1-10 分评分，再根据评分生成偏好对，并仅在最终数据集中保留 评分边距大于 8 分 的样本对。

经过筛选的大边距样本对将用于训练 奖励模型 和 PPO

训练

两阶段：SFT，然后进行 PPO

SFT 阶段通过在 聊天格式下使用不同系统提示来增强模型的零样本文本转语音合成与编辑能力。

在零样本 TTS 任务中，提示音频被编码为 双码本tokens，随后将其解码为字符串形式，并嵌入到系统提示的说话人信息中。待合成文本作为 用户提示，生成的双码本 tokens 则作为系统响应返回。
对于编辑任务，所有操作在统一的系统提示下定义。用户提示包含 原始音频 及编辑操作的描述性指令，系统响应则返回 编辑后的音频 tokens。

模型在 SFT 阶段训练 1 个 epoch，学习率范围从 1 × 10⁻⁵ 到 1 × 10⁻⁶。

强化学习用于提升模型在 零样本 TTS 的稳定性，以及在执行编辑指令时的能力和表现力。当 源提示音频与目标编辑输出在情感或风格上存在显著差异 时，这种提升尤为明显，例如将快乐语音生成悲伤语音，或将高音量语音转换为耳语。

该强化学习方法提供了一种新的思路：不再单纯追求理想的语音表示解耦，而是同时优化大边距样本对的构建与奖励模型的评估效果。

奖励模型从 3B SFT 模型 初始化，并使用 人工标注数据与 LLM-as-a-judge 生成的大边距数据 进行训练，优化方法采用 Bradley-Terry 损失。

模型为 token 级奖励模型，直接在大边距双码本 token 对上训练，无需在奖励计算过程中通过音频解码器将 token 转回波形。
模型训练 1 个 epoch，学习率采用 余弦衰减策略（cosine decay），初始值为 2 × 10⁻⁵，下限为 1 × 10⁻⁵。

PPO 训练：获得奖励模型后，使用 PPO 算法 进行进一步训练。训练使用与奖励模型训练相同的提示种子，但只选择 对 SFT 模型最具挑战性的提示。

在 PPO 阶段，critic 先预热 80 步，随后再训练执行者（actor）。
优化器初始学习率为 1 × 10⁻⁶，遵循余弦衰减策略，下限为 2 × 10⁻⁷。
使用 PPO 剪切阈值 ϵ = 0.2，并施加 KL 散度惩罚系数 β = 0.05。

Evaluation

情感与说话风格编辑结果: 如表 1 所示，在 Iter0 音频进行首次编辑后，情感和说话风格的准确率都有显著提升。此外，经过连续迭代编辑后，情感和说话风格的准确率进一步增强。

闭源模型上的泛化能力:Step-Audio-EditX 首次编辑 后，所有声音模型的情感和风格准确率均显著提升。经过接下来的两轮迭代，准确率进一步增强，从而有力证明了本模型的 强泛化能力。

闭源模型上的情感控制,Step-Audio-EditX 在零样本克隆能力下展现出 更高的情感准确率，优于其他两款模型。仅经过 一次编辑迭代，所有音频样本的情感准确率均显著提升。将一次情感编辑迭代应用于零样本克隆音频，其效果 超过了闭源模型原生情感控制功能生成的结果。

副语言编辑: 如表 4 所示，在仅进行一次编辑迭代后，通过加入副语言标签（paralinguistic tags），模型在副语言元素的重建与插入方面取得了显著性能提升。实验结果表明：经过一次 Step-Audio-EditX 的副语言编辑后，生成的副语言效果已经可与闭源模型使用原生副语言标签直接合成的结果相媲美，展现出强大的泛化能力与编辑一致性。

扩展能力：

语速编辑：构造了三元组⟨text, audiosource, audiofaster/slower⟩，其中针对同一说话人，通过 SoX 工具包 的受控速度扰动生成快/慢版本音频。由于语速变化会显著改变 token 序列长度，仅使用 SFT 即可实现有效的语速编辑。

去噪与静音剪裁：基于生成式的方法，实现提示音频和合成音频的定向编辑，包括去噪和静音剪裁。

去噪（Denoising）构造三元组：⟨text, audioaugment, audiosource⟩其中 audiosource 为干净音频（ground truth），audioaugment 通过添加噪声与混响模拟生成。

静音剪裁（Silence Trimming）构造三元组：⟨text, audiosource, audiotrimming⟩audiosource 含有静音片段，audiotrimming 则通过 Silero-VAD 提取语音区间后拼接生成。

ASR专有名词纠错后处理：SS+GL方法

论文题目：《Generative Annotation for ASR Named Entity Correction》
论文地址：https://arxiv.org/pdf/2508.20700
资源地址：https://github.com/L6-NLP/Generative-Annotation-NEC

核心：基于音频特征+实体词库，使用神经网络检索可能最的实体词，然后通过LLM进行纠错

华为这篇论文的核心目标——解决ASR（自动语音识别）里“专有名词老认错”的问题。比如像“ChatGPT”“长江白鲟”这种领域特定的命名实体，ASR（比如Whisper）在通用场景里挺准，但遇到这些词常转错，后续用这些转录文本做任务就全乱了。

命名实体纠错 (NEC) 方法是指用于纠正ASR转录文本中的命名实体错误，现在主流的命名实体纠错 (NEC)方法分两类：

(1) 在转录文本生成过程中同时纠正错误；一般需要训练额外的模块，使 ASR 模型具备上下文偏置能力，或者利用上下文信息来纠正 ASR 模型中的命名实体错误。这些方法需要对ASR系统进行修改，使其具备纠错能力，因此这些方法很难应用于第三方 ASR 系统。

(2) 在转录文本生成后纠正错误，即后编辑错误。不需要对 ASR 系统进行任何修改，因此后编辑 NEC 方法更具适用性。其中最常见的是PED-NEC（基于语音编辑距离的方法），当 ASR 转录文本中实体和相关错误文本的词形相似时，我们可以通过遍历实体数据存储轻松定位错误，但PED-NEC有个大毛病——如果错的文本和真实实体“长得太不一样”，就彻底歇菜。比如：

“大语言模型”被ASR转成“大原模型”，俩词字面差挺多；
“Midjourney”转成“米德仲尼”（英文变中文音译）；
“灵耀X”转成“01X”（汉字变数字）；
“ChatGPT”转成“Check GPT”（拼写差一截）。

这时候PED-NEC没法定位错词，自然就纠正不了，这就是论文要解决的核心问题。

为了解决上述问题，创新性地提出了一种基于生成式方法的 NEC（命名实体校正） 方法，用于在转录文本中自动标注待纠正片段。具体来说，利用语音声学特征、候选命名实体以及 ASR 转录结果，生成（标注）出转录文本中需要被纠正的词语，并据此进行修正。该基于错误标注的 NEC 方法能够在识别出待纠正文本后，实现端到端的文本纠错，无需考虑词形变化，因此相比以往基于规则的替换方法具有更高的优越性。

Method：核心是两步：SS（语音特征检索候选实体）+ GL（生成式标注错误文本）。简单说，不依赖文本长得像不像，而是基于语音相似性进行实体检索，再让模型“智能标出”错词，最后替换——完美解决“长得不一样”的问题。

纠错流程如图2所示。首先预先构建一个数据存储库（datastore），用于保存实体的音频-文本对。在获得语音片段和 ASR 转录结果后，执行语音检索【SAN（自注意力网络）和FFN（前馈网络）】，以判断该语音片段的某一部分是否与数据存储库中某个候选实体的语音特征相似。

如果存在相似的候选实体，就将该候选实体与 ASR 转录文本拼接在一起，作为提示（prompt）输入纠错模型，以引导模型生成 ASR 转录中可能错误的词语（即与正确实体对应的错误文本）。最后，将检测出的错误文本替换为数据存储库中的正确实体。

Datastore Creation：收集实体列表 X={x1,x2,…xn} ，以及基于TTS合成对应的的语音：

将 TTS 生成的音频输入到编码器，并将编码器最后一层的输出作为实体 x_i 的语音表示。为了提高检索准确率并降低内存占用，我们在编码器的末尾添加了一个CNN层

数据存储存储键值（表示实体）对：

Entity Retrieval：用户的输入音频片段 s 输入到编码器中，并从编码器最后一层的输出中得到它的表示 s’：

引入自注意力网络（SAN）和前馈网络（FFN）来计算数据存储区 s 包含候选实体 xi′ 的概率 pi ：

最后应用平均池化，获取最终的分类：

判断数据存储中是否存在语音片段中的实体。如果概率 pi 高于我们设定的阈值，则选择前 K 个候选实体进行进一步校正。

Error Correction：通过上述实体检索方法获得若干候选实体，用符号“|||”连接实体，然后用引号将实体字符串与 ASR 转录文本连接起来。实体+转录文本字符串用作提示，引导纠错模型在转录文本中生成与候选实体具有相似语音特征的错误实体。该过程实际上是一种生成式标注方法，因为纠错模型会在原始 ASR 转录文本中输出一个或多个单词。

方法还具备实体拒绝功能。如果模型无法将候选实体与转录文本中可能存在的错误实体匹配，则会生成符号<empty> 表示没有返回结果。

emptry表示改候选词不采用，Error 表示错误的文本，用该位置的原本实体词替换

模型旨在找到语音相似且符合语言模型的待更正文本，最后一步是用数据存储中的真实实体替换错误文本。

Experimental ：

1. 数据准备：训练+测试集都很实在训练数据：用了Aishell数据集里的54129个中文实体，正负样本1:10（正样本是含实体的音频文本对，负样本是不含的）；还特意让20%的Prompt里加了“无关实体”（比如该纠正“ChatGPT”，却加了“Midjourney”当候选），练模型生成“”的能力，避免过纠正。测试集：搞了两个，一个是开源的，一个是自己建的：

Aishell测试集：从Aishell的开发集和测试集里挑了3101个去重实体，测通用场景；
BuzzWord测试集：自己建的“难点集”，1500段2023-2024年的语音——500段是“正例”（含新词、外来词、数字实体，比如“ChatGLM-6B”“苍兰诀”“Matebook D16”），1000段是“负例”（不含实体），还特意平衡了男女说话人，模拟真实场景。

评估指标：看四个关键数据，别嫌麻烦，这些数能直接看出效果：

CER：整体字符错误率（越低越好）；
NNE-CER：非实体部分的错误率（越低越好，要是这数高了，说明把不该改的改了，过纠正）；
NE-CER：实体部分的错误率（越低越好）；
NE-Recall：实体召回率（越高越好，意思是“能把多少实体从错的里捞对”）。

对比的基线方法：跟四种方法比，确保新方法真的好：

原始Whisper（没纠正的ASR结果）；
PED-NEC（传统的基于编辑距离的方法）；
PED+GL（用PED找候选，用新的GL纠正）；
SS+NEC（用新的SS找候选，用传统PED纠正）。

原始Whisper最差，实体召回率才70.85%；
PED-NEC比Whisper好，但有个问题：NNE-CER从10.00升到10.42，说明它有点“瞎改”，把非实体的内容也改坏了（过纠正）；
而SS+GL呢？所有指标都最优：整体CER最低（9.85），实体错误率最低（7.41），实体召回率最高（87.31，比PED-NEC高4个百分点），而且NNE-CER几乎和Whisper一样（10.01），没怎么过纠正——这就很牛了！

论文还特意从Aishell里挑了50个“错词和实体长得特别不一样”的案例做了个“词形差异集”，SS+GL在这上面表现更突出，把PED-NEC甩得更远。

BuzzWord难点集这是最能体现新方法优势的地方，因为这里面全是ASR最容易认错的新词、外来词，数据更惊艳：

原始Whisper在这直接“崩了”，实体召回率才12.22%——10个实体里才对1个多，可见这些新词多难认；
PED-NEC虽然比Whisper好，但召回率也才61.82%，实体错误率还有23.62%；
再看SS+GL：实体召回率直接冲到87.47%，比PED-NEC高了26个百分点！实体错误率也降到7.26%，而且NNE-CER还是15.29，没瞎改非实体内容——这就证明，对付“长得不一样”的新词、外来词，SS+GL是真的行。

关键图表分析：证明方法为啥有效：

这图看的是模型的注意力分布，能看到：

模型标注的错误文本（比如“米德仲尼”）、候选实体（比如“Midjourney”），还有对应的语音片段，这三者之间的注意力值特别高；
这就说明模型真的把“错词-候选实体-语音”三者关联起来了，不是瞎标错词，标注是有依据的。

这图横坐标是检索时的概率阈值（比如0.1、0.2…0.9），纵坐标一边是检索的F1值（越高说明检索越准），一边是纠正的CER（越低说明纠正越好）。

有意思的是：不是检索F1越高，纠正效果越好；反而当阈值低一点（比如0.3左右），检索召回率高、精度低的时候，纠正的CER最低；
原因很简单：SS+GL的GL模块能“容错”——就算检索多找了几个不太准的候选，GL也能通过生成“”排除掉，不用怕候选里有“杂质”。

实体拒绝案例——证明“不瞎改”：

这个案例特别典型：候选实体是“韩宇”（人名），ASR转录本里有两个发音一样的词——“韩雨”（另一个人名，需要改）和“韩语”（语言，不用改）。

PED-NEC：因为发音一样，把俩都改成“韩宇”了，造成过纠正；
SS+GL：只把“韩雨”改成“韩宇”，“韩语”不动——因为GL模块能结合语境判断，知道“韩语”不是人名，不用改，避免了瞎改的问题。

除了纠正效果好，SS+GL还有三个大优势：

联合标注有效：图4已经证明了，模型能精准关联“语音-候选实体-错词”，不会标错对象；
实体拒绝能力强：检索时能滤掉低相似度的候选，GL还能生成“”跳过不用改的，所以检索时可以放宽阈值，多找候选也不怕，反而能提高召回率；
自带CED功能：CED是“错误实体检测”，传统PED-NEC得单独加个CED模块才能找错词，而SS+GL的GL模块在生成错词的过程中，就已经完成了“检测错词”的步骤，不用额外加模块，更简洁。

基于生成式的纠错方法只对“待纠正文本”进行标注，从而使得时间消耗极小，但当数据存储库（datastore）中包含大量实体时，实体检索部分可能会变得非常耗时。

在这种情况下：

一方面，我们可以用 PED（即前文提到的 PED+GL 方法） 替代检索步骤，以降低整体延迟；
另一方面，未来我们计划将当前的检索方法改进为向量检索（vector search），借助现有成熟的向量搜索引擎，大幅提升检索速度。

Phoenix-VAD

论文：https://arxiv.org/pdf/2509.20410

口语对话模型在智能人机交互方面取得了显著进展，但仍缺乏一种可即插即用的全双工语义端点检测模块，从而限制了音频交互的无缝体验。本文提出了一种基于大语言模型（LLM）的流式语义端点检测模型——Phoenix-VAD。Phoenix-VAD 利用大语言模型的语义理解能力，并结合滑动窗口训练策略，实现了在流式推理场景下的可靠语义端点检测。实验证明，在语义完整与语义不完整的语音场景中，Phoenix-VAD 均取得了优异且具竞争力的性能。

现有方法在这一方面存在明显局限。传统的VAD仅依赖声学特征判断“是否存在人声”，无法理解语义层面的意图，因而难以实现自然的语义对齐。语义VAD虽在一定程度上引入了语义判断，但通常依赖外部自动语音识别（ASR）模块，导致系统延迟增加，并可能损失语音中的细粒度语义信息。至于如 RTTL-DG、Moshi 等端到端方案，虽具备一定的语义理解能力，但模型高度耦合，难以在不同对话系统中直接复用，每次更换对话模型都需重新训练或微调，部署成本较高。

Phoenix-VAD ——一种基于大语言模型的语义端点检测框架，旨在实现模块化、低延迟、可流式推理的全双工语音交互。

Phoenix-VAD 基于用户语音的语义完整性进行端点检测，并使用不同的超时阈值来判断终止条件。当用户查询语义不完整时，模型会应用更长的超时阈值，以避免过早终止响应。

音频编码器：用的是150M参数的Zipformer，之前还在10万多组内部ASR数据上训练过，能把原始语音波形转换成25Hz的“帧级特征”——简单说就是先把语音里的关键信息抽出来，方便后续处理。

适配器：就是两个线性层加个ReLU激活函数，专门解决“音频特征和文本特征对不上”的问题。它先把编码器输出的音频特征，按几帧拼一块做下采样，再转成LLM能“看懂”的文本embedding，最后输出适配好的特征。

LLM：用的是Qwen2.5-0.5B-Instruct，给它喂两样东西：一是适配器处理好的音频特征，二是文本提示（比如告诉它“你是个VAD，要判断用户是不是还在说”），最后让它输出两个结果：要么是“Continue Speaking”（用户还在说），要么是“Stop Speaking”（用户说完了）。

Sliding Window:

滑动窗口策略仅使用每个窗口内的音频进行预测，从而降低了对整个输入序列的依赖。与处理整个序列相比，它能够进行增量式的分块预测，在延迟方面具有潜在优势。同时，该模型可以利用每个窗口内的信息，为语义推理提供足够的局部上下文，并支持流式推理。

针对100Hz的语音特征序列，窗口设成256帧（对应2560ms），每次往前挪32帧（320ms）；训练的时候，只盯着每个窗口“最后一个chunk”做监督——不用等整段语音，就能一块一块增量预测，既保留了局部的语义上下文，又能减少延迟，刚好满足实时交互的需求。

在训练过程中，音频编码器被冻结，仅训练适配器和 LLM。LLM 骨干网络使用 LoRa 进行微调，以增强其多模态推理能力。训练目标使用标准交叉熵损失进行优化

Data:

造文本：结合内部的文本资源和ChatGPT API，生成两种文本：一种是“语义完整”的（比如“帮我查一下最新的订单信息”），一种是“语义不完整”的（比如“帮我查<停顿>最新的订单信息”）；

合成音频：用Index-TTS工具把文本合成语音，为了模拟不同人的声音，还从库里随机选了1007个英语、1010个中文说话人的声音模板；另外还故意插点静音段，还原真实聊天里的“犹豫、中断”场景；

标标签：用Paraformer工具给每个字标上时间戳，再根据“用户停止说话”的时间点，标两种训练标签：“Continue”（还在说）和“Stop”（说完了）。还特别设置了不同的超时阈值：语义完整的话，等400毫秒就判断“说完了”；不完整的话，等1000毫秒，避免提前打断用户。

Experiments:

用40万条音频（总共570小时）训练，然后拿2000条“语义完整”+2000条“语义不完整”的音频做测试：

语义不完整的场景里，准确率98.5%，“说完了”的F1分数0.918，“还在说”的F1分数0.992

语义完整的场景更稳，准确率98.6%，“说完了”F1 0.905，“还在说”F1 0.993

简单说就是，判断“用户还在说”几乎不会错，判断“说完了”也很靠谱。

对比其他开源VAD：

消融实验：

如果把滑动窗口的步长从320毫秒缩到160毫秒（更细的粒度），性能会下降——因为太细的粒度会让判断更犹豫，还会放大时间戳标注的误差；如果适配器只在ASR数据上训练，也不如“联合训练”效果好，因为ASR数据只关注“语音转文字对不对”，缺了“判断说话边界”需要的时间线索。

Phoenix-VAD最核心的价值就是：靠LLM的语义理解能力，加上滑动窗口的实时 trick，弄出了一个“靠谱、实时、能随便用”的语义端点检测模块，刚好补上了全双工语音交互的短板。以后优化方向：一是让模型能过滤“没用的声音”（比如背景噪音、无意义的嘟囔）；二是用真实场景的录音再训练，让它在实际聊天里更好用；最后打算把它装到端到端的对话系统里，让整个交互更顺畅。

Xiaomi-MiMo-Audio：小米端到端语音大模型

五年前，GPT-3 首次展示了通过自回归语言模型+大规模无标注数据训练，可获得强大 In-Context Learning（ICL）能力 [模型只靠上下文里的提示和少量示例，就能快速适应新任务，不必重新训练] ，并能通过少样本迁移到新任务，从而使语言开启通用人工智能（AGI）新纪元。然而在语音领域，现有模型仍严重依赖大规模标注数据，难以快速适应新任务达到类人智能。

这一瓶颈如今被打破。小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio，它基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于 ICL [ In-context Learning ] 的少样本泛化 [通过在 prompt 中放少量示例，利用模型在大规模预训练中学到的“上下文学习”能力，让模型无需再训练就能适应新任务。]，并在预训练观察到明显的“涌现”行为。后训练进一步激发了 Xiaomi-MiMo-Audio 的智商、情商、表现力与安全性在内的跨模态对齐能力，语音对话在自然度、情感表达和交互适配上呈现极高的拟人化水准。

技术报告：https://github.com/XiaomiMiMo/MiMo-Audio/blob/main/MiMo-Audio-Technical-Report.pdf
Github：https://github.com/XiaomiMiMo
🤗 HuggingFace | 📄 Paper | 📰 Bl og | 🔥 Online Demo | 📊 MiMo-Audio-Eval

核心：

如何完整的表征语音，不能损失任何语音声学/语义信息，需要建立一个无损传递语音信息的模型架构。
大规模数据扩展（scaling up），将训练数据扩展到上亿小时持续扩大预训练数据的规模将带来性能的持续提升，并可能产生意想不到的涌现能力。

Introduction

现有的音频语言模型通常依赖于针对特定任务的微调来完成特定的音频任务。相比之下，人类只需少量示例或简单指令就能将能力推广到新的音频任务上。GPT-3 已经证明，通过扩展下一个 token 预测的预训练可以在文本上实现强大的泛化能力，我们认为这一范式同样适用于音频领域。通过将 MiMo-Audio 的预训练数据规模扩展到超过一亿小时，我们观察到其在多种音频任务上出现了少样本学习能力。我们对这些能力进行了系统评估，发现 MiMo-Audio-7B-Base 在开源模型中，在语音智能和音频理解基准上均实现了SOTA性能。

除了标准指标外，MiMo-Audio-7B-Base 还能泛化到训练数据中未出现的任务，例如语音转换、风格迁移和语音编辑。它还展现了强大的语音延续能力，能够生成高度逼真的脱口秀、朗诵、直播及辩论内容。在后训练阶段，我们整理了多样化的指令调优语料，并在音频理解与生成中引入了思维机制。

最终，MiMo-Audio-7B-Instruct 在音频理解基准（MMSU、MMAU、MMAR、MMAU-Pro）、语音对话基准（Big Bench Audio、MultiChallenge Audio）以及指令式 TTS 评测中达到了开源 SOTA 水平，接近或超越了闭源模型。

语音领域中基于下一个 token 预测（next-token prediction）的预训练有两个关键要素。

1、能够无损传递语音信息的模型架构。为了充分发挥 next-token 预测范式的潜力，我们希望语音信号中的全部信息都能在模型中循环流动。这意味着我们不能采用会导致副语言信息（如情感、语调、说话风格等）丢失的语音表示方式。这一点使我们的方法与当前主流方案Kimi- Audio[基于ASR任务训练的语义编码器+预训练的whisper声学编码器] 和 Step-Audio 2[encoder 基于speech and audio understanding tasks 进行训练]有所不同。

2、第二个关键要素是大规模扩展（scaling up）。持续扩大预训练数据的规模将带来性能的持续提升，并可能产生意想不到的涌现能力。因此，我们将训练数据扩展到超过上亿小时的音频，这一规模比现有最大开源语音模型所使用的数据量大一个数量级。

预训练

预训练的目标是让模型具备语音领域的任务泛化能力——也就是说，模型在训练阶段学习到一系列基础的“原子技能”，并在推理阶段利用这些能力快速适应或识别任何语音任务。我们在预训练方法上的指导原则是：确保语音信号中的所有信息都能被完整保留并在模型架构中无损流动。

Tokenizer（分词器）：我们认为，音频分词器最重要的评判标准是其重建保真度（reconstruction fidelity），同时其生成的 token 应该便于下游语言建模使用。基于这一理念，我们提出了 MiMo-Audio-Tokenizer。该模型包含 12 亿参数（1.2B），采用基于 Transformer 的架构，由编码器、离散化层和解码器组成，以 25Hz 的帧率运行，并通过 8 层残差向量量化（RVQ） 每秒生成约 200 个 token。我们在训练中结合了语义与重建双重目标，从零开始在一个 1000 万小时规模的语音语料库上进行训练，获得了优异的重建质量，同时显著提升了下游语言建模的效果。

架构（Architecture）。为了提升对高 token 速率序列（200 token/秒）的建模效率，并缓解语音与文本模态间的长度差异，我们提出了一种创新架构，将 patch 编码器（patch encoder）、大语言模型（LLM） 和 patch 解码器（patch decoder） 相结合。Patch 编码器将连续 4 个时间步的 RVQ token 聚合为一个 patch，从而将序列下采样为 6.25Hz 表示，输入至 LLM。Patch 解码器则以自回归方式（autoregressive）重建完整的 25Hz RVQ token 序列。

**ps：OR** 表示模型**选择性地使用其中一个输入**（Audio 或 Text），
或者在不同模式下激活不同输入分支。**但一次只走一个分支**。

训练。为了实现统一的理解与生成预训练范式，并赋予模型更强的“语音智能”，我们设计了一个两阶段训练策略，并以 MiMo-7B-Base 作为初始化模型：阶段1 专注于语音理解任务，阶段2 将理解与生成统一于一个框架中，进行联合训练

数据。将预训练语料规模扩展至超过 1 亿小时的语音数据，这一规模比现有任何开源语音模型的数据量大一个数量级。这一庞大数据集的获取和处理依托于我们自研的端到端数据管线，涵盖预处理、标注与数据筛选全过程。
评估。构建了一个全面的评测基准（benchmark），用于严格评估模型在语音领域的上下文学习能力。该基准涵盖模态不变的常识知识、听觉理解与推理能力以及多样化的语音到语音生成任务多个维度。

经过大规模预训练后，MiMo-Audio-7B-Base 展现出强大的少样本学习能力。在我们构建的 SpeechMMLU 基准上（该基准源自 MMLU，并将其任务合成为语音形式），MiMo-Audio-7B-Base 在“语音智能（Speech Intelligence）”和跨模态对齐（modality alignment）方面表现出极高的水准。

在语音输入与输出条件下，它取得了接近文本版 MMLU 的卓越成绩，文本任务的性能仅出现极小幅度下降。更重要的是，它在未见过的任务上也具有优异的泛化能力：只需在上下文中提供少量示例，它就能完成包括语音转换、风格迁移、语速控制、去噪以及语音翻译等任务。

MiMo-Audio-7B-Base 还展现出强大的语音延续能力（speech continuation），能够生成高度逼真且语义连贯的独白或多说话人对话，涵盖脱口秀、演讲、辩论、播客以及游戏解说等多种场景。

后训练

后训练（post-training）的核心目标是将模型在预训练阶段获得的泛化能力与指令跟随能力对齐。为此，我们构建了一个高度多样化的音频指令微调语料库，涵盖音频理解与生成任务，并整合了来自多个领域的高质量开源与自建数据。

为了进一步增强模型的跨模态推理能力（cross-modal reasoning），我们还为音频理解和生成任务构建了高质量的“思维链”数据集。

同时，为了获得类人、可控风格的语音对话数据，我们训练了一个基于超过 700 万小时语音数据的 MiMo-TTS-7B 模型，用于将文本对话转换为语音形式。

主要贡献

首次提供了实证证据，证明将基于无损压缩的语音预训练规模扩展至前所未有的 1 亿小时，能够激发出任务泛化的涌现能力，具体体现为强大的少样本学习能力（few-shot learning）。我们认为，这标志着语音领域迎来了类似 GPT-3 时刻（“GPT-3 moment”） 的重要突破。

提出了首个全面且可复现的生成式语音预训练方案，包括全新的音频分词器、可扩展的模型架构、分阶段的训练策略、系统化的整体评测体系。

首次在语音理解与生成的建模过程中引入了“思维机制（thinking）”，实现了从感知（perception）到复杂认知任务（complex cognitive tasks）之间的桥接，为语音模型的发展开辟了新的方向。

Model Architecture

MiMo-Audio-Tokenizer

现有音频分词方法的一个主要挑战在于如何有效平衡音频信号中语义信息与声学信息之间的固有权衡。语义 token 通常来源于自监督学习模型或 ASR 模型，它们与语言内容高度相关，有助于与文本模态对齐。然而，其主要缺点是丢失了细粒度的声学信息，限制了原始波形重建的质量。声学 token 则由神经音频编解码器生成，能够实现高保真音频重建，但难以与文本语义空间建立有效对齐。

MiMo-Audio-Tokenizer 将语义和声学统一，同时捕获语义信息并实现高保真音频重建，通过扩大模型参数规模和训练数据量，进一步缓解语义-声学表示冲突，从而提升跨模态对齐能力和语音重建质量。

架构

MiMo-Audio-Tokenizer 的架构由四个主要组件组成：音频编码器（audio encoder）、离散化模块（discretization module）、音频解码器（audio decoder）以及声码器（vocoder）。

音频编码器：双向注意力Transformer编码器，在输入和输出端各配备 2 层下采样，包含 32 层、20 个注意力头，使用 Rotary Position Embeddings（RoPE） 和 GELU 激活函数，模型维度设为 1280，前馈网络（FFN）内维度设为 5120。为缓解语义信息与声学信息之间的冲突，将第 3 层的隐藏状态通过元素级求和加入到最终层输出中。

离散化模块：20-layer残差向量量化器，前两层码本（codebook）大小为 1024，其余层码本大小为 128。

音频解码器：结构与编码器镜像，但采用因果自注意力（causal self-attention），以支持流式生成。

声码器：采用 Vocos 设计，将 ConvNeXt骨干替换为 Transformer，从而支持序列打包（sequence packing）以提高训练效率。Transformer 参数：16 层、16 个头，模型维度 256，FFN 维度 1024。集成 RoPE 与滑动窗口注意力（sliding window attention），窗口大小为 [40, 10]，分别对应 [6.4 秒, 1.6 秒] 的感受野。

前向流程：

对采样率为 24 kHz 的单通道音频波形 𝑋 进行梅尔谱图（melspectrogram）转换，帧率为 100 Hz。
将该谱图输入音频编码器，转化为长度为 𝑀 的连续表示序列（frame rate 25 Hz）。
离散化模块中的 RVQ 将连续表示量化为二维索引矩阵 𝐴 ∈ ℕ^{M×R}，其中 R 为 RVQ 层数。
利用码本查找并求和对应的嵌入向量，从而重建量化表示 Q。
最后，音频解码器和声码器根据 Q 重建音频波形 𝑋̂。

Training

采用两阶段训练范式（two-stage training paradigm）以提升训练效率，如图 2 所示。

阶段 1：

模型在大规模数据集上进行多任务学习（multi-task learning）[包括A2T跟语音重建任务]，训练数据规模扩展至 超过 1100 万小时。通过这一大规模训练，模型能够联合编码语义信息与声学信息，实现对音频信号的全面表征。

统一表示学习：在阶段 1 中，将音频重建任务（audio reconstruction task）与音频到文本任务（audio-to-text, A2T）结合，以对齐音频与文本的表示空间，同时确保声学信息的完整保留。为 A2T 任务提供监督，我们引入了一个 LLM，与 MiMo-Audio-Tokenizer 联合训练。MiMo-Audio-Tokenizer 与 LLM 的所有参数均 从零开始训练。

A2T 目标被形式化为 下一个 token 预测损失（next-token prediction loss），作用于 LLM 的文本输出，具体定义如下：

其中，𝑇 = [𝑡₁, …, 𝑡ₙ] 表示目标文本序列，Q̃ 表示量化后的音频表示，𝑁 为文本序列的总长度。对于音频重建任务，采用多尺度梅尔谱图重建损失，定义为 L₁ 距离（𝐿₁ distance）：

其中，S𝑖 表示尺度 𝑖 下的梅尔谱图（mel-spectrogram），具有 2^i 个频带，通过STFT, Short-Time Fourier Transform计算得到，窗长为 15·2^(i−1)，步长为 15·2^(i−2)。尺度集合定义为 𝑒 = {5, 6, 7}。

还额外增加一个训练loss：commitment loss，这个主要是约束encoder的输出和embedding空间保持一致，以避免encoder的输出变动较大（从一个embedding向量转向另外一个）。commitment loss也比较简单，直接计算encoder的输出ze(x)和对应的量化得到的embedding向量ek的L2误差：

阶段 1 的总损失被定义为各项损失的加权和：

阶段 2：

冻结音频编码器和离散化模块的参数。引入判别器训练音频解码器和声码器，重点提升原始音频波形的细粒度重建质量，并消除声码器生成的伪影（vocoding artifacts）。

对抗微调（Adversarial Fine-tuning）：引入了额外的判别器进行对抗训练（adversarial training），以提升音频波形重建质量。在该阶段，音频分词相关的所有参数均被冻结，以保持音频 token 空间的语义结构。

采用多任务 GAN 训练方案，联合优化以下目标：梅尔谱图重建损失、对抗损失、判别器特征匹配损失，为了在时域（time domain）和频域（frequency domain）同时提供监督，使用了Multi-Period Discriminator 和 Multi-Scale STFT Discriminator，训练框架采用 Hinge-GAN。

真实波形 𝑋与生成波形 𝑋̂，判别器的目标可被形式化为：

生成器的对抗目标：

特征匹配（feature matching）：

生成器的训练目标结合了多任务 GAN 训练中的各项损失：

Evaluation

使用说话人相似度、Short-Time Objective Intelligibility、语音质量感知评估来评估音频分词在保留声学信息方面的表现。考虑到下游 MiMo-Audio 模型仅使用 MiMo-Audio-Tokenizer 前八个码本（codebooks） 生成的音频 token，我们在评测中也仅使用这八个码本解码波形，从而真实反映下游语言模型可访问音频的保真度。

结果（Results）如 表 1 所示。MiMo-Audio-Tokenizer 在 Seed-TTS-Eval 上展现出出色的重建质量。关键在于，这些提升是在下游建模所使用的码本上测得的，说明 MiMo-Audio 完整保留了语音信息的声学特性，从而在各种语音任务中展现出强大的泛化能力。

MiMo-Audio

MiMo-Audio 是一个统一的生成式音频-语言模型（generative audio-language model），能够同时建模文本 token 与 音频 token 序列。

该模型既可以接收文本 token，也可以接收音频 token 作为输入，并以自回归的方式预测文本或音频 token，从而支持各种文本与音频模态任意组合的任务，例如：

语音识别（ASR）
语音合成（TTS）
语音翻译
声音编辑
多模态对话生成

这种统一建模方式使得 MiMo-Audio 能够在理解和生成任务之间实现无缝切换，成为通用的语音-语言基础模型。

𝑇 = [𝑡1, . . . , 𝑡𝑁] 表示文本序列，语音序列用 𝐴 = [𝐴1, . . . , 𝐴𝑀], 𝐴𝑖 ≜ (𝑎𝑖,1, . . . , 𝑎𝑖,𝑅′), 𝑁 表示文本序列长度，𝑀 表示音频序列长度，𝑅′ = 8 表示在大语言模型（LLM）训练中使用的 RVQ码本数量。

由于音频序列的信息密度较低，单个音频帧所包含的信息量远小于一个文本 token。
为了缓解不同模态间粒度不匹配的问题，并促进跨模态知识迁移，我们将音频序列划分为由连续 𝐺 个帧（frames） 组成的分组，称为 audio patches 。

𝑃 = [𝑃1, . . . , 𝑃𝑀/𝐺], 𝑃𝑖 = [𝐴(𝑖−1)𝐺+1, . . . , 𝐴𝑖𝐺].

MiMo-Audio 的输入是交错排列的文本 token 与音频 patch 序列 ，S=[s₁,…,s_L] 为交错序列，其中每个元素 s_i 要么是一个文本 token，要么是一个音频 patch。模型采用自回归方式进行训练：

这种统一建模策略使模型能够无缝处理任意的文本-音频混合序列。

MiMo-Audio 主要由三个核心组件构成：

Patch 编码器（Patch Encoder）
LLM 主干网络（LLM Backbone）
Patch 解码器（Patch Decoder）

Patch Encoder

Patch 编码器将每个 patch 内的音频 token 转换为一个隐藏向量。我们维护 R′ 个独立的embedding表{E_r}_r=1^R′，用于将音频 token 映射到对应的嵌入向量。对于每个音频 token a_i,r，其嵌入表示为： e_i,r=E_r(a_i,r)，然后，将该帧在所有 RVQ codebook 上的嵌入进行聚合，形成统一表示：

得到的每个 patch 内的序列会经过一个 Transformer 编码器，该编码器共有 Lenc=6 层。
每层的隐藏维度为 1024，注意力头数为 64，前馈层（FFN）的维度为 4096。该编码器采用双向自注意力（bidirectional self-attention），使模型能够捕获 patch 内帧级的局部上下文信息。随后，patch 中所有帧的输出被拼接并通过一个线性变换层，以匹配 LLM 输入的维度。

Large Language Model

采用 MiMo-7B-Base 作为 LLM 主干网络。该模型在每个位置上都可以接收两种类型的输入：

文本 token 的嵌入向量，或
由 patch 编码器生成的音频 patch 表示。

模型输出的隐藏状态（hidden states）可以有两种用途：

经过 输出投影层（output projection layer），用于 文本 token 预测；
或输入至 patch 解码器（patch decoder），用于 音频 patch 生成。

Patch Decoder

音频生成过程中，patch 解码器 以自回归（autoregressive）的方式在每个 patch 内生成音频 token。该解码器由 𝐿_dec = 16 层 Transformer 组成，每层的结构参数如下：

隐藏维度（hidden dimension）：1024
注意力头数（attention heads）：64
前馈层维度（FFN dimension）：4096

解码器的自注意力机制中采用 因果掩码，以确保生成过程的自回归特性。此外，patch 解码器与 patch 编码器共用相同的 𝑅′ 个embedding tables，每个嵌入表对应一个 RVQ 码本。为支持 RVQ token 的生成，Transformer 配备了 𝑅′ 个独立的输出头，每个输出头专门负责预测对应 RVQ 码本中的 token。

具体来说给定来自 LLM 的隐藏状态 h，设要生成的音频 patch 为 P=[A₁,A₂,…,A_G]，即由连续的音频帧组成。一个朴素的生成方式是：在时间维度上对每个音频帧进行自回归生成，其概率建模为：

其中，每个音频帧 A_i的概率又可以在 RVQ 的各个码本之间分解：

然而，由于 不同 RVQ 层（codebook layer）之间的 token 存在依赖关系，在每个时间步同时预测所有 RVQ token 会导致生成质量下降，音频往往不自然或带噪。

为缓解这一问题，论文引入了 音频 token 延迟生成机制。具体地，为每个 RVQ 层设置一个层特定的延迟向量：𝐷 = [𝑑1, . . . , 𝑑𝑅′],其中 dr表示 RVQ 第 r 层的生成延迟（以时间步为单位）。引入延迟后，延迟后的音频 patch 表示为：

其中：

其中，i∈[1,G+max⁡(D)]，r∈[1,R′]。符号 0 表示“空 token”，在编码和解码阶段都会被忽略。最终，patch 解码器（patch decoder） 按上述方式对延迟后的音频 patch 进行自回归建模，并在解码过程中保持相同的延迟模式，从而改善不同 RVQ 层之间的依赖建模和音频生成质量。

Pre-Training

Data

预训练语料库包含三类数据：单模态数据：文本-only、语音-only；多模态数据：语音–文本配对。语音模态目标是为模型提供大规模、高质量、多样化的音频数据。开发了一个完整的数据处理流水线用于确保预训练语料既丰富又可靠，为模型的语音理解与生成能力奠定坚实基础。

数据处理：

预训练数据包含数亿小时的“野外采集（in-the-wild）”音频数据，并确保数据在来源和内容上的多样性：

来源多样性：数据涵盖公开播客、有声书、新闻广播、访谈、会议录音等，保证模型不会偏特定的录音环境或说话风格。
内容多样性：数据涵盖的话题包括日常交流、娱乐媒体、商业与创业、艺术与文化、科学研究等。

为了将大规模原始音频转化为高质量训练数据，我们设计并实现了一个高效且可扩展的自动化流水线，包括以下模块：

音频标准化
说话人分离
语音活动检测
自动语音识别
音频质量评估

数据标注：

构建了一个自动化标注系统，覆盖语义（semantic）与非语义（non-semantic）两个维度，为每条数据生成丰富且结构化的属性标签：

语义维度：基于 ASR 等模块的转写结果，我们构建了文本质量评估模型（text quality assessment model）。该模型可以从多个角度对内容的语义价值进行评分，例如：

会话质量（conversational quality）
知识密度（knowledge density）
逻辑推理能力（logical reasoning）

非语义维度：为获取非语义层面的信息，我们训练了一个音频描述模型，模型能够直接生成音频的丰富自然语言描述：音色特征、情绪风格、背景环境。

双维度标注方法不仅可以评估数据质量，还为语料库提供了更细粒度的属性信息，从而支持更高效、目标更明确的筛选和训练。

数据整理

对多维度数据标注进行数据筛选采样。

低质量数据过滤:噪声过多/低质量音频/不安全内容
高质量数据采样:综合语义和非语义维度的评分指标，设计采样策略，确保模型能够高效地从高质量语料中学习。

训练

基于MiMo-7B-Base 模型 ，为了在最大程度保留其文本能力的同时，使模型具备语音理解与生成能力，MiMo-Audio 采用了渐进式的两阶段预训练方法。

理解阶段训练

在第一阶段中，我们训练模型的 patch encoder和 LLM 组件。该阶段的目标是让模型掌握语音理解能力。

我们共构建了一个 总计 2.6 万亿（T）token 的数据集，其中包括 1.2T 的文本 token 和 1.4T 的语音相关 token（以 6.25Hz 的语音帧率计算）。数据涵盖四种任务格式：

语音-文本交错数据
自动语音识别数据
通用音频描述数据
仅文本预训练数据

在该阶段中，我们仅对文本 token 计算损失（loss）。
如表 3 所示，patch encoder 的学习率设为 2e-4，LLM 的学习率设为 3e-5，并使用常数学习率调度器。每个 batch 包含 1680 万个 token，训练的上下文长度为 8192。

理解-生成联合训练

在第二阶段，我们训练模型的所有参数，包括 patch encoder、LLM 和 patch decoder。该阶段旨在赋予模型语音理解与生成的综合能力。

训练数据集
总计 5 万亿（T）token，其中 2.6T 为文本 token，2.4T 为音频 token（按 6.25Hz 语音帧率计算）。
数据涵盖七种任务格式：
- 语音续写
- 语音-文本交错数据
- 自动语音识别（ASR）
- 文本转语音（TTS）
- 通用音频描述
- 指令跟随 TTS（instruction-following TTS）
- 文本预训练数据
损失计算
对文本和音频 token同时计算损失。
- 文本 token 的损失权重为 100
- 各 RVQ token 的权重分别为 12, 8, 6, 4, 2, 2, 1, 1
学习率与调度（如表 3 所示）
- patch encoder 和 decoder 学习率：2e-4
- LLM 学习率：3e-5
- 学习率调度器采用 余弦衰减（cosine decay）
其他设置
- batch 大小和上下文长度与阶段 1 保持一致。

评估

我们对 MiMo-Audio-7B-Base 进行了两类评估：

少样本上下文学习评估（Few-Shot In-Context Learning Evaluation）
语音续写评估（Speech Continuation Evaluation）

Few-shot In-context Learning

从三个维度评估模型的语音–文本能力：

模态无关的通用知识
听觉理解与推理
语音到语音生成

模态无关的通用知识：模型无论输入或输出模态为何（语音或文本），都能访问并表达相同底层知识的能力。为了跨语音与文本评估这一能力，我们构建了 SpeechMMLU数据集：

基于 MMLU原始数据集，将问题与选项合成为语音，保持语义一致。按主题与长度筛选后，共包含 8,549 条样本，覆盖 34 个学科。使用多样化声音的商用 TTS 系统进行语音合成。数据集划分为四个平行子集，便于在相同问题下进行跨模态对照测试：

文本 → 文本（T2T）：评估模型是否在语音–文本联合预训练后仍保留文本理解与生成能力；同时为语音相关任务提供性能上界参考。
语音 → 文本（S2T）：衡量模型从语音输入中提取语义并以文本输出作答的能力，反映语音到语义映射的跨模态代价。
文本 → 语音（T2S）：检验模型能否在文本到语音生成中保持语义一致性与表达可控性。
语音 → 语音（S2S）：综合测量模型在端到端语音交互中的潜力，完整覆盖“听—思考—说”的循环过程。

听觉理解与推理：基于MMAU数据集，包含 音频信息抽取 与 推理问答 两类任务，覆盖语音、环境声音、音乐三个领域。

语音到语音生成：MiMo-Audio 使用高保真音频 token 表征语音，这些 token 既用于感知，也用于生成，构成了语音理解与生成的统一接口。这种机制将预训练过程视为对大规模语音语料的高保真压缩。我们假设：只要压缩机制足够有效，模型便能自然地具备上下文学习（in-context learning）能力，并能在无需参数更新的情况下泛化至各种下游语音到语音任务。

为验证这一假设，我们设计了一种 few-shot 语音到语音生成评测协议：

模型仅以配对语音示例（speech exemplars） 作为上下文条件；
无需文本提示或梯度更新；
直接生成目标语音。

语音续写

“续写”能力是自回归语言模型的基础能力之一。通过在大规模文本语料上进行生成式预训练，诸如 GPT-3等文本语言模型能够从输入提示中生成语义连贯的文本续写。

MiMo-Audio 经过在大规模语音语料上的生成式预训练，对高保真音频 token 进行语言建模，从而具备了通用的语音续写能力：
当输入一段简短的语音提示时，MiMo-Audio-7B-Base 能够生成在语义上连贯且在声学特征上自然衔接的续写语音，同时保持输入语音的关键声学属性，包括：

说话人特征 —— 如身份、音色等个体化特征；
韵律特征 —— 包括节奏、语调与语速；
环境声学特征 —— 包括空间声效与非语音音素（如掌声、笑声、叹息声等）。

为评估这种能力，我们从多个领域采集了语音提示样本，涵盖：

单人独白类：脱口秀、公众演讲、新闻播报、诗歌朗诵、有声书叙述、学术讲座；
多人对话类：辩论、访谈、戏剧表演。

结果

涌现能力：在多个评测基准上观察到了显著的能力涌现现象，包括 5-shot SpeechMMLU（T2S 与 S2S）、16-shot 语音转换、以及 16-shot 语音到语音翻译。

在训练的早期阶段（即当训练数据量尚未达到约 0.7 万亿 tokens 时），模型在这些任务上的表现几乎可以忽略不计，表明它尚未具备解决这些复杂任务所需的基本原子能力。
然而，当训练数据规模超过这一临界阈值后，模型的性能出现了显著的非线性跃升，表现出典型的“相变”特征。

在经历这一突变后，模型性能持续稳步提升，并最终趋于稳定，表明模型已经完全掌握并巩固了这一新能力。这种从近乎零起点的能力涌现，而非循序渐进的提升，直接体现了模型通过大规模学习自主形成高级泛化能力的过程。
这一发现强有力地支持了我们的核心观点：

这标志着语音领域的 “GPT-3 时刻”——
通过足够大规模、无损压缩式的预训练，模型能够自发学会解决复杂、前所未见的任务，从而实现任务泛化。

语音智能：MiMo-Audio 模型在语音智能任务中展现出了卓越的性能，其优势主要体现在SpeechMMLU 得分和模态差距两个关键维度

1、SpeechMMLU 评估模型直接以语音作为输入或输出时，执行复杂推理与知识问答（QA）任务的能力。MiMo-Audio 在三个主要指标上均取得了最高分

相比之下：

Step-Audio2 mini-base 虽在 S2T 上取得了 67.8 的相对竞争力成绩，但在 S2S 上骤降至 51.8，显示出跨任务不稳定性。
Kimi-Audio-base 在 S2T 上表现一般（67.9），但在 S2S 上存在明显短板。
Baichuan-Audio-base 在两项任务中表现均较低（31.9 与 29.9）。

综上，MiMo-Audio 是唯一能在所有语音推理任务中保持高水平性能的模型，体现了其在语音理解与生成间的深度整合能力。

模态差距：模态差距衡量模型在语音模态与文本模态间能力一致性的程度。

Modality Gap = Text2Text Score − Speech2Speech (S2S) Score

结果如下：

MiMo-Audio：3.4
Step-Audio2 mini-base：22.3
Kimi-Audio-base：58.9
Baichuan-Audio-base：39.2

MiMo-Audio 的模态差距最小，说明其在语音与文本两种输入模态之间能高度保持一致的推理与理解能力。这也表明其模型架构设计在跨模态知识迁移与能力保持方面最为高效，有效实现了语音与语言智能的统一。

通用音频理解：MiMo-Audio 在当前所有开源模型中展现出了最强的通用音频理解能力。
这一优势不仅体现在整体得分上，也体现在各子任务上的性能均衡性。在 MMAU 总得分 上，MiMo-Audio 取得了 66.0 分，比排名第二的 Step-Audio2 mini-base（60.3 分） 高出 5.7 分。相比 Kimi-Audio-base（28.6 分） 和 Baichuan-Audio-base（25.9 分），MiMo-Audio 的成绩有显著优势。这种总分上的领先直观地体现了模型整体性能的优越性。

MiMo-Audio 在通用音频理解上表现尤为突出，展现出均衡且稳健的能力分布：

语音（Speech）：67.6
音效（Sound Effects）：65.2
音乐（Music）：65.3

三者之间没有明显短板，说明模型在多类型音频场景中都能保持高质量表现。

语音任务泛化：16-shot in-context learning 设置下，模型在语音转换（Voice Conversion）和语音到语音翻译（Speech-to-Speech Translation）任务中的结果说明：MiMo-Audio 的语音到语音生成能力与模态无关知识能力在相似的训练规模上同时出现。这种一致性表明，模型在大规模训练中正在形成一种统一的语音理解能力，能够泛化至控制层面的语音特征变换，如说话人身份、情感、语速等。

语音续写：在多种场景下（游戏直播、教学、朗诵、歌唱、脱口秀、辩论等），
MiMo-Audio-Base 都能进行自然流畅的语音续写，无需任何参数调整。

具体表现包括：

歌唱续写：生成旋律连贯、音色悦耳的歌声；
脱口秀续写：在适当时机生成观众掌声与笑声；
双人辩论续写：生成两人立场一致、语义流畅、韵律平衡的对话；
方言续写：保持一致的口音特征；
游戏直播 / 教学场景：生成具备情绪张力和口语化表达的语音，适时插入语气词或结巴；
朗诵续写：生成具备专业朗诵语气和情感表达的语音。

Post-Training

Data

后训练阶段的数据策略目标，是通过一系列有监督的指令微调数据集，激活预训练模型在不同任务上的理解与生成能力。

音频理解

为了激活模型的音频理解与推理能力，我们整合了多个涵盖语音、声音和音乐的开源数据集。针对这些数据中存在的标签噪声与任务单一性问题，我们设计了一套基于 LLM 的数据清洗与增强管线。通过该管线，我们生成了大量多样化的音频理解数据，涵盖任务类型包括音频描述与音频问答等。

语音生成

为了激活模型的语音生成能力，我们从预训练数据中提取了一个高质量语音子集，并基于音频描述构建了指令数据。
在这一任务中，模型需要根据给定的文本指令生成匹配的音频。这种训练方式旨在增强模型的指令遵循能力，从而实现可控且高质量的语音生成。

口语对话

为了激活模型在不同对话场景下生成多样化、富有表现力语音的能力，我们构建了一个大规模口语对话数据集，涵盖单轮与多轮对话。这些对话包含用户提问与助手回复，内容主要来源于经过严格筛选的文本数据，以确保质量可靠。

为使 MiMo-Audio 能适应多样化的会话风格，我们首先对问答对进行口语化风格重写，然后使用内部的 MiMo-TTS 系统合成具有相应风格与情感的语音。
在合成过程中，我们从包含大量音色的语音库中随机选择提示音频（prompt audio），以覆盖不同的声音表现力范围。

训练

在后训练阶段，模型的所有参数——包括 patch encoder（音频块编码器）、LLM（语言模型） 和 patch decoder（音频块解码器）——都进行了微调。

为此，我们构建了一个规模达 1000 亿 tokens 的综合训练数据集，涵盖以下 六种任务形式：

自动语音识别（ASR）
语音合成（TTS）
音频理解（Audio Understanding）
口语对话（Spoken Dialogue）
指令驱动语音生成（Instruction-Following TTS）
文本对话（Text Dialogue）

其中，ASR、TTS 和文本对话的数据来源于开源数据集；而其余任务使用了上面中介绍的高质量自建数据集。

在损失加权方面，文本 token 的权重设为 100，音频 token 的权重分别为 12、8、6、4、2、2、1、1，与预训练第二阶段保持一致。

模型的训练上下文长度为 8192 tokens，batch size为 210 万 tokens。

评估

在后训练阶段完成后，我们对 MiMo-Audio-7B-Instruct 模型进行了系统性的综合评估，涵盖了以下主要任务领域：

音频理解
口语对话
语音识别与生成（Speech Recognition & Generation）

各类任务的具体评测配置列于 表 7。

音频理解：采用MMSU 基准评估多任务语音理解，采用MMAU基准评估声音/音乐等更广泛的音频理解任务。采用 MMAR和 MMAU-Pro基准用于评估模型处理混合音频输入（如语音、音乐与环境音）以及理解音频知识的能力。

口语对话：借鉴 OpenAI 的评估流程来评估模型在多轮对话中遵循用户指令与完成任务的能力。使用 Big Bench Audio基准衡量音频语言模型的智能水平，模型的回答质量通过基于 GPT 的自动评估获得。对于语音形式的回答，首先使用 Whisper-Large-V3模型将其转写为文本，然后由 GPT-4o-mini 进行质量评估。为了测试模型在更复杂对话任务中的表现，使用 Multi-Challenge 数据集，该数据集要求模型生成与上下文语义一致的、符合情境的对话回应，以评估模型的多轮语音交互能力，对该数据集进行语音版本转换，构建了 MultiChallenge Audio：

S2T（speech-to-text）：对话历史以文本形式呈现；
S2S（speech-to-speech）：对话历史完全以语音形式呈现。

语音识别与生成：ASR采用了广泛使用的 LibriSpeech test-clean 集合来评估英语识别性能，并使用 AISHELL-1 测试集来评估中文识别性能。ASR 任务的评估指标为 词错误率（WER）。除了识别能力外，我们还评估了 MiMo-Audio-7B-Instruct 的语音生成能力。
首先，在 SeedTTS基准上测试其 TTS 性能，该基准涵盖中英文两个子集，并包含一个更具挑战性的中文 hardcase 子集。除传统的 TTS 评估外，我们还在 InstructTTSEval 基准上进行了更高级别的测试，用以衡量模型根据自然语言风格控制指令生成相应语音的能力，从而联合评估其保真度与表达力。

在 TTS 任务中，同样采用 WER 作为基本评价指标：生成的语音首先通过 ASR 模型转录为文本，然后与参考文本进行比较。此外，InstructTTSEval 还利用基于 Gemini 的评分体系进一步评估生成语音与输入指令之间的匹配度，从而更全面地反映模型的语音生成理解与控制能力。

结果

在音频理解任务中，如表 8 所示，MiMo-Audio-7B-Instruct 在 MMSU 和 MMAU 基准上的结果显示出卓越表现，在语音、音频与音乐问答任务上均取得领先成绩。该模型在这两个基准上的总体得分不仅超过了所有开源模型，也超过了部分闭源模型，如 Gemini 2.5 Flash 和 Gemini 1.5 Pro。

对于更具挑战性的音频推理任务，MiMo-Audio-7B-Instruct 在 MMAU-Pro 和 MMAR 基准上同样表现领先，其结果已接近 Gemini 2.5 Flash。这些结果共同表明，MiMo-Audio-7B-Instruct 是一个通用且强大的音频理解模型，具备广泛的跨模态推理与理解能力。

口语对话:MiMo-Audio-7B-Instruct 在 Big-Bench-Audio 与 Multi-Challenge-Audio 两个任务上，均在开源模型中表现最佳，并且性能接近闭源模型 gpt-4o。在 Big-Bench-Audio 基准上，MiMo-Audio-7B-Instruct 分别取得 72.90（S2T） 和 60.20（S2S） 的分数，仅次于 gpt-4o，但显著优于所有其他开源模型。同样地，在 Multi-Challenge-Audio 基准上，该模型分别取得 15.15（S2T） 与 10.10（S2S），再次以明显优势领先开源阵营。

总体而言，MiMo-Audio-7B-Instruct 不仅在开源模型中遥遥领先，还进一步缩小了与最先进的闭源模型 gpt-4o 之间的差距，展现出极强的竞争力与实际应用潜力。

语音识别与生成（Speech Recognition and Generation）
如表 9 所示，MiMo-Audio-7B-Instruct 在开源大规模语音模型中，在 ASR（语音识别） 和 TTS（语音合成） 任务上均展现出强劲性能。

在 ASR 与 TTS 的基准测试中，其表现与其他开源模型（如 Step-Audio2-mini 和 Kimi-Audio-Instruct）相当。但在 InstructTTS 评测中，MiMo-Audio-7B-Instruct 在英语与中文两个子集上均超越了 gpt-4o-mini-tts，尤其在综合指标上表现尤为突出。这些结果充分证明了 MiMo-Audio-7B-Instruct 在可控文本转语音生成方面的高效性，确立了其作为领先的开源语音生成解决方案的地位

结论

在本研究中，我们展示了在大规模、无损音频数据上进行“下一个 token 预测”预训练，是实现通用语音智能的可行路径。通过在超过 1 亿小时的前所未有的数据语料上进行预训练，MiMo-Audio 成功突破了现有音频语言模型以任务特定微调为主的局限性。

主要贡献是实证验证了在语音领域同样可以出现类似 GPT-3 的“临界时刻”。我们观察到，在跨越关键数据量阈值后，模型的少样本学习能力显著涌现，使其能够在无需任务特定训练的情况下泛化到广泛任务，包括复杂的语音转换、风格迁移以及语音编辑等。此外，我们提出了这一范式的完整蓝图，包括：新颖的统一高保真音频编码器、可扩展模型架构以及分阶段训练策略。MiMo-Audio-7B-Instruct 在多个基准测试中取得了最先进的性能，并可与闭源系统媲美。

总体而言，本研究为构建真正多功能的音频语言模型提供了基础方法论。我们认为，这标志着向创建更自然、灵活、智能的系统迈出了重要一步，使其能够以类人适应性理解和生成语音。

限制与未来工作

有限的上下文学习能力
MiMo-Audio-Base 的上下文学习能力仍受限。虽然预训练模型可以通过上下文学习完成许多超出预训练范围的新任务，但在某些场景下表现不佳，例如带背景音乐的语音生成和复杂声事件的处理。未来，我们计划提升 MiMo-Audio 在通用音频生成方面的能力。

不稳定的语音对话性能
MiMo-Audio-Instruct 在语音对话中存在一些限制，包括音色不连续、音质不稳定、发音错误以及对系统提示的响应不一致。尤其在复杂符号和公式的发音上容易出错，对话中的风格控制也不稳定。未来，我们将利用强化学习（RL）来提高模型性能的稳定性。

有限的思维能力表现
在引入思维机制后，MiMo-Audio-Instruct 仅在语音相关理解任务中表现改善，而在声音与音乐理解任务中性能反而下降。我们对失败案例分析发现，这种现象源于模型在思维过程中产生的幻觉。未来，我们计划通过强化学习（RL）进一步增强模型的音频理解能力。

WenetSpeech-Chuan：用于方言语音处理的大规模、注释丰富的四川话语料库

📑 Paper | 🐙 GitHub | 🤗 HuggingFace
🎤 Demo Page | 💬 Contact Us

WenetSpeech-Chuan 包含10000小时大规模川渝方言语音语料，标注丰富，是目前川渝方言语音研究最大的开源资源。涵盖十大领域：短视频、娱乐、直播、纪录片、有声读物、戏剧、访谈、新闻等。开发并开源了Chuan-Pipeilne(方言语音数据处理框架)， 收集了大规模的、自然界中的语音录音，涵盖故事讲述、戏剧、评论、视频博客、美食、娱乐、新闻和教育等多个领域。这些长录音通过语音音频检测 (VAD) 被分割成短片段，从而生成用于转录和质量评估的话语级数据。

Chuan-Pipeline

Chuan-Pipeline流程能系统地将原始、未标注的音频转化为一个内容丰富、标注完善的语料库，用于语音识别（ASR）和语音合成（TTS）。

Pre-Processing and Labeling

管道的初始阶段主要关注数据获取、分割，以及为语音片段添加多维副语言标签。原始数据的获取始于从在线视频平台挖掘元数据，以识别可能包含四川方言的内容。经过初步人工审核以确认目标方言的存在后，获取的音频流将进入多阶段处理流程：

VAD 与分割：使用语音活动检测（VAD）将长音频流切分为 5–25 秒的片段，同时去除沉默和噪声等非语音部分。
单说话人选择与聚类：首先使用 pyannote 工具包隔离单说话人片段。随后，使用 CAM++ 模型提取说话人嵌入，并进行聚类，为同一说话人的所有语句分配一致的说话人 ID。
副语言注释：

性别识别：使用预训练分类器（准确率 98.7%）确定说话人性别。
年龄估计：基于 Vox-Profile 基准评测，将年龄划分为儿童、青少年、青年、中年和老年阶段。
情绪标注：通过 Emotion2vec 和 SenseVoice 的预测结果进行多数表决，覆盖七类情绪：高兴、愤怒、悲伤、中性、恐惧、惊讶和厌恶。

质量评估

自动化质量评估：用时间戳对齐的语音作为输入，提取音频时长和信噪比（SNR）等指标。随后，这些特征用于计算词级虚拟主观评价分数（WVMOS），作为感知音频质量的替代指标。低质量的音频样本将被丢弃。

LLM-GER纠错处理

为了提高自动语音识别（ASR）转写的准确性，并在已有研究的基础上，我们提出了一套针对四川方言的鲁棒 ASR 转写框架。我们的方法被称为 基于大语言模型生成的错误纠正 ROVER（LLM Generative Error Correction based ROVER, LLM-GER），旨在将多个 ASR 系统的输出融合为单一、准确且可靠的转写结果。

首先，三套不同的 ASR 系统（FireRed-ASR、SenseVoice-Small 和 TeleASR）生成初步候选转写。随后，这些转写由 Qwen3 进行融合，利用其强大的方言理解能力，并结合我们精心设计的提示（prompt）进行错误纠正，同时保持原始语义和 token 长度不变。

通过这种方法，充分发挥了大语言模型（LLM）在规范化四川方言表达方面的能力，同时整合了多套 ASR 系统的互补优势。这样的组合为 WenetSpeech-Chuan 数据集生成了高质量的转写结果。对测试集的计算结果显示，与单一 ASR 系统的转写相比，LLM-GER 平均可将转写准确率提高约 15%。

标点符号预测

带标点的准确转写对于 TTS 训练至关重要，但仅依靠文本的标点预测往往与实际语音停顿不匹配。为此，我们提出了一种结合音频与文本模态的多模态标点预测方法。

在音频模态方面，我们使用 Kaldi 模型对音频与文本进行强制对齐，从而获得每个词的时间戳和停顿时长，并根据阈值将停顿划分为短停顿或长停顿（例如，短停顿 0.25 秒，长停顿 0.5 秒）。

在文本模态方面，我们使用 BiLSTM 标点模型在停顿候选位置预测标点：短停顿对应逗号，长停顿对应句号、问号或感叹号。阈值通过人工反馈进行迭代优化，以确保标点与实际语音停顿保持一致。

ps：该方法存在的的问题：由于不涉及语音信息，单模态模型时常无法获知说话人的情感态度，这会导致模型在一些句子末尾难以抉择以句号还是问号作为结束符。

WenetSpeech-Chuan Corpus

通过将 Chuan-Pipeline 应用于收集到的多源原始数据，我们构建了 WenetSpeech-Chuan 语料库，这是一个面向四川方言的大规模、多标签、多领域的资源。本节将详细介绍该语料库，包括其元数据、音频格式、数据多样性以及训练集和评估集的设计原则。

为每个音频片段分配一个置信度，用于衡量自动语音识别（ASR）转录的质量。如表 1 所示，我们选取了 3,714 小时的强标签数据（Strong Label），其置信度大于 0.90。 6,299 小时的弱标签数据（Weak Label），置信度介于 0.60 与 0.90 之间，被保存在我们的元数据中，用于半监督训练或其他用途。总的来说，WenetSpeech-Chuan 共包含 10,013 小时的原始音频。

WenetSpeech-Chuan 的来源领域，共包含 9 个类别。其中，短视频占比最大（52.83%），其次是 娱乐（20.08%） 和 直播（18.35%）。其他领域包括纪录片、有声书、访谈、新闻、朗读和电视剧，占比较小，但提升了数据集的多样性。

基于 WVMOS 指标 计算得到的音频质量评分主要集中在 2.5 到 4.0 区间，其中 3.0 到 3.5 之间存在一个显著峰值。这一分布表明，语料库的大部分音频属于 中高质量语音，在干净录音与真实环境声学条件之间取得了平衡，从而使其在训练通用语音模型时具备较强的鲁棒性。

WenetSpeech-Chuan Eval Benchmark：

ASR 评测集：人工标注9.7 小时的评测集划分为 Easy 和 Hard 两个子集

TTS 评测集：

WSC-Eval-TTS-easy：包含来自多个领域的方言词句子；
WSC-Eval-TTS-hard：由长句子和大语言模型（LLM）生成的多样化风格句子组成，例如绕口令、俗语和情感化语音。

Experiments

ASR

如表 3 所示，不同类型的模型在四川方言测试集上的表现存在差异。首先，在所有开源模型中，FireRedASR 在多个评测集上表现出相对稳定的识别性能。值得注意的是，FireRedASR-AED 在所有测试集上的平均词错误率（WER）为 15.14%，成为表现最优的开源模型。相比之下，Qwen2.5-omni 和 kimi-audio 等模型在 MagicData-Dialogue 测试集 上的错误率显著偏高，表明其对方言语音的适应性不足。

我们经过微调的模型展现出明显的性能提升。在 WenetSpeech-Chuan 上对 Paraformer 和 Qwen2.5-omni 进行微调后，整体性能分别提升了 11.7% 和 11.02% ，彰显了 WenetSpeech-Chuan 在提升方言识别能力方面的显著效果。此外，在额外使用 1000 小时内部数据进行持续微调后，Paraformer 在所有测试集上均达到了 13.38% 的平均 CER，达到了当前最佳水平，这证明了 ASR 模型在使用高质量方言数据训练时具有强大的迁移能力和适应性。

综上所述，我们的评估结果清楚地表明，在保持普通话识别能力没有明显下降的同时，WenetSpeech-Chuan 大大增强了模型识别四川方言的能力。

Speech Synthesis

CosyVoice2-WSC 在客观和主观指标上均展现出极具竞争力的表现。在简单分类下，其 CER 达到 4.28%，接近 Qwen-TTS 的 4.13%，同时实现了更高的感知质量和最佳的说话人相似度。在困难分类下，其 CER 上升至 8.78%，而 Qwen-TTS 仅为 7.35%，但仍保持了更高的感知质量，SIM 高于 62%，在挑战性场景中展现出更佳的鲁棒性。

与错误率较高的 Step-Audio-TTS 和 CosyVoice2 基线相比，CosyVoice2-WSC 在准确率和感知质量之间取得了更佳的平衡。经过微调后，CosyVoice2-WSC-SFT 取得了进一步的提升。在简单划分中，其 CER 最低，为 4.08%，SIM 最高，为 78.84%，同时 MOS 家族得分也处于领先地位。在困难划分中，其 CER 降至 7.22%，并保持了最佳 AMOS 得分，这表明微调能够同时提升准确率和感知质量。

总而言之，这些结果证实了 WenetSpeech-Chuan 数据集为构建稳健、高质量的四川方言 TTS 系统奠定了坚实的基础。

结论

WenetSpeech-Chuan，这是目前中国最大的四川方言开源语料库，包含超过 10,000 小时的多维语音标注。为了构建该数据集，我们开发了 Chuan-Pipeline，这是一个功能全面的数据处理工具包，能够支持这一大规模资源的创建。

Introduction

Methodology

Speech Tokenization and Detokenization

Dual-Resolution Speech Representations (DRSR)

Multimodal Large Language Model (MLLM)

Post-Training

预对齐阶段

Core-Cocktail 训练阶段

多任务 DPO 训练

全双工交互训练

Experiments

评估任务和指标：

结果

限制

Introduction

Methodology

基线音频 LLM：

LAL：轻量级音频-LLM 集成方法：

PAL：一种面向编码器的、在 LAL 基础上扩展语音理解能力的架构

实验

LAL：实验设置

PAL：实验设置

总结：

PS：数据集说明：

Introduction

模型架构

多阶段训练策略

数据构成

Experiments

实现细节

评估指标

实验结果

Performance without Speaker Registration

Performance with Speaker Registration

Impact of Embedding Extractors

Training Pseudo-code

无注册/匹配注册/过度注册任务配置：

Prompts for LLMs

Introduction

Architecture

Audio Transformer (AuT)

Perceivation (感知)

Speech Generation

流式与并发设计

Pretraining

后训练

Thinker

Talker

Captioner

Evaluation

X→Text 评估

X→Speech 评估

跨模态性能不退化评估

结论：

相关知识补充：

Architecture

Data

训练

Evaluation

Introduction

预训练

后训练

主要贡献

Model Architecture

MiMo-Audio-Tokenizer

架构

Training

Evaluation

MiMo-Audio

Patch Encoder

Large Language Model

Patch Decoder

Pre-Training

Data

训练

理解阶段训练

理解-生成联合训练

评估

Few-shot In-context Learning

语音续写