PAL: 探索如何在音频与LLM之间实现高效的语义信息传递

如何设计音频编码器与 LLM 的集成架构,使得 LLM 能够高效、准确地从音频编码中“探测”出与文本查询相关的信息?

如何将丰富的音频语义高效地从音频编码器传递到 LLM 中,仍然缺乏系统性的研究。目前最常用的集成范式,是将音频编码器输出的 token 映射到 LLM 的输入 token 空间(例如通过 MLP 或 Q-Former),并将其前置或插入到文本 token 序列中。将这一通用方案称为 PLITS(Prepend to the LLM’s Input Token Space)集成方式

论文提出了一种高效的替代方案——轻量级音频 LLM 集成方法(Lightweight Audio LLM Integration,LAL)。LAL 仅通过 LLM 不同层中的注意力机制引入音频表示,而绕过其前馈网络模块。该方法能够在合适的抽象层级上对丰富的音频语义进行编码,从而有效地将其集成到 LLM 的不同模块中。与现有的集成方式相比,该设计显著降低了计算开销。

在完全相同的训练流程下,LAL 在多种基础 LLM 和任务上均能够保持与现有集成方法相当的性能,甚至取得更优表现。对于通用音频任务,LAL 相较于强 PLITS 基线模型的性能提升最高可达 30%,同时内存占用最多降低 64.1%,吞吐量最高提升 247.5%。此外,在通用音频-音乐-语音 LLM 场景下,PAL 的性能与完全基于 PLITS 集成的系统相当,但在计算效率和内存效率方面具有显著优势。

LLM 中内在的两类知识:(1)参数化知识,主要源于大规模语言预训练并嵌入于 FFN 层中;(2)上下文知识,通过注意力机制动态地引入和调制。 音频输入作为一种上下文信息,可以仅通过基于注意力的调制,在文本 token 表征中激活所需的概念,而无需对音频表示进行直接的 FFN 处理。由此,音频信息得以间接访问 LLM 的参数化知识:音频上下文“搭载”在文本 token 之上,注意力机制对其表征进行重构,进而在 FFN 处理中触发与相关概念对应的路径。该策略不仅在架构效率上具有优势,也为多模态信息融合机制提供了更为深入的理解。

Introduction

两种主流的架构范式:

  • PLITS(Prepend to the LLM’s Input Token Space)集成方式。将一个或多个音频编码器的输出映射到 LLM 的输入空间(例如通过 MLP、Q-Former),随后将这些音频 token 前置或插入到文本 token 序列中,并将整个序列作为统一输入。
  • Flamingo 风格的架构。在相邻的 LLM 层之间插入交叉注意力(cross-attention)和前馈网络(FFN)模块。在每一次插入中,文本 token 首先对一组潜在的音频 token 进行注意力计算,随后通过该模块中的 FFN,最后再进入下一层 LLM。缺点:交叉注意力与 FFN 模块的交错堆叠会增加模型的顺序深度以及单层计算量,从而可能减慢前向传播速度。

本文提出了 LAL,一种轻量级的集成方式,其仅将音频 token 作为 Key和值Value 注入到 LLM 的注意力模块中(不构造音频查询 Query),并且使音频 token 绕过 LLM 的前馈网络(FFN)。这种设计将注意力计算复杂度从

O((Na​+Nt​)2)

降低至 O((Na​+Nt​)Nt​),

其中 Na​ 和 Nt分别表示音频 token 与文本 token 的数量。由于在实际场景中通常满足 NaNt ​,该设计能够带来显著的计算效率提升。LAL 在内存占用和计算量方面均实现了显著降低。与 LoRA 等参数高效训练方法不同,LAL 属于一种核心架构层面的改动,因此其带来的效率优势不仅体现在训练阶段,同样适用于推理阶段。

PLITS 与 Flamingo 类集成方法代表了从音频编码器中提取信息的两种互补策略。LAL 通过限制音频 token 与 LLM 的交互方式,提供了一种计算与内存高效的机制;而在 PLITS 风格的集成下,某些音频编码器则可以从 LLM 内部更丰富的解码过程中获益。具体而言,采用语言对比学习或自监督目标训练的编码器(如 CLAP、SSLAM)更适合使用 LAL 集成方式;而 Whisper 由于其采用自回归语音到文本转写及下一 token 预测目标进行预训练,则能够从 PLITS 风格集成所提供的额外解码能力中获得更多收益

基于上述观察,本文提出了一种 LAL 与 PLITS 相结合的混合集成框架——PAL,用于构建通用的音频、音乐和语音 LLM。该框架实现了一种面向音频编码器感知的融合策略,在效率与性能之间取得平衡。与单独采用 PLITS 集成方式相比,该设计在显著降低计算与内存开销的同时,仍能获得强劲的性能表现。实验系统地探索了性能与效率之间的权衡关系,揭示了面向编码器感知的融合策略如何在最小参数开销的前提下,实现音频编码器向 LLM 的高效信息传递。

Methodology

以当前最先进的集成方式 PLITS 作为基线方法,LAL 为本文提出的方法,PAL 为二者的混合方案。需要说明的是,文中使用 LAL 和 PAL 同时指代集成策略本身以及相应的音频-LLM 模型。

在音频编码器方面,采用 SSLAM 和 CLAP,并使用一种高效的、基于 Q-Former 的连接器来融合二者的信息,在不增加 token 数量的情况下完成融合,称为 LFST。若未使用 LFST,则音频编码器默认为 SSLAM;当使用 LFST 时,则表示 SSLAM 与 CLAP 的组合。

CLAP

关于 LFST 的 连接器:

用于融合语言对齐的编码器(如 CLAP)与自监督编码器(如 SSLAM)。该连接器生成一组紧凑的潜在 token,既融合了 CLAP 的语义信息,又保留了 SSLAM 的细粒度时空特征,同时保持序列长度固定,避免了简单拼接带来的计算开销。

编码器输出为:

其中 F表示频率,T表示时间,d 表示特征维度。单个潜在 token z会广播到每一个时空位置,从而得到每个 zf,t

在连接器内部,该模块包含 3 层交叉注意力(cross attention)层,每个 zf,t 会通过与对应局部区域的 HsslamHclap​ 的交叉注意力进行更新。

为了在跨 (F,T)扁平化时保留时间结构,我们在频率轴上插入换行符(newline token),使得每一个新的时间步以该标记开头,然后才是其频谱 token

基线音频 LLM:

将音频 token 前置到 LLM 输入空间(PLITS):将音频 token 前置到 LLM 输入 token 空间的基线音频 LLM 作为基准。

音频编码器的输出首先通过一个 Q-Former 连接器映射到 LLM 的输入嵌入空间,生成音频 token。随后,这些音频 token 被直接拼接在文本 token 之前,形成一个联合序列,并共同经过 LLM 的所有层进行处理,从而实现音频与文本的联合解码。该范式的核心特征在于音频 token 向 LLM 提供的方式——即作为前置 token 与文本一同输入。

LAL:轻量级音频-LLM 集成方法

有研究表明,LLM 会将语义编码为可在隐藏状态中被选择性激活的特征。基于这一观点,提出如下假设:有效的音频-LLM 集成,并不需要对 LLM 做复杂改动,而是需要音频 token 能够触发文本 token embding 中与声音相关的概念特征。

换言之,不同的听觉输入应当在文本表示中激活相应的语言概念。例如,当输入中包含狗叫声时,与“狗”这一概念相关的特征应被激活,使模型能够将听觉信号锚定到语言层面,并正确回答诸如“当前包含哪种动物的声音?”这样的问题。该假设直接指导了我们的架构设计目标:寻找一条最简单、但又能可靠地将音频线索传递到承载语义概念的文本特征中的路径。

一个标准的 LLM 层由注意力子模块和前馈网络(FFN)子模块组成。由于注意力机制负责 token 之间的信息交互,它是音频影响文本的必要通道;同时我们认为,仅通过注意力机制,文本 token 便足以从音频中获取所需信息

基于这一原则,我们提出了 LAL(Lightweight Audio LLM integration)。与基线方法类似,首先通过一个共享的 Q-Former 生成音频 token;在 LLM 的每一层中,使用一个 MLP 将这些音频 token 投影到该层的输入空间。随后,音频信息仅以 Key 和 Value 的形式注入到注意力模块中,而 Query 仍然仅由文本 token 构成。这样,音频只会调制文本 token 的注意力上下文,而不会经过 LLM 的前馈网络,从而实现更高效的音频-文本融合。

设第 l 层的文本隐藏状态为:Hlt​∈RNt​×d, Q-Former 输出的音频特征为 A∈RNa​×da​.在每一层引入一个投影器:Pl​:Rda​→Rd,将音频特征映射到该层的表示空间:

随后,在 token 维度上将文本与音频表示进行拼接:

如图 2(B) 所示,Query 仅由文本 token 生成,而 Key 和 Value 则由拼接后的序列计算:

由此得到文本 token 的 LAL 更新形式为:

更新后的H~lt随后按照标准做法进入 FFN,并结合残差连接进行处理。通过这种方式,音频信息仅通过注意力上下文影响文本 token,使由音频激活的特征与其对应的语言概念对齐,从而实现有效的跨模态信息传递。

计算与内存效率

与 PLITS 以及 Flamingo 风格架构相比,LAL 在三个方面显著提升了效率,且随着音频序列长度的增加,这些优势会进一步放大。实验中,我们观察到最高可达 64.1% 的显存占用降低,以及最高 247.5% 的训练吞吐提升(samples/sec)。

注意力复杂度

  • PLITS:在 Na+Nt​ 个 token 上执行完整的因果注意力,计算复杂度为:
  • LAL:仅文本 token 生成 Query,Key 和 Value 包含音频与文本,复杂度为

从而消除了 Na2项以及所有音频—音频之间的注意力交互。

前馈网络(FFN):

  • PLITS:音频 token 在每一层中既参与注意力计算,又通过 FFN,导致浮点运算量和激活存储随 NaN_aNa​ 成比例增长。
  • LAL:音频 token 不进入 FFN,仅作为 Key 和 Value 服务于文本 Query,从而减少了每层的浮点运算量以及反向传播所需的激活存储。

随音频长度的扩展性。
在多模态 LLM 中,非文本模态通常会产生远多于文本的 token,音频亦是如此。随着音频片段变长或 token 化更密集,Na增大,PLITS 的计算代价为 (Na+Nt)2,其中 Na2 项将占据主导。相比之下,LAL 的复杂度为 (Na+Nt)Nt​,对 Na​ 呈线性增长。因此,音频越长或切分越细,二者在计算与内存上的差距就越大。此外,由于更多 token 绕过了每一层中最昂贵的 FFN,LAL 在前馈阶段的节省也会随 Na​ 的增大而进一步扩大。

相比Lora:

LAL 是一种核心架构层面的修改。LoRA 等方法主要改变训练阶段参数的适配方式,而在推理阶段基本保持原有的前向计算模式;LAL 则直接改变了注意力与 FFN 的路由方式,因此其计算与内存效率的收益不仅在训练阶段成立,在推理阶段同样适用。

冻结 LLM FFN 的 LAL 集成:验证了在冻结 LLM 前馈网络(FFN)模块的情况下,LAL 集成方式仍然保持有效,且性能并未出现显著下降。这一结果对于降低训练成本、提升参数效率,以及在实现多模态对齐的同时保留 LLM 预训练知识,具有重要意义。出于表述清晰与实验一致性的考虑,本文的主要实验仍聚焦于 FFN 可训练的标准设置。

参数化知识与上下文知识的利用。

LAL 如何高效利用预训练 LLM 中内在的两类知识:(1)参数化知识,主要源于大规模语言预训练并嵌入于 FFN 层中;(2)上下文知识,通过注意力机制动态地引入和调制。

LAL 的实验成功(见表 1 和表 2)表明,音频输入作为一种上下文信息,可以仅通过基于注意力的调制,在文本 token 表征中激活所需的概念,而无需对音频表示进行直接的 FFN 处理。由此,音频信息得以间接访问 LLM 的参数化知识:音频上下文“搭载”在文本 token 之上,注意力机制对其表征进行重构,进而在 FFN 处理中触发与相关概念对应的路径。该策略不仅在架构效率上具有优势,也为多模态信息融合机制提供了更为深入的理解。

LAL 的实证评估。在多种基础 LLM 上对 LAL 进行了训练与评估,覆盖通用音频任务,包括分类、描述生成(captioning)和推理。在表 1(分类与描述生成)和表 2(推理)中,我们给出了 LAL 与 PLITS 的受控对比,结果表明 LAL 在推理速度与内存占用更优的同时,能够达到与 PLITS 相当甚至更高的准确率。其次,在表 3(分类与描述生成)和表 4(推理)中,我们将 LAL 与已有方法进行了比较。需要注意的是,不同先前方法在训练数据规模和模型规模上存在显著差异,而我们的模型实验训练在这两个维度上均处于较低水平。

这些实验结果不应被简单理解为“全面优于所有方法”,而应被解读为一个更有说服力的结论:即在使用更少训练数据、更小模型、计算资源更受限的情况下,LAL 能够达到与现有方法相当的性能水平,表现出良好的竞争力

PAL:一种面向编码器的、在 LAL 基础上扩展语音理解能力的架构

前文已经证明:

  • LAL:高效、省算力,适合通用音频(general audio)
  • PLITS:计算更重,但允许音频 token 在 LLM 内部被“语言化”处理

本节提出的关键问题是:

是否所有音频编码器都适合用 LAL?还是有些情况下必须用 PLITS?

对于 Whisper 语音编码器情感识别、性别分类 等任务上:PLITS 明显优于 LAL,这一现象与经典神经语言学理论相符:Wernicke 区主要负责语言理解,长期以来被认为处理书面语和口语,而角回则支持跨听觉、视觉及其他感官输入的关联。类比而言,语音特征在结合语言上下文进行解释时最为有用,而通用音频则受益于模态专属的处理通路。

语音(speech)-人类声音
→ 本质上是“语言的声学形式”
在 LLM 内部、结合语言上下文进行解码更有价值
→ 因此更适合 PLITS(直接进入 LLM token 流)

通用音频 / 音乐 / 事件音
→ 非语言模态
→ 更适合走 模态专属通路
→ 用 LAL 即可

基于此,我们提出了 PAL(Probing the Audio Encoders via LLM),一种面向编码器的混合集成架构,可根据不同编码器选择合适的集成方式:通用音频编码器(SSLAM 和 CLAP)采用 LAL 集成,而语音编码器 Whisper 采用 PLITS 集成.

PAL 的实验评估:我们在涵盖语音、音乐和通用音频的统一 instruction tuning 数据集上训练 PAL,并在分类与推理基准上进行评测。结果显示,在分类任务中(表 5)以及推理任务中(表 6 和表 7):

MMAU多任务音频理解与推理能力:包括语音、环境音、音乐等,用于测试模型感知理解、事件识别、推理以及高级知识应用
MMAR:面向音频理解与推理的挑战性基准,音频 + 问答对,覆盖 语音、环境声音乐

PAL 的准确率与 PLITS 相当同时保持了更高的计算效率

Whisper 的“副作用”:对非语音任务也有帮助:

此外,我们观察到引入 Whisper 编码器后,通用音频(sound)和音乐任务的性能有所变化。我们推测,这是因为 Whisper 会编码背景声音,从而具备一定的事件检测能力。

在 PAL 与 PLITS 的对比中,我们严格控制实验条件,使用相同的 backbone、数据和训练超参数。除 Audio Flamingo 2 外,其他系统均基于 PLITS。表7种一些已有系统(Qwen2.5-Omni-7B)在指标上高于 PLITS,主要是因为它们使用了更大的训练数据集、更大的语言模型(LLM)以及更强的音频编码器。

PAL 采用两阶段训练流程(见表 9)。在阶段一中,我们以用于 LAL 的阶段一数据集为基础,并额外引入来自 OpenASQA的、以语音理解为重点的数据进行增强。在阶段二中,我们在一个经过精心整理的音频、语音与音乐推理指令数据集 AudioSkills上进行微调。由于部分源数据集的原始音频文件不可获取,我们使用了 AudioSkills 中的 600 万条样本子集(原始规模为 1000 万)。

实验

LAL:实验设置

训练流程(Training Protocol)
在两个目前规模最大的通用音频指令微调数据集上训练所提出的音频 LLM 变体:OpenAQA和 CompA-R。整体采用两阶段训练流程:
1)连接器预训练阶段:仅训练音频-文本connector,其余模块全部冻结;
2)联合训练阶段:同时训练connector和 LLM。
在整个训练过程中,音频编码器始终保持冻结状态

针对推理和开放式问答任务,我们进一步增加两个训练阶段:

  • 阶段 3:使用 OpenAQA中的开放式问答数据进行训练;
  • 阶段 4:使用推理数据集 CompA-R进行训练。

采用 OpenAQA提出的两阶段训练设置对 LAL 进行训练,并据此获得表 1 中的实验结果。此外,我们还在 OpenAQA提供的更大规模开放式数据以及推理数据集 CompA-R上进行训练,其评测结果见表 2。

评测流程(Evaluation Protocol)
为了评估 LAL 是否能够有效地将关键音频事件信息从编码器传递到 LLM 的潜在表示空间中,我们在下游的分类、描述生成(captioning)和推理任务上进行评测。

  • 分类任务:使用 gpt-text-embedding-ada 对模型输出文本和目标音频标签进行编码,并计算语义相似度;
  • 描述生成任务:在标准音频描述数据集上评测,报告 CIDEr 和 SPICE 指标;
  • 推理任务:采用 CompA-R-test 以及 Ghosh 的评测协议,通过一个纯文本的 GPT-4 评审模型,结合音频事件的辅助元数据,对音频-LLM 的输出在 有用性(Helpfulness)、清晰度(Clarity)、正确性(Correctness)、深度(Depth)和参与度(Engagement) 五个维度进行打分。

PAL:实验设置

训练流程:PAL 采用与 LAL 相同的两阶段训练流程。音频编码器在整个过程中同样保持冻结。

在阶段 1 中,构建了一个混合数据集:以通用音频 OpenAQA 的 Stage 1 数据为基础,并加入用于语音理解的 OpenASQA Stage 1 划分。
在阶段 2 中,使用一个精心整理的音频、语音和音乐推理指令微调语料,即 AudioSkills中的 600 万条子集。

语音理解评测:语音识别以及说话人性别分类。这些任务在阶段 1 训练完成后进行评测,用以衡量新引入的 Whisper 编码器与 LLM 的集成效果。随后,在 MMAR 和 MMAU 基准上评测通用音频、音乐以及语音推理能力,并报告细粒度的类别级性能结果。

总结:

提出了 LAL,一种仅通过注意力机制中的 Key 和 Value 注入音频信息、并跳过音频 token 的前馈网络(FFN)处理的轻量级集成方式。该方法减少了注意力交互与中间激活,在分类、描述生成和推理任务上保持与当前最先进基线 PLITS 相当的性能的同时,实现了 最高 64.1% 的显存占用降低最高 247.5% 的训练吞吐提升
此外,我们提出了 PAL,一种 编码器感知(encoder-aware) 的混合集成框架:对 SSLAMCLAP 采用 LAL,而对 Whisper 采用 PLITS,因为 Whisper 能从 LLM 内部的解码过程中获益。
需要强调的是,LAL 属于核心架构层面的改动,而非参数高效微调(PEFT)方法,因此其效率收益在 训练阶段和推理阶段 均可体现。
在未来工作中,我们计划扩展到更大规模的基础模型,使用更高质量的指令数据以提升推理能力,并探索 流式处理长上下文音频 场景。

PS:数据集说明:

VocalSound:VocalSound 数据集包含 21,024 条众包采集的语音录音,覆盖 6 类不同的发声表达,来自 3,365 名不同的受试者。

ESC-50:ESC-50 数据集由 2,000 条 5 秒长的环境音频片段组成,划分为 50 个类别。

DCASE2017 Task 4:DCASE 2017 Task 4 包含 17 种声音事件,分为“Warning”和“Vehicle”两大类,其评测集包含 1,350 条音频片段。

FSD50K:FSD50K 的评测集包含 10,231 条音频片段。我们在该评测集上进行评估,并报告多标签分类任务的 mAP(mean Average Precision)指标。包括人类声音  事物声音  动物声音、 自然声音音乐 

AudioSet:其中包含来自 YouTube 的 10 秒音频片段,这些片段按照 AudioSet 本体论被标注为一个或多个声音类别。

AudioCaps:AudioCaps 的评测集包含 901 条音频,每条音频配有 5 条文本描述,共计 4,505 对音频-描述样本。

Clotho V2:Clotho V2 的评测集包含 1,045 条音频,每条音频配有 5 条描述,共计 5,225 对音频-描述样本。

 复杂音频推理 (CompA-R)是一个合成生成的指令调优 (IT)数据集,其中包含要求模型对输入音频进行复杂推理的指令。

Smart Turn–语义 VAD 模型

Smart Turn 是一个开源的语义语音活动检测(Semantic VAD)模型,它通过分析原始音频波形(而不是转录文本),来判断说话者是否已经完成了当前的发言轮次。

轮次检测(Turn Detection) 是对话式语音 AI 技术栈中最关键的功能之一。
轮次检测的核心目标,是判断语音智能体应当在何时对人类的语音作出回应。

目前,大多数语音智能体都基于 语音活动检测(Voice Activity Detection,VAD) 来实现轮次检测。VAD 的作用是将音频划分为“有语音”和“无语音”片段。然而,VAD 无法理解语音中的实际语言内容或声学信息。人类在进行轮次判断时,会综合语法结构、语调、语速,以及多种复杂的声学和语义线索。我们的目标是构建一种模型,使其在轮次判断上的表现能够更接近人类的直觉,而不是受限于基于 VAD 的方法。

架构

模型架构:尝试了多种架构和基础模型,包括 wav2vec2-BERT、wav2vec2、LSTM 和额外的 transformer 分类器层,最终,Smart Turn v3 以 Whisper Tiny 为基础,并包含一个线性分类器层。该模型基于 Transformer 架构,拥有约 800 万个参数。尽管模型规模很小,但它在测试集上的准确率却比 v2 版本更高

Smart Turn 以 16kHz 单声道 PCM 音频作为输入,与 Silero 等轻量级 VAD 模型配合使用。一旦 VAD 模型检测到静音,便会对用户回合的整个录音运行 Smart Turn 功能,如有必要,将从开头截断音频,将其缩短至约 8 秒。

当前模型的架构相对较为简单。未来可以尝试探索其他建模方式,以提升整体性能,或者让模型输出关于音频的更多附加信息,亦或是在输入端引入更多上下文信息。

如果在 Smart Turn 尚未完成执行之前 检测到用户有新的语音输入,则应当 基于整个当前轮次的完整录音重新运行 Smart Turn,而不是仅对新增的音频片段进行推理。Smart Turn 在获得足够上下文信息的情况下效果最佳,其设计目标并非用于处理非常短的音频片段

例如,如果能够为模型提供额外的上下文信息,用于对推理过程进行条件约束,将会非常有价值。一个典型的使用场景是:让模型“知道”用户当前正在朗读的是 信用卡号码、电话号码或电子邮箱地址。在这种情况下,模型可以基于特定的语义或结构模式,对轮次检测做出更符合人类预期的判断。

能力:

体积相比 v2 缩小近 50 倍,仅 8 MB 🤯

语言支持大幅扩展:现已覆盖 23 种语言
🇸🇦 阿拉伯语、🇧🇩 孟加拉语、🇨🇳 中文、🇩🇰 丹麦语、🇳🇱 荷兰语、🇩🇪 德语、🇬🇧 🇺🇸 英语、🇫🇮 芬兰语、🇫🇷 法语、🇮🇳 印地语、🇮🇩 印度尼西亚语、🇮🇹 意大利语、🇯🇵 日语、🇰🇷 韩语、🇮🇳 马拉地语、🇳🇴 挪威语、🇵🇱 波兰语、🇵🇹 葡萄牙语、🇷🇺 俄语、🇪🇸 西班牙语、🇹🇷 土耳其语、🇺🇦 乌克兰语,以及 🇻🇳 越南语。

在模型体积大幅缩小的情况下,准确率相比 v2 反而进一步提升

Accuracy results  

阿里通义SpeakerLM:端到端解决说话人分割与识别

目标:解决“说话人分割与识别(SDR)”任务,简单讲就是从音频里搞清楚“谁在什么时候说了什么”SpeakerLM是第一个能完整做SDR的音频-文本MLLM。

三种方案的对比:

  • (a):SD+ASR级联,“先分割再识别”,有误差传递、无法联合优化;
  • (b):SD+ASR+LLM,在级联后加LLM修正,依赖前端输出,改不了上游的错;
  • (c):E2E-SDR(端到端),用一个SpeakerLM模型统一做,但需要考虑如何处理“注册说话人不匹配”的情况(比如多注册了人、少注册了人[这个比较难做])

SpeakerLM —— 一种面向 SDR 的统一多模态大语言模型,可在端到端方式下同时执行 SD 和 ASR。此外,为适配不同的真实应用场景,我们在 SpeakerLM 中引入了灵活的说话人注册机制,使其能够在多种注册配置下执行 SDR。SpeakerLM 通过多阶段训练策略,在大规模真实数据上逐步构建而成。实验结果表明,SpeakerLM 具有强大的数据扩展能力和泛化能力,在域内和跨域的公开 SDR 基准上均优于最新的级联式系统。此外,实验还显示,所提出的说话人注册机制能够有效保证 SpeakerLM 在不同的注册条件以及不同数量的已注册说话人下,持续保持稳健的 SDR 性能。

Introduction

SpeakerLM主要贡献:

  1. 第一个“端到端SDR的多模态大模型(SpeakerLM)”,不用拆SD和ASR,解决了级联系统的误差传递问题;采用音频编码器和两个投影器作为前端,构建了针对 SDR 的编码器–投影器–LLM 架构
  2. 加了“灵活的说话人注册机制”,能应对无注册、匹配注册、过量注册三种场景,特别贴合现实需求;将先验的说话人嵌入投影后与音频与文本 token 进行拼接,使模型能够处理真实应用中多种多说话人场景。
  3. 用“多阶段训练”让模型从简单到复杂逐步学习,数据越多性能越强,在域内、域外(比如车内噪音)都比现有基线好。

模型架构

SpeakerLM 在预训练文本 LLM 中集成了一个轻量级的模态对齐机制。对于输入的多说话人音频,我们首先使用音频编码器进行编码,然后通过一个投影器将音频嵌入注入到文本 LLM 的特征空间中。

对于说话人注册部分,我们使用冻结的文本分词器(tokenizer)对已注册说话人的姓名以及特殊标记(如 <start> 和 <end>)进行分词。已注册说话人的语音首先经过冻结的预训练嵌入提取器处理,以获得说话人嵌入;随后,这些嵌入通过单层线性投影器映射到 LLM 的主干网络中。

Audio Encoder and Projector

音频编码器使用预训练的 SenseVoice-large 编码器初始化,该编码器具备强大的音频表征能力,并在多语言语音识别和音频事件检测等各类音频理解任务中表现优异。

音频投影器采用随机初始化的两层 Transformer,之后接一个卷积神经网络层用于维度对齐。

Embedding Extractor and Projector

使用预训练的说话人嵌入模型来提取说话人嵌入,该模型能够提供稳健且具有判别性的特征表示,对精确的说话人识别和归因至关重要。采用开源的 ERes2NetV2 模型进行嵌入提取,该模型在多个说话人验证基准上达到了 SOTA 性能。提取出的嵌入通过单层线性投影器进行维度对齐。

Large Language Model

使用预训练的 Qwen2.5-7B-Instruct作为文本 LLM 主干,以充分利用其强大的指令跟随能力和通用语言理解能力,从而使 SpeakerLM 能够高效处理不同信息量的复杂多说话人 SDR 任务。

灵活的说话人注册机制

如图 2 所示,我们在 SpeakerLM 中引入了灵活的说话人注册机制。为了适配真实应用场景,我们提出了三种不同的注册策略:No-Regist、Match-Regist 和 Over-Regist,具体如图 3 所示。

设真实标注中的说话人数为 Ngt​,注册的说话人数为 Nrg,则在不同注册设置下,两者的关系可以形式化为:

No-Regist 表示不执行任何说话人注册。这是传统级联式 SD 系统及其应用中的常规设置。我们仅将多说话人音频输入模型,而不提供任何关于说话人的先验信息。这种范式与传统级联式 SDR 框架相一致,输出中的每位说话人都以匿名说话人 ID 表示(如 spk0、spk1 等)。

Match-Regist 假设所有真实标签中出现的说话人均已提前注册,与 SA-ASR 的设定一致。模型需要将每位说话人正确匹配到对应的姓名。该设置能够很好地反映那些已知用户预先注册、并需要个性化输出(如带说话人姓名的转写)的实际场景。在 Match-Regist 中,准确的说话人–姓名关联至关重要,模型必须有效利用注册的说话人信息来进行识别。

Over-Regist 指注册的说话人数多于实际音频中出现的说话人。在这种情况下,模型必须判断哪些注册说话人并未出现在当前语句中,并对剩余的活跃说话人执行准确的带说话人归因的 SDR。这一设置比 Match-Regist 更具挑战性,因为模型不仅需要处理冗余的说话人信息,还必须抑制无关的身份。同时,这与实际场景高度一致:系统可能预先注册了大量用户,但在某次交互中只有其中一部分参与。

总体而言,所提出的说话人注册框架使 SpeakerLM 能够在不同程度的说话人监督条件下灵活执行 SDR,从匿名转写到带个性化姓名的转写均可适用,从而覆盖多种真实的多说话人应用场景。

多阶段训练策略

分了4个阶段,让模型循序渐进掌握SDR能力:

Stage1:只训ASR,得到“SpeakerLM-ASR”。用60万小时ASR数据,加LoRA训LLM,不加载说话人相关模块——目的是先把“听清楚内容”的能力拉满,毕竟ASR准了,后续SDR才好做。在这一阶段,说话人嵌入提取器与投影器不会加入模型。在随后的三个阶段中,这些模块会被加入完整架构。

Stage2:使用模拟的 SDR 数据训练随机初始化的投影器,同时 冻结 LLM 与音频编码器,目标是在 SDR 领域快速对齐音频与文本。使用模拟数据训练使得投影器能够在简化分布下建立初步的粗粒度对齐。与真实录音相比,模拟混合语音仅通过简单地拼接不同说话人的语句构造,并未模拟强噪声或混响。

Stage3:用真实SDR数据训音频编码器+projector。冻结LLM,联合训前两个模块——真实数据更复杂(比如会议远场语音),这一步是让模型抓真实场景的声学特征。

Stage4:联合训所有模块。给LLM加LoRA,一起训音频编码器、projector和LLM——最后一步整合语言(文本)和声学(音频)信息,搞定复杂多说话人场景。

数据构成

数据构成:真实+模拟,覆盖各种场景

公开语料库中采样了 238.55 小时音频用于训练与评估,覆盖多种真实世界的多说话人场景。此外,我们还使用了 7456.99 小时的内部数据用于训练与验证,以进一步增强模型性能。详细统计如表 1 所示。

主要是中文数据集,用来训和测SDR:

  • 公开数据:AliMeeting(会议场景,训104.75h、测10h)、AISHELL4(会议场景,训107.5h、测12.72h)、AISHELL5(车内场景,测3.58h,有风声、轮胎声、空调声,特别难,用来测泛化性);
  • 内部数据:7426.7h训练、30.29h验证,是近场录音,用来提升模型数据量。

模拟数据:用AliMeeting、AISHELL2、LibriSpeech、In-House-Train等的近场语音混出来的,5000h训练、5.6h测试(叫Simulation-Test),每段50秒,2-4个说话人,加了真实噪音和混响——用来做Stage2的训练数据。

Experiments

实现细节

音频重采样至 16 kHz,录音被随机切分为 40 到 50 秒的片段,用于训练和测试 SpeakerLM。对于说话人注册,已注册说话人的语音被切分为 2–10 秒的片段用于嵌入提取,随后将对应嵌入取平均,生成单个代表性说话人嵌入。对于 Over-Regist,训练期间过度注册的说话人数在 1 到 50 之间均匀取值。

优化器AdamW,学习率从1e-5 warm-up到5e-5,再余弦衰减;用4个NVIDIA A800 GPU,每个阶段训1M步,每10K步验证一次。

评估指标

公开基准上评估 SDR 性能,包括同域数据 AliMeeting-Eval 和 AISHELL4-Eval,以及跨域数据 AISHELL5-Eval。
使用以下指标进行评估:字符错误率(CER)cpCER、∆cp、saCER以及 ∆sa。

  • CER:只看ASR准不准,不管说话人(比如把“你好”写成“你郝”,CER就高);
  • cpCER:联合看ASR和SD,无注册时找“最优标签排列”(比如模型标spk0,实际是spk1,只要内容对、排列对就算对);
  • saCER:联合看ASR和SD,有注册时直接按名字对齐(比如模型把Mike的话标成Lucy,就算错);
  • ∆cp=cpCER-CER、∆sa=saCER-CER:反映“说话人归属误差”——比如CER很低但∆cp高,说明ASR准但说话人标错了,这俩指标不受ASR影响,更准。

基线模型:

  • SD+ASR:用Paraformer-large(ASR里的SOTA)当ASR,配4个SD工具(3D-Speaker、Pyannote3.1、Diarizen-base/large),共4个基线;
  • SD+ASR+LLM:用Diarizen-large+Para当前端,加LLM修正(ChatGPT4.5零样本、Qwen2.5-7B零样本、Qwen2.5-7B微调),共3个基线;
  • E2E-SDR:SpeakerLM。

实验结果

Performance without Speaker Registration

SpeakerLM 在无注册条件下,预测结果中的每个说话人都以匿名 ID 表示。

LM零样本(ChatGPT4.5、Qwen2.5零样本)特别差,CER反而升高——因为LLM会“ hallucination(幻觉)”,明明让它只改说话人标签,它却改了内容;就算微调Qwen2.5,也只比最强的SD+ASR(Diarizen-large+Para)好一点。

结果表明,当 SDR 数据规模有限时,SpeakerLM 表现落后于大多数级联基线。但随着训练数据量的增长,SpeakerLM 展现出强大的数据扩展能力(data scaling capability),其 cpCER 和 ∆cp 显著提升。

与此同时,CER 的提升幅度较小,这是因为企业内部数据多为近场录音,对具有混响的远场语音带来的 ASR 改善有限。当 SDR 训练数据达到 7,638.95 小时后,SpeakerLM 的性能显著超越所有基线系统。在 cpCER 方面,SpeakerLM 相比最强的级联系统,在 AliMeeting-Eval、AISHELL-4-Eval 和 AISHELL-5-Eval 上分别取得 6.60%、6.56% 和 13.82% 的绝对改进。值得注意的是,即使在难度较高且跨域的 AISHELL5-Eval 测试集上,SpeakerLM 也取得了 0.57 的 ∆cp,表明该模型在未见过且噪声环境下具有强大的鲁棒性和泛化能力。

在AliMeeting-Eval和Simulation-Test上,从Stage1到Stage4,cpCER和∆cp稳步下降,说明多阶段训练有效;第二阶段的 CER 高于第一阶段,这是因为 Stage 2 依赖模拟数据,而模拟过程并未包含来自这两个数据集的真实音频,导致了领域不匹配。后续阶段(Stage 3 和 Stage 4)中在更真实、更具多样性的会议风格数据上的微调,对缓解领域不匹配、提升模型在不同评测场景下的稳健性至关重要。

Performance with Speaker Registration

  • 比SA-Transformer强太多:在AliMeeting-Eval上,SpeakerLM的saCER比SA-Transformer低25.98%——因为SA-Transformer只能处理“注册和实际完全匹配”的情况,而SpeakerLM能应对各种注册场景;
  • Match-Regist vs Over-Regist:两者的CER、cpCER差不多,但Over-Regist的∆sa更高(比如AliMeeting-Eval上,Match-Regist的∆sa=1.59%,Over-Regist=1.75%)——说明多余的注册信息会轻微影响说话人归属,但整体影响不大,模型能过滤冗余。

多余说话人数量对saCER的影响:

随着 Nov 的增加,并未观察到明显的性能退化。这反映出 SpeakerLM 对冗余说话人身份具有良好的鲁棒性,并且在推理过程中能够聚焦于与任务相关的说话人表征。

Impact of Embedding Extractors

选择ERes2NetV2/CAM++ 作为说话人特征提取模型,在多项说话人验证基准上,ERes2NetV2 的表现优于 CAM++:No-Regist时,ERes2NetV2的CER=13.97%、cpCER=16.05%,都比CAM++低——说明“说话人embedding质量”会影响SpeakerLM性能,好的embedding能让模型更准识别说话人。

Training Pseudo-code

无注册/匹配注册/过度注册任务配置:

SpeakerLM 中,我们为 SDR 任务引入了三种说话人注册(speaker registration)机制:无注册(No-Regist)匹配注册(Match-Regist)过度注册(Over-Regist)。在训练过程中,所有样本默认以匹配注册的形式加载。对于每一个训练批次,我们会从 0 到 1 的均匀分布中采样一个随机数,用于决定注册类型:

  • 如果随机数小于 1/3,则保持匹配注册(Match-Regist);
  • 如果随机数在 1/3 与 2/3 之间,则从提示(prompt)中移除所有已注册的说话人(No-Regist);
  • 如果随机数大于 2/3,则从其他会话中随机采样 1 到 50 名说话人,并将其作为冗余的已注册说话人附加到提示中(Over-Regist)。

Prompts for LLMs

1. SD+ASR+LLM: 在 SD+ASR+LLM 流水线中,我们使用基于文本的 LLM 来纠正 SD+ASR 前端生成的说话人标签。所使用的 prompt 继承自先前研究。

SD+ASR+LLM 的 LLM Prompt:
You are a helpful assistant. In the speaker diarization transcript below, some words are potentially misplaced. Please correct those words and move them to the right speaker. Directly show the corrected transcript without explaining what changes were made or why you made those changes.
(你是一名有帮助的助手。下面的说话人分离转录中,某些词语可能被错误地分配到说话人。请纠正这些词语并将其移动到正确的说话人处。直接展示修正后的转录,不要解释修改内容或理由。)

2. SpeakerLM-ASR : 在 SpeakerLM 的第一阶段训练中,我们使用纯 ASR 数据来增强模型的 ASR 性能。该模型被称为 SpeakerLM-ASR。使用的 LLM prompt 如下:

SpeakerLM-ASR 的 LLM Prompt:
You are a helpful assistant. Transcribe the speech. <start>path to the input speech<end>
(你是一名有帮助的助手。请进行语音转写。<start>输入语音的路径<end>)

3. SpeakerLM: 在 SpeakerLM 中,LLM 的 prompt 会随着注册机制的不同而变化。这里给出了三种注册场景(No-Regist、Match-Regist 和 Over-Regist)的 prompt 设计。假设真实标注包含三位说话人:Mike、Lucy 和 Jack,则相应的 prompt 构造如下。

No-Regist(无注册)

You are a helpful assistant. Transcribe by roles. <start>path to the multi-speaker speech<end>
(你是一名有帮助的助手。请按角色进行转写。<start>多说话人语音的路径<end>)

Match-Regist(匹配注册)

You are a helpful assistant. Registered Speaker Embeddings:
Mike<start>path to the embedding of Mike<end>;
Lucy<start>path to the embedding of Lucy<end>;
Jack<start>path to the embedding of Jack<end>;
Transcribe by roles. <start>path to the multi-speaker speech<end>
(你是一名有帮助的助手。已注册的说话人嵌入如下:
MikeMike 的嵌入路径;
LucyLucy 的嵌入路径;
JackJack 的嵌入路径;
请按角色进行转写。多说话人语音的路径
(说话人顺序没有特定要求。))

Over-Regist(过度注册)

You are a helpful assistant. Registered Speaker Embeddings:
Mike<start>path to the embedding of Mike<end>;
Lucy<start>path to the embedding of Lucy<end>;
Jack<start>path to the embedding of Jack<end>;
Andy<start>path to the embedding of Andy<end>;
Rose<start>path to the embedding of Rose<end>;
Frank<start>path to the embedding of Frank<end>;
Transcribe by roles. <start>path to the multi-speaker speech<end>
(注:在此情况下,Andy、Rose 和 Frank 是来自其他会话的过度注册说话人。说话人顺序没有特定要求。)

Qwen3-Omni :原生端到端的多语言全模态大模型

 Qwen3-Omni ,这是一个原生端到端的多语言全模态基础模型。它旨在处理包括文本、图像、音频和视频在内的各种输入,同时提供文本和自然语音的实时流式响应。

💜 Qwen Chat   |   🤗 Hugging Face   |   🤖 ModelScope   |   📑 Blog   |   📚 Cookbooks   |   📑 Paper  
🖥️ Hugging Face Demo   |    🖥️ ModelScope Demo   |   💬 WeChat (微信)   |   🫨 Discord   |   📑 API

主要特点:

  • 原生全模态:Qwen3-Omni是原生全模态大模型,预训练全模态不降智
  • 强大的性能:Qwen3-Omni在36项音频及音视频基准测试中斩获32项开源SOTA与22项总体SOTA超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强模型,同时其图像和文本性能也在同尺寸模型中达到SOTA水平。
  • 多语言Qwen3-Omni支持119种文本语言交互、19种语音理解语言与10种语音生成语言
  • 更快响应Qwen3-Omni纯模型端到端音频对话延迟低至211ms,视频对话延迟低至507ms。
  • 长音频Qwen3-Omni支持长达30分钟音频理解
  • 个性化:Qwen3-Omni支持system prompt随意定制,可以修改回复风格,人设等。
  • 工具调用:Qwen3-Omni支持function call,实现与外部工具/服务的高效集成。
  • 开源通用音频Captioner开源Qwen3-Omni-30B-A3B-Captioner,低幻觉且非常详细的通用音频caption模型,填补开源社区空白。

模型架构

Qwen3-Omni采用Thinker-Talker架构:Thinker负责文本生成,Talker专注于流式语音Token生成,直接接收来自Thinker的高层语义表征。为实现超低延迟流式生成,Talker通过自回归方式预测多码本序列:在每一步解码中,MTP模块输出当前帧的残差码本,随后Code2Wav合成对应波形,实现逐帧流式生成。

  • 创新架构设计AuT:音频编码器采用基于2000万小时音频数据训练的AuT模型,具备极强的通用音频表征能力。MoE:Thinker与Talker均采用MoE架构,支持高并发与快速推理。多码本技术:Talker采用多码本自回归方案——每步生成一个编解码帧,MTP模块同步输出剩余残差码本。
  • 全模态不降智在文本预训练早期混合单模态与跨模态数据,可实现各模态混训性能相比纯单模态训练性能不下降,同时显著增强跨模态能力。
  • 卓越的语音对话与指令跟随能力Qwen3-Omni在语音识别与指令跟随任务中达到Gemini-2.5-Pro相同水平。
  • 实时音频和音视频交互AuT,Thinker, Talker + Code2wav全流程全流式,支持首帧token直接流式解码为音频输出。

Qwen3-Omni models

  • Qwen3-Omni-30B-A3B-Instruct:包含 thinker and talker ,支持音频、视频和文本输入,并可输出音频和文本。
  • Qwen3-Omni-30B-A3B-Thinking:包含 thinker ,配备思维链推理功能,支持音频、视频和文本输入,并输出文本。
  • Qwen3-Omni-30B-A3B-Captioner:基于 Qwen3-Omni-30B-A3B-Instruct 微调的下游音频细粒度字幕模型,能够为任意音频输入生成细节丰富、低幻觉的字幕。它包含thinker ,支持音频输入和文本输出。

Introduction

当前多模态的训练会出现一种模态的提升伴随着其他模态的退化,该工作探索在当前主流的基于大语言模型(LLM)的范式下实现集成式多模态训练,证明了联合多模态训练可以在所有模态上实现性能均衡,即不存在模态特异性的性能下降,同时显著增强跨模态能力。关键在于:在文本预训练的早期阶段混合单模态和跨模态数据。

关键:在文本预训练的早期阶段混合单模态和跨模态数据。预训练早期的多模态融合允许语言模型与视觉或音频共同训练,而不会导致语言能力下降;文本模态的加入显著提升了视觉和音频的性能,但从视觉或音频信号中并未观察到语言能力的显著提升;从经验来看,加入音频数据可以持续提升视觉模态在 MMMU 基准和 OCR 相关任务上的表现。

Qwen3-Omni 对 Qwen2.5-Omni的架构进行五项关键升级:

  • Thinker 与 Talker 均升级为 MoE(专家混合)结构,提升模型容量与任务适应性。 
  • 使用自研的 AuT(Audio Transformer)编码器替换Whisper编码器,该编码器在 2000 万小时的有监督音频上从零训练而成,能够提供更强的通用音频表示能力。AuT 使用分块窗口注意力(block-wise window attention),以实现实时的 prefill 缓存。
  • 在语音生成端,引入多码本表示,其更高的表达容量有助于更真实地建模多样化的音色、超语段要素以及声学现象。
  • Talker 从单轨 codec 建模升级为多轨 codec 建模,通过 MTP 模块自回归地预测多个码本层;同时波形生成阶段用轻量级卷积网络(ConvNet)替代了分块式 DiT。
  • 输入与输出音频码率均降低至 12.5 Hz,且输出 codec 支持单帧、即时的语音合成。

此外,还有四个大的改进:

  • 支持超过 40 分钟的长音频理解
  • 扩展语言覆盖范围:支持 119 种书写语言、19 种口语理解语言,以及 10 种口语生成语言;
  • Thinking 模式实现全模态推理,包括音频—视频场景与仅音频场景;
  • 流式性能进一步提升,端到端延迟最低可达 234 毫秒

最核心的是 Qwen3-Omni 在文本与视觉模态上保持了与同规模单模态 Qwen 模型一致的最先进性能,没有出现性能退化

Architecture

  • Thinker 与 Talker 均采用 Mixture-of-Experts(MoE)架构,以支持高并发与快速推理。
  • Talker 不再只使用 Thinker 的高级文本表征,而是基于音频与视觉的多模态特征进行条件建模。其设计动机如下:
    (i) 对于文本内容而言,离散 token 与其 embedding 在信息量上基本等价;
    (ii) 多模态条件对于音频–视频协调的语音生成(例如在语音翻译中保持韵律/音色)是必要的。
    此外,这种解耦使外部模块(如 RAG、函数调用、安全过滤器)能够对 Thinker 的文本输出进行干预,并在需要时通过受控预处理将文本输入给 Talker,用于流式合成
  • 由于文本表征被解耦,Thinker 和 Talker 可以使用不同的系统提示语(system prompts),从而分别控制 Thinker 的文本响应风格与 Talker 的音频生成风格。
  • Talker 采用多码本(multi-codebook)自回归方案:每一步生成一个 codec 帧,剩余的残差码本由 MTP 模块预测完成。
  • Code2Wav 以轻量级因果卷积网络(causal ConvNet)实现,简化了音频合成的最终阶段。

在训练和推理过程中,Talker 直接接收来自 Thinker 的高维多模态特征,并共享完整的对话历史。因此,整个系统作为一个整体运行,实现端到端训练与统一推理。

Audio Transformer (AuT)

Audio Transformer(AuT)是一种注意力式的 encoder–decoder 模型,如图 3 所示,在 2000 万小时的有监督音频数据上从零训练而成。训练过程中,音频的滤波器组特征(filter bank features)在进入注意力层之前,通过 Conv2D 模块进行 8 倍下采样,将 token 速率降至 12.5 Hz。为了学习更强大、更通用的音频表示,AuT 在大规模音频数据集上进行训练,涵盖语音识别与音频理解任务。具体而言,训练数据组成如下:

  • 80% 中文与英文的伪标签 ASR 数据;
  • 10% 其他语言的 ASR 数据;
  • 10% 音频理解数据

为在实时 prefill 缓存效率与离线音频任务性能之间取得平衡,AuT 使用具有动态注意力窗口大小的 flash attention,覆盖从 1 秒到 8 秒的注意力查询模式。将 AuT encoder 用作音频编码器,模型参数约为 0.6B

Perceivation (感知)

Text, Audio, Image and Video (w/o Audio).

Thinker 将文本、音频、图像与无音轨视频转换为一系列可作为输入的表征。文本基于Qwen3文本分词器,语音处理为16 kHz,并将原始波形转换为 128 维 Mel 频谱图,通过AUT编码,每一帧音频表示约对应原始音频信号的 80 ms。视频编码器基于Qwen3-VL 的视觉编码器(SigLIP2-So400m),可同时处理图像与视频输入。为了尽可能保留视频信息并与音频采样率对齐,我们采用动态帧率采样视频帧。

Video and Multimodal Position Embedding (TM-RoPE)

参考Qwen2.5-Omni,使用 时间对齐的多模态旋转位置编码(TM-RoPE),它在多模态旋转位置编码(M-RoPE)基础上加入了绝对时间信息。TM-RoPE 将传统旋转位置编码分解为三个维度:

  • 时间维(temporal)
  • 高度维(height)
  • 宽度维(width)

在原始 M-RoPE 中,时间相关性由前 16 个旋转角建模,这些角对应高频且震荡更强的模式。该设计有利于捕获局部时间变化,但会影响模型对长序列的外推能力。

为解决这一问题,我们重新分配了旋转角数量:

  • 时间维 24 个
  • 高度维 20 个
  • 宽度维 20 个

该分配在局部语义与长程依赖之间实现了更平衡的表示,从而提升整体性能。

TM-RoPE 会根据输入模态的不同进行定制化应用:

  • 文本模态:三个维度共享相同的位置 ID,使 TM-RoPE 等价于一维 RoPE。
  • 音频模态:同样共享位置 ID,并额外加入绝对时间编码,每个时间 ID 对应 80 ms。
  • 图像模态:所有视觉 token 分配相同的时间 ID,而其行列位置分别决定高度与宽度的 ID。

对于音视频输入:

  • 音频:每 80 ms 分配一个时间 ID;
  • 视频:每帧视频根据其真实时间戳分配 递增的时间 ID,动态调整以确保与音频保持 80 ms 分辨率对齐
  • 视频的高度与宽度 ID 与静态图像保持一致。

为避免多模态之间的位置冲突,所有模态的位置编号保持连续,每种模态的起始位置 ID 为前一种模态最大位置 ID 加一。该精细化的位置编码方案使模型能够有效整合并联合建模多模态信息。

相较 Qwen2.5-Omni 的关键区别:不同于 Qwen2.5-Omni 将音视频表示强制切分为固定的 2 秒块,Qwen3-Omni 直接基于绝对时间的时间 ID 对齐多模态表示。这种设计赋予模型处理任意时长流式输入的灵活性。

Speech Generation

在多轮对话的语音合成中,Talker 模块依赖于由 Thinker 组件提供的丰富上下文,该上下文包括历史文本 token多模态表示以及当前轮的流式文本。对长上下文信息的依赖至关重要,因为高保真语音合成需要根据当前对话动态调整声学属性,如韵律、响度和情感,这一原则在上下文感知生成模型中已被充分验证。

在架构上,直接在 RVQ token 上进行操作。Talker 采用层次化预测策略:骨干网络(backbone)输入当前帧的聚合码本特征,并通过线性头预测第零码本,随后多 token 预测(MTP)模块生成所有剩余码本。这一策略使模型能够学习声学细节的完整表示,从而增强语音的表现力。因此,波形重建被简化为轻量级因果卷积网络(Code2Wav),在显著降低推理延迟和计算开销(FLOPs)的同时,相比更复杂的基于 DiT 的声码器实现了更高的音频保真度。

流式与并发设计

在流式视听交互场景中,首包延迟是影响用户体验的关键因素,而模型的并发能力对于降低服务成本和提高响应速度至关重要。下面是 Qwen3-Omni 如何通过算法与架构优化提升并发性并降低首包延迟。

分块预填充与 MoE 架构。在 Qwen3-Omni 中,保留了 Qwen2.5-Omni 中的分块预填充机制,其音频和视觉编码器能够沿时间维度输出分块(chunk)。在实时交互中,ThinkerTalker 模块执行异步预填充:当 Thinker 完成当前块的预填充后,其输出的高层表示会立即异步用于预填充 Talker 的当前块,同时 Thinker 预填充下一块。这种方法显著降低了 Thinker 和 Talker 的 Time-To-First-Token (TTFT)

在架构上,Qwen3-Omni 的 Thinker 与 Talker 均采用 MoE设计,这对于提升服务吞吐量非常有效。与稠密模型相比,MoE 架构在处理长序列时显著降低了 KV 缓存带来的 IO 消耗,从而提高生成过程中的每秒 token 数(TPS)并增强并发性能。

流式多码本编解码生成:为了最小化用户接收首个生成包的等待时间,提出了仅左侧上下文的多码本生成机制。如图 2 所示,一旦 Talker 生成第一个 token,MTP 模块即可预测当前帧的剩余 token,然后由流式多码本编解码器将其解码为波形,该编解码器仅关注左侧上下文。与 Qwen2.5-Omni 需要等待 Talker 生成足够块级上下文才能合成波形不同,Qwen3-Omni 在 Talker 生成每个 token 后即可输出波形,从而显著降低首包延迟。

轻量级 MTP 模块与 ConvNet:MTP 模块和编解码器均为轻量级模块,计算 FLOPs 低,支持批处理推理,非常适合高并发场景。MTP 模块是超轻量级、固定步长的自回归稠密 Transformer,在推理硬件上对内存带宽要求低,从而天然支持高吞吐量请求的批处理。其固定步长自回归推理机制允许高效利用固定 KV 缓存空间加速,实现低延迟推理。同时,基于 ConvNet 的编解码器也能在低延迟下实现高吞吐量,因为其卷积架构在多种推理平台上均有广泛硬件加速支持,并且支持高效的批处理推理。

表 2 给出了 Qwen3-Omni 在典型计算资源下,不同并发场景下的理论首包延迟(first-packet latency)。实验在 vLLM 框架上进行,用于处理并发的视听流,同时对 MTP 模块和编解码器采用了 torch.compileCUDA Graph 加速优化。

首包延迟受到多个因素影响:

  1. Thinker 与 Talker 的模型规模会影响尾包预处理延迟(包括音频和视觉编码器的多模态数据预处理和推理)以及 Time-To-First-Token (TTPT)
  2. MTP 模块与编解码器的架构与规模会影响它们的推理延迟。

由于这些组件之间存在顺序依赖,总体首包延迟是各个延迟的累加。结果显示,Thinker 和 Talker 的 MoE 架构 能确保在高并发下,其预填充延迟和 TTPT 基本不受影响。同时,MTP 模块和编解码器的轻量化设计最小化了计算开销,对首包延迟的影响也很小。

此外,在输出首个数据包后,模型开始进行流式音频合成,由于 Talker 的 token 生成速率为 12.5 Hz,每个 token 即可合成 80 ms 的音频。因此,生成实时因子(RTF)通过以下公式计算:

实验结果表明,RTF 在不同并发水平下始终低于 1,确保用户能够持续接收流式音频响应

Pretraining

Qwen3-Omni 在一个多样化的数据集上进行预训练,该数据集涵盖多种语言和方言(如表 3 所示)以及多种模态,包括图文、视频文本、音频文本、视频音频、视频音频文本以及纯文本语料库。与 Qwen2.5-Omni 使用每个任务单一提示词不同,我们采用更丰富的自然语言提示,以增强模型的泛化能力指令遵循能力。为了在所有模态下实现稳健性能,训练策略从早期预训练阶段就整合了单模态和跨模态数据。

Qwen3-Omni 的预训练分为三个阶段:

  • 编码器对齐阶段:音频和视觉编码器在固定的 LLM 上单独训练,最初重点训练各自的 adapter,随后再训练编码器本身。不采用在冻结 LLM 的情况下联合训练编码器与 adapter 的方法,因为该方法可能导致编码器过度补偿冻结 LLM 的限制,从而降低感知能力。
  • 通用阶段:使用了一个大规模数据集,约含 2 万亿 token,其中文本:0.57 万亿、音频:0.77 万亿、图像:0.82 万亿、视频:0.05 万亿、视频-音频:0.05 万亿。在此阶段,引入更多样化的多模态数据和任务,增强了模型在听觉、视觉、文本及视听信息上的理解与交互能力。
  • 长上下文阶段:最后,将最大 token 长度从 8,192 提升至 32,768,并增加了训练数据中长音频和长视频的比例。实验结果表明,这些调整显著提升了模型对长序列数据的理解能力。

后训练

Thinker

后训练阶段包括对 Thinker 的三阶段训练,使 Qwen3-Omni 具备指令遵循能力。训练数据集采用 ChatML格式,涵盖纯文本对话、视觉模态对话、音频模态对话以及混合模态对话数据。

第一阶段:轻量化监督微调(SFT)
通过有针对性的指令优化,将预训练表示与下游任务需求进行桥接。SFT 有意偏离预训练数据结构,但保持与预训练模型的架构一致,以实现高效的知识迁移,同时保留预训练特征的完整性。

第二阶段:强对弱蒸馏(Strong-to-Weak Distillation)采用 Qwen3中描述的蒸馏流程,包括两个阶段:

  1. 离策略蒸馏(Off-policy Distillation):初期阶段,教师模型生成的输出被整合,用于响应蒸馏。这帮助轻量学生模型掌握基础推理能力,为后续的在线训练奠定基础。
  2. 在线蒸馏(On-policy Distillation):学生模型根据采样提示生成响应序列,随后进行微调,将学生预测的 logits 与教师模型(Qwen3-32B 或 Qwen3-235B-A22B)的 logits 对齐,通过最小化 KL 散度进行优化。

第三阶段:GSPO 强化,利用 GSPO全面提升模型在文本、图像、视频和音频等多模态上的能力和稳定性。针对不同模态使用两类奖励信号:

  • 规则基奖励(Rule-based Reward):用于可验证的多模态任务(如数学、编码、指令遵循),奖励信号源自预定义规则,可高精度评估模型输出的正确性,避免奖励漏洞(reward hacking)。
  • 模型基奖励(Model-based Reward):用于缺乏客观评价指标的多模态任务,采用 LLM 作为评估者(LLM-as-a-judge)协议。通用任务由 Qwen3 担任评估,视觉-语言任务由 Qwen2.5-VL 担任评估。评估过程中,LLM 可获取对应的真实答案或参考答案,以实现更稳健、可靠的评价。

Talker

Talker 采用四阶段训练,使 Qwen3-Omni 能够同时生成文本与语音响应。训练数据统一采用 ChatML 格式,确保与 Thinker 的一致性。

  1. 第一阶段:使用数亿条带多模态上下文的语音数据训练 Talker,建立从多模态表示到语音的单调映射关系。
  2. 第二阶段:进行高质量数据的持续预训练(Continual Pretraining, CPT),缓解第一阶段噪声数据导致的幻觉问题,显著提升语音生成质量。同时进行长上下文训练,增强 Talker 处理长复杂输入并生成语境适配语音的能力。
  3. 第三阶段:构建多语言语音偏好对(preference pairs),通过 直接偏好优化(Direct Preference Optimization, DPO)提升多语言语音生成的泛化能力和系统稳定性。
  4. 第四阶段:对基模型进行说话人微调(speaker fine-tuning),使 Talker 可以采用特定声音,并优化语音自然度、表现力和可控性。

Captioner

字幕生成是多模态理解的基础任务,也是大型多模态模型训练与评估的重要组成部分。然而,现有研究大多集中在视觉字幕生成,较少关注音频模态,而听觉感知是人类感知与交互的重要组成。为弥补这一空白并推动多模态感知研究,我们提出 Qwen3-Omni-30BA3B-Captioner。该模型通过在大规模音频描述数据集上微调 Qwen3-Omni-30B-A3B 得到,可为任意音频输入生成详细、低幻觉的字幕。

Evaluation

对一系列模型进行了全面评估,包括 Qwen3-Omni-30B-A3B-InstructQwen3-Omni-30B-A3B-Thinking 以及两款内部开发的变体 Qwen3-Omni-Flash-InstructQwen3-Omni-Flash-Thinking。这些 “Flash” 模型旨在提升计算效率和性能,同时引入新功能,尤其是对多方言的支持。评估结果分为两大类:理解能力(X→Text)语音生成能力(X→Speech)

X→Text 评估

Qwen3-Omni 理解各种多模态输入(文本、音频、视觉以及视听视频)并生成文本响应的能力。

文本→文本:评估通用任务、推理能力、编码能力、对齐任务、代理(Agent)以及多语言任务。

  1. 表4 :Qwen3-Omni-30B-A3B-Instruct 的性能在多个基准任务中超过 了更大的开源模型 Qwen3-235B-A22B Non-Thinking 以及强大的闭源模型 GPT-4o-0327
  2. 表5:Qwen3-Omni-30B-A3B-Thinking 的表现与 Gemini-2.5-Flash-Thinking 以及Qwen3-235B-A22B Non-Thinking 接近。
  3. Qwen3-Omni-30B-A3B 在文本任务中的表现也与其对应的纯文本模型版本保持一致,包括:Qwen3-30B-A3B-Instruct-2507Qwen3-30B-A3B-Thinking-2507

音频→文本:分为基础音频任务和高级音频任务两类。基础任务包括自动语音识别(ASR)、语音转文本(S2TT)以及音乐理解;高级任务包括语音聊天和音频推理。另外,还评估模型在各种音乐信息检索任务上的能力,如流派识别、情感与主题识别、乐器识别以及音乐关键词标注。

表 6 所示,Qwen3-Omni-Instruct 在 Librispeech、Wenetspeech、Fleurs、CommonVoice、Opencpop-test 以及 MIR-1K(vocal)等数据集上取得了英语与中文 ASR 以及歌词识别的最新最优性能(SOTA)。在多语言 ASR 和 S2TT 任务上,Qwen3-Omni 的表现同样优于或可与其他专业模型或通用模型(如 Voxtral-Small 和 Gemini-2.5-Pro)媲美。这些结果表明 Qwen3-Omni 在语音识别与语音翻译任务上具备非常强的能力。

此外,如表 7 所示,Qwen3-Omni-Thinking 在 VoiceBench 上取得了 89.5 的平均得分,超过了除 Gemini-2.5-Pro(89.6)之外的所有其他音频大模型,展现出优秀的语音交互能力。

在音频推理方面,Qwen3-Omni 同样表现突出:在 MMAU 基准上超越了强大的闭源模型 Gemini-2.5-Pro 与 Gemini-2.5-Flash,在 MMSU 上超过了 Gemini-2.5-Flash 和 GPT-4o-Audio。

表 8 中将 Qwen3-Omni-Instruct 与通用音频语言模型和专业音乐模型进行了比较。Qwen3-Omni-Instruct 在 RUL-MuchoMusic 上取得了最新最优(SOTA)表现。在 GTZAN、MTG-Jamendo 以及 MagnaTagATune 上,Qwen3-Omni-Instruct 的得分也显著超过了其他音频语言模型(包括 Gemini-2.5-Pro 和 GPT-4o-Audio),并超过了在这些数据集上测试的多种自监督音乐专业模型。

视觉→文本:通用视觉问答能力、数学与 STEM 推理能力、文档理解能力、数值推理与计数能力、动态视觉数据理解能力。将 Qwen3-Omni-InstructQwen2.5-VL-72B 以及其他表现优异的闭源视觉语言模型进行了对比。如表 9 所示,Qwen3-Omni-Instruct 的整体表现与 Qwen2.5-VL-72B 相当,并且在 数学与 STEM 相关任务(如 MMMU-Pro overall、MathVista mini、MATH-Vision full)上取得了优于 GPT-4o 和 Gemini-2.0-Flash 的成绩。

Qwen3-Omni-Thinking 与多种最先进推理模型进行了比较。
表 10 的结果显示,我们提出的模型取得了显著的性能提升。例如,在 数学与 STEM 基准 上,它比 Qwen3-Omni-Instruct 基线提升了 4.4 个点
值得注意的是,Qwen3-Omni-30B-A3B-Thinking 的性能已经可与规模更大的模型相媲美,展现了在 性能与计算效率之间的优秀平衡

然而,该模型仍存在一个限制:在 长视频任务 上表现不佳。原因:1、位置外推能力有限(positional extrapolation)2、上下文长度受限

音视频→文本:在 WorldSense 进行基准测试以及两个视听推理基准进行测试。在 通用理解任务 中,Qwen3-Omni-Instruct 在 WorldSense 基准上实现了当前最佳性能,并以显著优势超越了其他 Omni 模型。该结果表明其在基础多模态信息融合方面具有卓越能力。

X→Speech 评估

评估主要集中在给定文本条件下的语音生成,即与文本到语音(TTS)任务的相似性,评估内容包括以下三个方面:

  • 零样本语音生成:内容一致性(WER,字错误率)和说话人相似性(SIM)方面的表现
  • 多语言语音生成:评估模型在零样本条件下生成多语言语音的内容一致性与说话人相似性。
  • 跨语言语音生成:评估模型在零样本条件下进行跨语言语音生成的内容一致性。

零样本语音生成:

如表 13 所示,Qwen3-Omni 展现了 高度竞争力的性能,凸显了其通过预训练及持续预训练所获得的稳健语音理解与生成能力。此外,通过 强化学习(RL)优化,Qwen3-Omni 在语音生成的稳定性方面也取得了显著提升,并在 test-en 数据集上达到了最佳性能。

多语言语音生成:

Qwen3-Omni 支持跨 10 种语言 的语音生成。我们将其性能与 MiniMax-SpeechElevenLabs Multilingual v2 模型在多语言语音生成任务上进行了对比。

如表 14 所示,Qwen3-Omni 在 中文、英文和法语 等语言上显著超越了其他模型,并在其余语言中取得了具有竞争力的结果

跨语言语音生成评估:Qwen3-Omni 在 any-to-en(任意语言到英语)any-to-ko(任意语言到韩语) 的语音克隆任务中均优于 CosyVoice3。在 any-to-ja(任意语言到日语) 任务中,即便 未进行文本规范化,Qwen3-Omni 仍能达到与 CosyVoice3 相当的性能,而 CosyVoice3 会将所有日语字符转换为假名(kana)。

跨模态性能不退化评估

由于不同模态的异质性,每种模态都需要不同的预训练目标和优化技术,因此采用标准化的数据整合方法变得不切实际。为了确保公平而严格的评估,我们设计了一个 受控对比实验。具体方法如下:我们预训练了三个参数量匹配的模型:仅文本基线模型(text-only baseline)、仅视觉基线模型(vision-only baseline)以及多模态 “Omni” 模型。为了隔离多模态效应,所有潜在的混淆变量都得到了精确控制。具体而言,Omni 模型使用与单模态基线相同的文本和视觉语料进行训练。此外,我们在所有模型间对关键训练参数进行了对齐,包括学习率策略、批大小以及每种模态的有效训练轮数(通过调整数据采样比例进行归一化)。因此,本实验中唯一的区别在于 Omni 模型在预训练阶段加入了额外的音频和视听数据。

如表 16 所示,我们评估了涵盖多种模态的综合基准,包括:文本模态(通用任务、数学与 STEM 任务、编程任务、多语言任务)、视觉模态(大学水平问题、OCR 相关任务)以及视频模态(视频理解任务)。实验结果表明:

  1. 在文本预训练的早期阶段混合单模态与跨模态数据,可以在所有模态上实现更优性能;
  2. 联合多模态训练能够促进不同模态之间的相互增强,从而提升单模态的表现;

这充分展示了 Qwen3-Omni 在多样化评估标准下的通用性与稳健性

根据表 16 及内部实验结果,我们观察到以下规律:

  1. 预训练早期的多模态融合允许语言模型与视觉或音频共同训练,而不会导致语言能力下降;
  2. 文本模态的加入显著提升了视觉和音频的性能,但从视觉或音频信号中并未观察到语言能力的显著提升;
  3. 从经验来看,加入音频数据可以持续提升视觉模态在 MMMU 基准和 OCR 相关任务上的表现。

结论:

Qwen3-Omni 是一个里程碑:据我们所知,它首次提供了证据表明,完全整合的端到端多模态训练可以在不降低核心语言能力和其他模态表现的情况下实现。我们希望与学术社区分享这些成果,并期待能够激发更多相关研究。

未来工作中,我们计划在多个方向进一步推进模型发展,包括多说话人语音识别(multi-speaker ASR)、视频 OCR、视听主动学习,以及增强对基于代理(agent)工作流和函数调用的支持。

相关知识补充:

  1. 关于 Flash Attention原理详解
  2. deepseek技术解读(2) – MTP(Multi-Token Prediction)的前世今生
Deepseek MTP实现