zero-shot-tts – 第 2 页

CosyVoice 3：语音合成领域迎来里程碑式突破

CosyVoice 2 在语言覆盖范围、领域多样性、数据量和文本格式多样性方面存在明显局限性，在实现野外语音生成方面仍有较大改进空间。阿里巴巴团队全新发布的CosyVoice 3，以超越人类基线的自然度、覆盖 9 国语言 18 种方言的超强泛化能力，重新定义了「野外语音生成」的标准。

摘要

尽管 CosyVoice 2 在中文和英文广播场景中表现良好，但它在语言覆盖范围、领域多样性、数据规模以及文本格式多样性方面仍存在明显局限，距离实现真实环境中的语音生成还有较大提升空间。此外，针对语音生成模型的模型和数据的扩展规律，以及训练后的优化技术尚未被充分探索。

为了解决上述问题，我们推出了 CosyVoice 3 —— 一款面向真实环境应用的大规模零样本语音生成模型，具备更广泛的语言覆盖和多样化的使用场景，在内容一致性、说话人相似度和韵律自然度等方面显著超越其前代产品 CosyVoice 2。

我们的主要贡献如下：

1）通过监督多任务训练开发的新型语音分词器，用于改善韵律自然度，包括自动语音识别、语音情感识别、语言识别、音频事件检测和说话人分析。
2）一种适用于后期训练的新型可微分奖励模型[DiffRO]，不仅适用于 CosyVoice 3，还适用于其他基于 LLM 的语音合成模型。
3）数据集规模扩展：训练数据从万小时扩展到百万小时，涵盖 9 种语言和 18 种汉语方言，跨越多个领域和文本格式。
4）模型规模扩展：模型参数从 5 亿增加到 15 亿，由于更大的模型容量，在多语言基准测试中性能得到提升。这些进展显著推动了野外语音合成的发展。
为应对真实世界中语音合成场景的多样性与泛化挑战，我们发布了面向零样本真实场景语音合成的评测基准集 CV3-Eval。该基准集基于 Common Voice、FLUERS、EmoBox 及网络爬取的真实音频数据构建，涵盖广泛的语言与方言、应用领域与环境、情绪与风格。

技术方案

图2：（a）监督式多任务训练的语音分词器和（b）CosyVoice 3 的训练流程示意图。虚线框中的模块仅在训练阶段使用。语音分词器通过监督训练，涵盖自动语音识别（ASR）、语言识别（LID）、语音情感识别（SER）、音频事件检测（AED）以及说话人分析（SA）等任务。CFM 表示条件流匹配模型（Conditional Flow Matching model）。

通过监督多任务训练实现语音分词器

CosyVoice 3 的语音分词器基于 MinMo语音大模型[基于sensevoice-large的encoder]，这是一种在多个语音任务中表现优异的大规模预训练语音理解模型。

与 CosyVoice 2 将有限标量量化（FSQ）模块插入 SenseVoice-Large ASR 模型的编码器不同，CosyVoice 3 将 FSQ 模块插入到了 MinMo 模型的语音编码器【也是 SenseVoice-Large encoder，但重新进行了多任务训练】中。相比于 SenseVoice-Large ASR 模型，MinMo 是一款更为先进的多模态大语言模型（LLM），在超过140万小时的语音数据上进行了训练，在多种基准任务中展现出更优越且达到了SOTA水平的表现，包括口语对话、多语种语音识别、以及情感识别等任务。

为了进一步增强语义信息的捕捉能力，我们在 MinMo 的训练数据中选取了约53万小时的数据子集，针对我们的语音分词器进行监督多任务学习，涵盖了多语种ASR、语言识别（LID）、语音情感识别（SER）、音频事件检测（AED）以及说话人分析（SA）等任务。

在训练阶段，如图2a所示，输入语音 X 首先经过 Voice Encoder1 【 SenseVoice-Large Encoder】得到中间表示 H，其中 Voice Encoder1 包含12个带旋转位置嵌入（RoPE）的Transformer模块。接着，中间表示H 被送入 FSQ 模块进行量化，量化后的表示再传递至 MinMo 的其余模块，包括 Voice Encoder2 和 MinMo LLM，用于预测对应文本标记的后验概率。

Voice Encoder1、FSQ 模块中的低秩投影器、有限舍入操作（bounded round operation）以及索引计算模块共同构成了 CosyVoice 3 的语音分词器。我们的语音分词器的标记速率为 25 Hz，即每秒生成 25 个语音标记（speech tokens）。

可微奖励优化的强化学习

强化学习（RL）在提升生成语音质量方面是有效的，目前尚未建立一个通用适用于语音生成任务的强化学习方法论。与自然语言处理任务中的大语言模型（LLMs）不同，TTS 系统需要额外的下游条件流匹配（CFM）模块和声码器模型，将离散的语音标记转换为音频波形。这些下游模型带来了巨大的计算负担。更严重的是，经过下游处理后生成的语音通常表现出高度相似性，因此在训练奖励模型时，很难区分正反馈与负反馈。

为了解决这些问题，我们提出了可微奖励优化（DiffRO）方法，该方法直接优化语音标记，而非合成音频。DiffRO 首先在 ASR 训练数据上训练一个类似 ASR 的 Token2Text 模型，并将后验概率作为奖励。为了进一步简化训练策略，DiffRO 使用 Gumbel-Softmax 操作对大语言模型预测的标记进行采样，并通过反向传播直接优化语音标记，以最大化奖励分数，而无需传统的强化学习训练循环。

Gumbel-Softmax 是一种用来在离散空间中实现可微分采样的技巧，常用于需要从分类分布中抽样但又想保持梯度可传播的场景，比如强化学习中的策略采样、生成模型中的词生成，以及如 DiffRO 中对离散语音 token 的优化。

其中，µₜ 和 µ̃ₜ 分别表示第 t 个时间步的真实语音标记和其采样预测值。R_ASR 是基于类似 ASR 的 Token2Text 模型计算得到的奖励函数。由于 R_ASR(Y) 旨在鼓励 µ̃ 捕捉文本中的全部信息，因此它有助于 TTS 系统更清晰、准确地理解文本。因此，我们可以直接优化大语言模型（LLM），使其输出标记与 ASR 偏好对齐，并使用 Kullback-Leibler（KL）散度来防止模型偏离参考模型太远。与其他强化学习方法不同，我们在输出标记级的 logits 上计算 KL 散度，而非在序列级的后验概率上计算。

除了 Token2Text 模型之外，DiffRO 还利用情感识别（SER）、MOS 评分预测、音频事件检测（AED）以及其他音频理解任务，用于多任务奖励（MTR）建模。MTR 机制可以帮助 TTS 系统根据指令控制语音属性A_i

发音修复

基于大语言模型的语音合成（TTS）系统主要采用基于BPE的文本分词器，输入为原始文本。与传统的基于音素的方法相比，这类系统在发音的可控性方面存在不足。具体来说，对于由多音字或训练数据中稀少或未出现的罕见词引起的错误发音，缺乏基于人工干预的稳健方法。
为了实现一个在发音上具备有效可控性的工业级TTS系统，我们对CosyVoice 3进行了扩展，使其能够通过扩充分词器词汇表来建模混合的词和音素序列。为实现该目标，我们构建了一个辅助训练集，将中文单音字替换为拼音，将英文单音词用CMU发音词典中的音素替换，并将该辅助数据集加入基础训练集中。

文本规范化的自我训练

在文本分词之前，TTS系统通常通过文本规范化（TN）模块处理原始文本，将数字和特殊符号转换为其对应的口语化文本，这一过程依赖大量手工设计的规则；然而，手工规则在覆盖特殊符号方面面临持续挑战。
我们探索利用大语言模型（LLM）执行文本规范化任务，从而构建更加统一的端到端TTS系统。
以原始文本为输入，我们采用三种方式构建辅助训练集：
1）通过内部基于规则的文本规范化模块处理原始文本，得到规范化文本，再通过CosyVoice 2合成音频。
2）利用Qwen-Max模型进行文本规范化，然后对规范化文本通过CosyVoice 2合成音频。
3）利用Qwen-Max对已有的文本-音频对中的文本进行逆向文本规范化，恢复为原始（未规范化）文本，将该原始文本与对应音频作为配对样本，直接加入基础训练集。
我们验证了基于扩展训练集训练的新系统可以直接合成原始文本，同时在处理各种特殊符号时展现出更好的鲁棒性和覆盖能力。

指导式语音生成

为了提升CosyVoice 3的可控性和表现力，相较于CosyVoice 2，我们在基础训练集中融入了更多富有表现力的语音数据。高质量指令跟随数据的时长从1500小时扩展到5000小时，覆盖了更广泛的类型，包括情感、语速、声调、方言、口音及角色扮演。类型总数增加到100多种，如表1所示。
与CosyVoice 2类似，CosyVoice 3也支持语言指令和细粒度指令。对于自然语言指令，在合成语音的输入文本前添加自然语言描述及特殊结束标记“<|endofprompt|>”。
对于细粒度指令，支持在文本标记间插入声音爆发（vocal bursts）和声音特征标签以实现控制。例如，输入文本中的“[laughter]”与“[breath]”标记可分别用来生成明显的笑声和呼吸声。标签“<strong>XXX </strong> ”用于强调特定词语。

说话人微调中的能力迁移

将单语说话人转变为多语者:CosyVoice 3 相较于前代的显著提升之一是语言支持的扩展。为了使单语目标说话人能够说多种语言，我们构建了一个辅助训练数据集，包含来自随机选择说话人的高质量单语录音，覆盖所有支持的语言。每条语音的说话人ID和语言ID均通过自然语言指令进行指定。

指令生成能力的迁移:通过对预训练模型进行说话人特定数据的微调，可以提升个别说话人生成语音的质量和表现力。我们构建了一个部分标注说话人ID的训练数据集，该数据集包含目标说话人的高质量数据以及预训练时使用的指令跟随数据集。在自然语言指令提示中，我们指定说话人提示和风格提示。例如，一个完整的指令提示可能是：“你是说话人A，请高兴地和我说话。”然而，部分数据条目可能缺少说话人ID或风格标签，此时在提示中对应字段留空。微调过程中，我们还会随机屏蔽说话人提示或风格提示，以增强模型的迁移能力。
该方法确保了不同说话人间指令的全面覆盖，并有助于防止预训练模型在指令生成时发生灾难性遗忘。

多语言数据处理流程

相比中文和英文，获取其他语言的大规模高质量TTS数据更具挑战性。为应对这一挑战，我们主要从网络有声书、视频和播客中收集野外多语言音频数据。随后，实施多语言数据处理流程，产出质量充足的模型训练数据。该流程包括六个步骤：

语音检测与分段
降噪
自动语音识别（ASR）转录
标点调整
音量标准化
过滤异常音频-文本长度比例的数据

语音检测与分段:原始数据依次通过说话人分离（speaker diarization）、语音活动检测（VAD）和音频事件检测模块处理，得到说话人级别且时长小于30秒的语音片段。该步骤虽采用内部模块，但同类开源方案也能实现类似效果。

降噪：采用MossFormer2模型进行降噪。接着，根据语句起始和结束帧的能量水平，筛除因异常截断导致开头或结尾单词不完整的语句；剩余语句去除开头和结尾的静音后保留用于后续处理。

ASR转录：为获得足够可靠的文本转录，首先使用FasterWhisper Large-V3进行语言识别，然后分别使用多款开源ASR模型（包括Faster-Whisper Large-V3、NVIDIA NeMo Canary-1B、Meta FAIR seamlessM4T-V2-large）对语句进行转录。随后进行交叉验证，选取不同系统ASR结果间平均成对字错误率（WER）低于15%的转录结果。

标点调整：由于ASR生成文本中的标点可能不能准确反映对应音频的实际停顿，我们采用Montreal Forced Aligner计算词与词、句或短语间的时长，并根据预设阈值对标点进行增删（停顿时间≥300毫秒时添加逗号，≤50毫秒时移除表示停顿的标点，如逗号、分号、冒号、句号、问号和感叹号）。

音量标准化：对音量进行简单直接的归一化处理，

过滤异常音频-文本长度比例的语句：在完成上述所有处理步骤后，对每个生成的语音-文本对提取语音标记和文本标记，计算并排序语音标记长度与文本标记长度的语句级比例。
我们丢弃长度比例最小的1%和最大的5%的语句，以过滤可能存在异常的情况，例如：音频很短且无有效人声但对应较长文本转录，或音频较长但仅包含目标语言的短语音片段，从而对应较短文本转录。

Experimental Settings

Training Data for Speech Tokenizer

使用 53 万小时的监督多任务数据集，以标准化转录为标签，训练语音分词器，包括自动语音识别 (ASR)、语种识别 (LID)、语音情感识别 (SER)、音频事件检测 (AED) 和说话人分析 (SA)。训练数据详情如表 3 所示。多语言 ASR 训练数据包括中文、英语、日语、韩语、俄语、法语和德语。

Scaling up Dataset Size and Model Size for CosyVoice 3

在 CosyVoice 3 中，我们从多个角度扩展数据量。针对广泛使用的中英文数据，我们采用低成本数据生产流程与自训练数据构建相结合的方式，增强领域、风格、文本格式和稀有案例的多样性。在领域多样性方面，我们收集了电商、导航、金融、教育等多个领域的语音数据。在风格多样性方面，我们添加了对话、演讲、歌唱等多种语言。在文本多样性方面，我们通过文本规范化 (TN) 和逆文本规范化 (ITN) 为同一段语音构建不同的文本格式，增强模型对各种文本格式的鲁棒性。此外，我们利用早期版本的 CosyVoice 3 策略性地自训练构建了大量的稀有案例，以提高合成的稳定性。在语言覆盖方面，我们在中英文数据集中新增了日语、俄语、法语、德语、西班牙语、韩语和意大利语等七种常用语言，数据覆盖比例如图 3a 所示。前期工作表明，监督式多任务语音分词器在一些新语言（例如 CosyVoice 3 中的西班牙语和意大利语）上表现良好。除了标准的常见方言发音外，我们还增加了对汉语口音和方言的覆盖范围，目前已支持 19 种常见口音或方言，数据占比如图 3b 所示。通过这些数据扩展，CosyVoice 3 的训练数据已达到百万小时，涵盖了日常生活中的大多数用户案例，并朝着自然界零样本语音生成的目标迈进。

除了扩展数据集大小之外，扩大模型大小对于当前的大规模模型至关重要。因此，我们在 CosyVoice 3 中增加了文本转语音语言模型 (LM) 和条件流匹配 (CFM) 模型的大小。具体而言，文本转语音 LM 的参数数量从 0.5 亿增加到 1.5 亿。对于 CFM，我们采用最新的扩散变换器 (DiT) 作为骨干网络，将参数数量从 1 亿增加到 3 亿。初步实验证明了 DiT 架构的强大性能；因此，复杂的文本编码器和长度正则化模块不再需要，并从 CosyVoice 3 中移除。我们通过简单的插值操作解决了语音标记和 Mel 特征之间的帧率不匹配问题。

为了评估 CosyVoice 3 的零样本语音生成能力，我们关注三个关键方面：内容一致性、说话人相似度和音频质量。对于内容一致性，我们使用 Whisper-large V3测量 ASR 转录文本与给定文本的字符错误率 (CER) 或词错误率 (WER)。对于英文 ASR，我们使用 Paraformer 测量中文 ASR。为了评估说话人相似度，我们使用 ERes2Net 说话人验证模型从生成的语音中提取说话人嵌入，并计算与参考语音嵌入的余弦相似度。对于音频质量，我们使用 DNSMOS 网络对生成的语音进行评分，该网络的得分与人类听觉感知高度相关。

为了更好地评估 CosyVoice 3，我们建立了一个多语言基准 CV3-Eval，其中包括客观和主观评估的子集。

Experimental Results

SEED-TTS-Eval 上的客观 TTS 结果

CosyVoice 3 与基线在 SEED 测试集上的内容一致性 (WER/CER) 和说话人相似度 (SS) 方面的零样本 TTS 性能比较。对于说话人相似度，括号外的结果由基于 WavLM 的模型测量，括号内的结果由 ERes2Net 测量。粗体表示最佳结果，下划线表示次佳结果

在多语言基准 CV3-Eval 上的客观评估：

对于 CosyVoice 3 来说，生成生僻词、绕口令和领域特定术语仍然很困难，这突显了未来有待改进的地方。

跨语言语音克隆结果：CosyVoice 3 在跨语言语音克隆方面相较 CosyVoice 2 的显著提升。值得注意的是，由于两种语言的字符重叠，CosyVoice 2 在将语音从日语转换为中文时遇到了困难。CosyVoice 3 通过将所有日语字符转换为假名解决了这个问题。此外，扩大模型规模也带来了益处：与 CosyVoice3-0.5B 相比，CosyVoice3-1.5B 在所有条件下都表现出了更佳的字错误率 (WER)，同时保持了与 CosyVoice 2 相似的说话人相似度。这表明，由于容量的增加，更大的模型可以提升在挑战性任务上的表现。总体而言，CosyVoice3-1.5B 仍然是 zh2en 和 en2zh 跨语言语音迁移任务中的领先模型。

在与文本无关的任务中，情感准确率显著下降，尤其是“悲伤”和“愤怒”情感。这表明 TTS 系统主要从文本情绪中推断输出音频的情感基调。这一观察结果为了解不太令人满意的表现提供了宝贵的见解，并突出了未来需要改进的地方。

主观评价结果：

Nexa AI OmniAudio-2.6B：全球最快的边缘部署音频语言模型

OmniAudio 是全球最快、最高效的音频语言模型——OmniAudio – 2.6B 是一款高性能的多模态音频语言模型，参数量为 2.6B，能够高效处理文本和音频输入。它将 Gemma – 2 – 2B、WhisperTurbo 以及定制的 Projector 模块集成到一个统一框架中，突破了传统模型串联 ASR（自动语音识别）和 LLM（大语言模型）的架构限制，实现了更低延迟、更高效能的音频 – 文本一体化处理。这种一体化的设计使得音频信息能够直接在模型内部进行处理和转换，避免了传统架构中多次数据传输和处理带来的延迟和资源浪费。

huggingface : https://huggingface.co/NexaAIDev/OmniAudio-2.6B

二、技术原理

1、模型架构

Gemma – 2 – 2B：作为负责文本处理的基础语言模型，它拥有强大的语言理解和生成能力。其内部的神经网络结构经过精心设计和训练，能够对音频文本转换后的文本进行深入分析和理解。例如，在处理复杂的语义关系时，Gemma – 2 – 2B 可以准确地识别出词汇之间的逻辑联系，从而为后续的语言生成提供准确的基础。

WhisperTurbo：是优化后的音频编码器，能够生成高质量的音频嵌入。它通过对音频信号进行特征提取和编码，将音频信息转化为模型可处理的形式。WhisperTurbo 在处理音频信号时，能够捕捉到音频中的细微特征，如语音的语调、语速变化等，这些特征对于准确理解音频内容至关重要。
定制Projector模块：将 Whisper 的音频 token 转化为与 Gemma 文本嵌入对齐的序列，确保音频 – 文本模态的高效融合。它通过一种特殊的映射机制，使得音频和文本在向量空间中能够准确对应，同时保持语言模型的原始性能。这种对齐方式使得模型在处理音频输入时，能够像处理文本输入一样高效地进行语言理解和生成。

2、训练方法

预训练阶段：基于 MLSEnglish10K 转录数据集进行基础的音频 – 文本对齐能力训练。为了支持多任务应用，数据集中引入了特殊的 <|transcribe|>token，用以区分语音转文本和内容补全任务，确保模型在不同场景下性能的一致性。在预训练过程中，模型通过大量的音频 – 文本对数据学习，逐渐掌握音频和文本之间的对应关系，形成初步的音频处理和语言理解能力。
监督微调阶段（SFT）：使用合成数据集进行指令调优。数据集同样以 MLSEnglish10K 为基础，结合专有模型对上下文进行扩展，生成丰富的 “音频 – 文本” 对。通过这种方式，模型具备了更强的音频输入语义理解和会话生成能力。例如，在处理特定领域的音频数据时，模型能够根据微调数据中的领域知识，准确理解音频中的专业术语和特定表达方式。
直接偏好优化（DPO）：利用 GPT – 4O API 对模型初始输出进行评估，标注不正确的输出为 “拒绝”（rejected），并生成替代答案作为 “偏好”（preferred）参考。为了保持 Gemma – 2 的文本处理性能，额外增加了偏好训练步骤，使用 Gemma – 2 的原始文本作为 “标准” 训练模型，在处理音频输入时匹配其高水平表现。通过 DPO，模型能够不断优化自己的输出，使其更加符合人类的语言习惯和实际需求。

三、功能特点

1、处理速度快

在 2024 Mac Mini M4 Pro 上，使用 Nexa SDK 并采用 FP16 GGUF 格式时，模型可实现每秒 35.23 个令牌的处理速度，而在 Q4_K_M GGUF 格式下，可处理每秒 66 个令牌。相比之下，Qwen2 – Audio – 7B 在相似硬件上只能处理每秒 6.38 个令牌，展示出显著的速度优势，能够满足实时音频处理的需求。例如，在实时语音翻译场景中，快速的处理速度可以确保翻译结果几乎与语音同步输出，大大提高了沟通效率。

2、资源效率高

模型的紧凑设计有效减少了对云资源的依赖，使其成为功率和带宽受限的可穿戴设备、汽车系统及物联网设备的理想选择，降低了设备的运行成本和对网络的依赖。在一些网络信号不稳定的偏远地区，或者在电池续航有限的可穿戴设备上，OmniAudio – 2.6B 能够凭借其低资源消耗的特点，稳定地运行并提供准确的音频处理服务。

3、高准确性和灵活性

尽管 OmniAudio – 2.6B 专注于速度和效率，但其在准确性方面也表现不俗，适用于转录、翻译、摘要等多种任务。无论是实时语音处理还是复杂的语言任务，OmniAudio – 2.6B 都能够提供精准的结果。例如，在处理学术讲座的音频转录时，模型能够准确识别专业术语和复杂的句子结构，生成高质量的文字转录稿。

四、应用场景

1、智能家居

可以集成到智能家居设备中，如智能音箱、智能家电等，实现语音控制和交互。用户可以通过语音指令控制家电的开关、调节温度、查询信息等，提供更加便捷的智能家居体验。例如，用户只需说出 “打开客厅的灯”，智能音箱中的 OmniAudio – 2.6B 模型就能准确识别指令并控制灯光设备，让家居生活更加智能和便捷。

2、车载系统

在汽车中，OmniAudio – 2.6B 可以用于语音导航、语音娱乐系统、车辆状态查询等功能。驾驶员可以通过语音与车辆进行交互，提高驾驶安全性和便利性。比如，驾驶员在行驶过程中无需手动操作，只需说出 “导航到最近的加油站”，车载系统就能快速响应并规划路线，避免了分心驾驶带来的安全隐患。

3、远程医疗

在远程医疗领域，该模型可以用于实时转录医生与患者的对话、翻译医疗文件和语音指令等，提高医疗服务的效率和质量，方便医患之间的沟通。例如，在跨国远程会诊中，OmniAudio – 2.6B 可以实时翻译不同语言的对话，让医生和患者能够无障碍交流，确保诊断和治疗的准确性。

4、可穿戴设备

如智能手表、智能耳机等可穿戴设备可以利用 OmniAudio – 2.6B 实现语音助手功能，用户可以通过语音查询天气、设置提醒、发送短信等，为用户提供更加便捷的操作方式。比如，用户在运动时双手不方便操作，只需对着智能手表说出 “设置明天早上 7 点的闹钟”，手表就能快速完成设置，提升了用户体验。

Baichuan-Auido端到端训练语音交互大模型

github: https://github.com/baichuan-inc/Baichuan-Audio/
Baichuan-Audio 🤗 | Baichuan-Audio-Base 🤗 | 技术报告 📖
OpenAudioBench 🤗 | 训练数据 🤗 (Coming Soon)

Baichuan-Auido 是Baichuan最新的端到端训练的语音交互大模型，无缝集成了音频理解和生成功能，支持高质量可控的中英双语实时对话。

Baichuan-Audio-Base: 为促进语音大模型发展，我们开源了使用高质量海量数据训练的端到端语音基座模型。该模型未经SFT指令微调，可塑性强。
Baichuan-Audio: 接受文本、音频作为输入，并生成高质量文本和语音输出，能够在保持预训练 LLM 智商能力下实现无缝的高质量语音交互，和用户进行实时语音对话。

Introduction

Baichuan-Audio，这是一款为实时语音交互设计的端到端音频大语言模型。与 Moshi 和 GLM-4-Voice [输出文本+speech token，speech token 接入cosyvoice解码器合成音频 ] 类似，Baichuan-Audio 扩展了预训练的大语言模型（LLM），以支持端到端的音频输入和输出。该模型通过集成 Baichuan-Audio-Tokenizer 和流匹配解码器来实现上述功能，前者将音频信号离散化为音频标记，后者则将音频标记解码为语音波形。

Baichuan-Audio-Tokenizer 的运行帧率为 12.5 Hz，并采用多码本离散化技术，以保留语义和声学信息，从而支持 LLM 中语音模态的有效建模。Baichuan-Audio 还引入了独立的音频头（audio head），以提升模型处理和捕捉音频特征的能力。

我们在包含约 1000 亿个标记的音频-文本数据上进行了大规模预训练。基于包含 88.7 万小时的大型音频语料库，我们采用了交错数据处理方法，以在 LLM 框架内实现高效的知识迁移。

贡献：

统一且卓越的语音能力：我们设计了一个 8 层 RVQ 音频分词器（Baichuan-Audio-Tokenizer），在 12.5 Hz 帧率下实现了对语义和声学信息的最佳平衡，支持高质量、可控的中英文双语实时对话。
端到端语音交互：Baichuan-Audio 能够处理文本和音频输入，并生成高质量的文本和语音输出，支持无缝的高质量语音交互，同时保持智能响应能力。
开源支持：我们已开源训练数据和基础模型，为语音交互领域的研究与创新提供了宝贵的资源与工具。

模型

该模型结构围绕三大核心组件构建：Baichuan-Audio分词器、音频大语言模型（audio LLM），以及音频解码器。

处理流程从音频分词器开始，它通过捕捉语义与声学信息，将原始音频输入转化为离散的token。这一步是通过 Whisper编码器 与 残差矢量量化（RVQ）技术相结合实现的。

随后，音频LLM以交替方式生成对齐的文本与音频token，并借助一个特殊的token实现文本与音频模态间的无缝切换。接下来，这些音频token将由一个独立的音频head进一步处理。

最后，模型通过一个基于Flow-Matching的方法的音频解码器，从这些token中重建出高质量的Mel谱图，再通过声码器（vocoder）将其转换为音频波形。

Audio Tokenization

当前音频分词器面临的主要挑战，在于如何在捕捉语音信号中的语义信息与声学信息之间取得最佳平衡。相较于像 HuBERT 这样的自监督学习方法，Baichuan-Omni 与 Qwen-Audio 这类模型在捕捉语义特征方面提供了更直接的路径。【ASR任务】

与此同时，像 Encodec和 SpeechTokenizer这样的音频分词器则在完整重建音频特征方面表现尤为出色。【音频重建任务】

为了结合这两类方法的优点，提出了 Baichuan-Audio-Tokenizer：一个基于 残差矢量量化（RVQ） 和 多目标训练【重建音频任务以及ASR任务】的音频分词器，如图2所示。Baichuan-Audio-Tokenizer 保留了来自 Baichuan-Omni 的音频编码器和语言模型组件，并在编码器之后新增了一个 音频解码器结构，用于重建输入的 Mel 频谱图。该音频分词器采用多目标优化方法进行训练，从而能够有效捕捉输入语音中的语义信息与声学信息。

Baichuan-Audio-Tokenizer 采用了每秒 12.5 个 token 的帧率设计。高层次的音频特征首先通过 Whisper Large 编码器从 Mel 频谱图（Mel spectrogram） 中提取，随后通过一个 残差卷积网络 进行 4× 下采样，以获得低帧率的音频特征。

由于 Whisper 编码器输出的音频特征是高维的，在量化过程中需尽可能减少信息损失，因此我们使用了 8 层残差矢量量化（RVQ）。我们设计了逐层递减的码本大小，依次为：{8K, 4K, 2K, 1K, 1K, 1K, 1K, 1K}。

音频解码器采用与 Whisper 编码器完全对称的结构，通过一个 反卷积模块（deconvolution module） 对输入进行 4× 上采样。之后，序列经过一系列 Transformer 层，并进一步进行 2× 上采样，最终得到每秒 100 个 token 的粗略 Mel 频谱表示。设计了一个 精细化网络，以提升 Mel 频谱重建的精度，最终获得高质量的精细 Mel 频谱特征。

在音频重建损失函数的设计中，我们，采用 L2 损失与 L1 损失的组合 作为重建损失。其形式定义如下：

为提升音频重建的质量，我们引入了一种 多尺度 Mel 频谱损失（multiscale Mel loss） 方法，使用了两种不同的 hop length（帧移） 和 window size（窗长）。该方法有效缓解了在从解码器输出转换为 Mel 频谱过程中，由于降维和下采样插值所导致的信息损失。通过在多个尺度上进行优化，该方法能够保留更多细粒度的音频特征，从而提升重建的保真度和训练的稳定性。

对于预训练的语言模型（LLM），其目标是在音频理解任务中最大化文本输出的 softmax 概率。为了确保语义对齐，我们在训练过程中保持预训练语言模型参数不更新（冻结），仅最大化其在音频理解任务中预测文本的 softmax 概率。这种做法有助于保持音频分词器与文本LLM之间的语义对齐关系。

在选择 LLM 的规模时，我们观察到，在音频理解模型的训练过程中，不同规模的 LLM 对于 ASR（自动语音识别）指标的影响很小。因此，我们最终选用了一个拥有 15亿参数（1.5B） 的预训练 LLM 进行持续训练。这个规模的模型与音频解码器在训练过程中表现出良好的匹配性，两者的梯度范数差距较小，有助于提升整体训练的稳定性。

在量化模块的训练中，我们采用了 指数移动平均（EMA） 策略来更新码本，并使用 直通估计器（STE, Straight-Through Estimator） 来反向传播梯度至编码器。此外，我们还使用了 向量量化承诺损失（VQ commitment loss），以确保编码器的输出能够紧密对齐至码本中的条目。

VQ 承诺损失定义如下：

总损失是多尺度重建损失、文本音频对齐损失（对于LLM）和 VQ 承诺损失的加权组合：

训练数据。 除了自动语音识别 (ASR)、音频查询回答 (AQA) 和语音到文本翻译 (S2TT) 等传统任务外，我们还将一定比例的音频文本交错数据纳入训练过程。此策略旨在增强 VQ 模块对复杂上下文场景进行建模的能力。具体来说，训练数据集包括 135k 小时的 ASR 数据、11k 小时的 AQA 数据、9k 小时的 S2TT 翻译数据和 52k 小时的音频文本交错数据。

Evaluation of Baichuan-Audio-Tokenizer. 我们使用相同的数据和基础模型训练了音频理解模型的非 VQ 版本作为基线。对于 VQ 和非 VQ 模型，LLM 的参数在训练期间保持冻结，以确保公平比较并隔离 VQ 机制对整体性能的影响。从表 1 中，我们可以看到 8 层 vq 更接近基线，并且语义内容损失最少。如表 2 所示，8 层 VQ 模型和基线在多个数据集上的 ASR 结果表明，训练后的 8 层 VQ 模型实现了具有竞争力的性能。

基于流匹配的音频解码器

为了提升合成音频的质量与保真度，我们对音频解码模块进行了增强，引入了 Flow-Matching 模型，在 24 kHz 采样率的音频数据上训练，用于生成目标 Mel 频谱图。该 Flow-Matching 解码器 包括两个主要部分：Pre-Net 和 条件解码器（Conditional Decoder），如图 3 所示。

Pre-Net 负责将中间表示映射为供声码器（vocoder）使用的先验分布，结构上由一个 多层感知机（MLP） 和一个 12 层 Transformer 组成：MLP 将输入的 1280维、50 Hz 的音频特征压缩投影至 512维；接着，Transformer 对其进行精细建模；最后通过一个线性层转换为 80维的 Mel 频谱图。

条件解码器（Flow-Matching Conditional Decoder）。该部分采用基于 U-Net 的结构，并结合 OT-CFM（Optimal Transport Conditional Flow Matching） 方法进行训练，灵感来源于 Matcha-TTS 和 CosyVoice 。

U-Net 结构包括：一个下采样模块、一个上采样模块，以及 12 个中间模块，每个模块由一个 ResNet1D 层 和一个 Transformer 层（256维）组成。最终，再通过一个线性层将特征投影为 80维 Mel 频谱图。

需要注意的是，由于模型已通过重建损失编码了声学信息（如说话人音色），因此 不需要额外的说话人嵌入（speaker embeddings）。生成的 Mel 频谱图将通过 HiFi-GAN 声码器转换为音频波形。

训练细节：流匹配模型在约 27 万小时的音频上进行了训练，包括普通话、英语、各种方言和多语言数据。使用集成 ASR 和 MOS 过滤来改善数据质量。在训练期间，AudioEncoder、VQ 层和 AudioDecoder 是固定的，而流匹配 Pre-Net 和解码器则在 Pre-Net 中添加了先验损失进行训练。

重建性能评估：

Audio LLM

Baichuan-Audio 通过整合新推出的 Baichuan-Audio-Tokenizer（包括音频嵌入层和独立的音频头）扩展了预训练的 LLM。具体来说，来自 Baichuan-Audio-Tokenizer 的音频标记首先通过音频嵌入层转换为音频嵌入。音频 LLM 交替生成对齐的文本标记和音频标记，并通过特殊标记实现文本和音频之间的模态切换。生成的音频标记由独立的音频头处理，该头由 3 层深度转换器和 8 个分类头组成。最后，音频嵌入通过音频编码器（例如基于流匹配的音频编码器和声码器）以重建音频波形。

音频嵌入。 首先，将 8 个离散音频标记通过相应数量的嵌入层相加以获得音频嵌入。由于包含一个额外的特殊标记来表示音频标记生成的结束，因此每个嵌入层的输入维度都比相应码本的大小大一。

音频头。生成的音频标记使用独立的音频头进行处理，该音频头由 3 层深度转换器和 8 个分类头组成。深度转换器的深度为 8，可预测 8 个码本的音频嵌入。最后，分类头用于获取与音频标记相对应的每个码本的逻辑值。

与纯文本大模型相比，语音语言模型（speech language models） 往往在生成语义连贯的输出方面存在困难。研究 [36] 指出，这一问题主要源于语音中引入了 时长信息（duration） 和 副语言信息（paralinguistic information），例如语调、语气等。

为了解决这一问题，我们在预训练阶段引入了两种类型的交错数据（interleaved data）：音频-文本交错数据（INTLV, Audio-Text Interleaved）、文本到语音交错数据（ITTS, Interleaved Text-to-Speech）

这两种数据设计有助于提升模型的音频理解与生成能力。

在推理阶段，离散音频 token 会被送入 LLM，模型随后以交替的方式生成对齐的 文本 token 和 音频 token。我们引入了特殊 token，用于在文本与音频模态间切换。这种强制对齐策略（forced alignment approach）确保了模型会优先生成连贯完整的文本内容，再生成对应的音频 token，从而有效引导音频 token 的生成，缓解语义退化问题。

Pre-training details：

数据: 交错数据由交替的文本和音频模态组成，并用标点符号分隔以促进跨模态知识传输。交错对齐的生成数据由完全对齐的文本和音频内容组成，旨在增强模型在文本监督下生成音频标记的能力。音频-文本配对数据（例如，ASR 和 TTS 数据）提高了基本语音任务的性能。另一方面，纯音频数据增强了独立处理音频模态的能力。交错数据收集流程如图 4 所示，分为爬取数据和合成数据两种，共获取了 14.2 万小时的 ITTS 数据和 39.3 万小时的 INTLV 数据。交错数据采用LLM进行切分，即根据文本内容中的标点符号或自然停顿进行自然切分。对于合成数据的切分文本数据，我们还采用了大型语言模型进行文本归一化。在预训练过程中，我们排除了音频文本交错数据中音频片段的损失计算，这一设计选择与 GLM-4-Voice 不同。在当前约 50B 的训练音频数据规模下进行的经验观察表明，计算 INTLV 数据中音频片段的损失会导致性能下降。这一决定的合理性还在于音频和文本之间固有的模态冲突，以及推理过程中不需要文本到音频的延续。因此，我们省略了 INTLV 数据中音频片段的损失计算。对于 ITTS 数据，除了初始文本片段外，还计算了音频和文本片段的损失，以增强模型在文本引导音频生成方面的能力。

两阶段训练策略。 为了解决语音特征与文本特征的不同特征可能导致的LLM中原始文本知识的潜在破坏，我们提出了一种两阶段训练策略来缓解模态之间的训练冲突。在第一阶段，LLM的参数保持不变，只允许更新音频嵌入层和音频头的参数。在第二阶段，除文本嵌入层和 LM 头的参数外，所有参数都可训练。

监督微调细节

监督微调阶段旨在增强模型在一系列任务中遵循复杂指令的能力。音频 SFT 数据来自大量文本指令。使用基于指令类型、多样性和整体质量的过滤策略选择高质量指令。使用 10,000 种不同语音音调的精选数据集合成音频指令。在自然对话停顿处生成和分割相应的文本响应，然后使用指定的语音音调转换为音频。这些数据集涵盖多项任务，包含大约 242k 个音频数据对。

为了确保合成音频的质量，自动语音识别 (ASR) 被应用于生成的音频文件。将 ASR 输出与原始文本进行比较以验证质量。此过程可创建高质量的端到端对话数据集。有错误的合成音频文件将添加到文本转语音 (TTS) 数据集，而有 ASR 错误的案例将合并到 ASR 训练数据集中。这种合并具有挑战性的示例的迭代方法可增强 TTS 和 ASR 的性能。

需要特别注意处理文本转音频导致原始文本响应不适合作为音频回复的情况。此问题是由于文本和音频之间的语调、速度和表达方式的差异而产生的。某些文本内容在转换为音频时可能无法传达预期含义或引入歧义。因此，在生成过程中仔细检查和调整此类情况至关重要。这可确保合成数据准确反映现实世界的语音交互场景，从而提高数据可靠性并提高模型的实际适用性。

Experiment

综合智力测评

基于语音的对话模型面临的一大挑战是，与纯文本对话模型相比，其性能往往会下降。为了评估语音模型的“智能”，我们以文本到文本的建模能力为基准，评估预训练的语音到文本模型的性能。评估数据集包括两种类型：故事延续能力和常识推理能力。

Performance in ASR/TTS Tasks

**Fleurs** 、 **WenetSpeech 和 KeSpeech 上的主要结果** 。

Performance in Audio Understanding Tasks

模型在音频理解基准测试中表现优异，超越了最新的开源模型。

两种不同的设置：1）非级联方式的语音到语音生成（表示为 S → S），其中输入是音频，输出是交错的文本和音频。然后合并输出文本并用于评估。2）语音到文本生成（表示为 S → T，其中输入是音频，输出是文本，用于评估。

总结

Baichuan-Audio，这是一种专为音频设计的端到端大型语言模型，集成了语音理解和生成功能。该模型通过预训练的 ASR 模型对 12.5 Hz 的语音信号进行多码本离散化，从而保留了语音标记中的语义和声学信息。此外，还专门设计了一个独立的音频头来高效处理这些标记。为了平衡音频建模和语言能力保留，采用了交错数据的两阶段预训练策略。所提出的框架通过文本引导的对齐语音生成来支持语音交互，从而进一步保留了模型的基础认知能力。

Qwen2.5-Omni -多模态端到端大模型

论文地址：
https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
博客地址：https://qwenlm.github.io/blog/qwen2.5-omni/
GitHub 地址：https://github.com/QwenLM/Qwen2.5-Omni
Hugging Face 地址：https://huggingface.co/Qwen/Qwen2.5-Omni-7B
ModelScope：https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

这是 Qwen 系列中全新的旗舰级多模态大模型，专为全面的多模式感知设计，可以无缝处理包括文本、图像、音频和视频的各种输入，同时支持流式的文本生成和自然语音合成输出。

主要特点

全能创新架构：我们提出了一种全新的Thinker-Talker架构，这是一种端到端的多模态模型，旨在支持文本/图像/音频/视频的跨模态理解，同时以流式方式生成文本和自然语音响应。我们提出了一种新的位置编码技术，称为TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。
实时音视频交互：架构旨在支持完全实时交互，支持分块输入和即时输出。
自然流畅的语音生成：在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。Qwen2.5-Omni 支持修改输出语音的音色类型，目前支持2种音色类型。
全模态性能优势：在同等规模的单模态模型进行基准测试时，表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio，并与Qwen2.5-VL-7B保持同等水平。
卓越的端到端语音指令跟随能力：Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。

摘要：

Qwen2.5-Omni，这是一种端到端的多模态模型，能够感知多种模态信息，包括文本、图像、音频和视频，同时以流式方式生成文本和自然语音响应。为了实现多模态信息输入的流式处理，Qwen2.5-Omni 的音频和视觉编码器采用了 分块处理（block-wise processing） 方法。该策略有效地解耦了长序列多模态数据的处理，将感知任务交由多模态编码器，而将长序列建模任务交由大语言模型（LLM），这种分工机制通过共享注意力机制增强了不同模态的融合。

为同步视频输入的时间戳与音频，我们采用 交错（interleaved） 方式对音视频数据进行序列化，并提出了一种新颖的位置编码方法——TMRoPE（Time-aligned Multimodal RoPE，时间对齐多模态旋转位置编码）。 ps：关于旋转位置编码

在同时生成文本和语音的过程中，为了避免两种模态之间的相互干扰，我们提出了 Thinker-Talker 架构。在该框架下：

Thinker 作为大语言模型，负责文本生成；
Talker 是一个 双轨自回归模型（dual-track autoregressive model），它直接利用 Thinker 的隐藏表示来生成音频标记（audio tokens）作为输出。

Thinker 和 Talker 均以端到端方式进行训练和推理。此外，为了实现流式音频标记解码，我们引入了 滑动窗口 DiT（sliding-window DiT），通过限制感受野来减少初始数据包延迟。

Qwen2.5-Omni 的关键特性可总结如下：

Qwen2.5-Omni 是一个 统一多模态模型，能够感知所有模态信息，并以流式方式同时生成文本和自然语音响应。
我们提出了一种新颖的位置编码算法 TMRoPE（Time-aligned Multimodal RoPE），该方法显式融入时间信息，以实现音视频的同步。
我们设计了 Thinker-Talker 架构，以支持 实时理解 和 语音生成。
在多模态基准测试中，Qwen2.5-Omni 展示了卓越的性能，相较于类似规模的单模态模型表现更优，尤其在语音指令跟随任务上，其能力可与纯文本输入任务相媲美。
在需要整合多种模态的信息处理任务中（如 OmniBench 评测），Qwen2.5-Omni 达到了 最先进（state-of-the-art） 的性能。
在语音生成方面，Qwen2.5-Omni 在 seed-tts-eval 评测中表现出色，展现出强大的语音生成能力和稳健性。

**Thinker** 负责 **文本生成**。
**Talker** 通过直接接收 **Thinker** 提供的高级表示，专注于 **流式语音标记生成**。

Architecture：

如 图 2 所示，Qwen2.5-Omni 采用 Thinker-Talker 架构，其中：

Thinker 类似于大脑，负责处理和理解 文本、音频、视频 等模态输入，生成高级表示和对应的文本输出。
Talker 类似于人类的嘴巴，以流式方式接收 Thinker 生成的高级表示和文本，并顺畅地输出离散语音标记。

架构细节

Thinker 采用 Transformer 解码器，并配备 音频编码器 和 图像编码器，以增强信息提取能力。
Talker 采用 双轨【同时接收文本token和语音token】自回归 Transformer 解码器 结构（受 Mini-Omni [Xie & Wu, 2024] 启发）。
在 训练和推理 过程中，Talker 直接接收 Thinker 的高维表示，并共享其全部历史上下文信息，使整个架构作为一个统一模型进行 端到端训练和推理。

感知：

Qwen2.5-Omni 通过 Thinker 对 文本、音频、图像和视频（无音频） 进行处理，将它们转化为一系列隐藏表示作为输入。具体步骤如下：

文本输入
- 对于文本输入，我们采用 Qwen 的分词器（Byte-level Byte-pair Encoding），词汇表包含 151,643 个常规标记。
音频输入和视频中的音频
- 音频输入（包括视频中的音频部分）首先被重采样至 16kHz 的频率，然后将原始波形转化为 128 通道的梅尔频谱图（mel-spectrogram），窗口大小为 25ms，步幅为 10ms。
- 音频编码器采用 Qwen2-Audio 的音频编码器（Chu et al., 2024b），每一帧音频表示大约对应于 原始音频信号的 40ms 时长。
图像和视频输入
- 对于图像输入，我们采用 Qwen2.5-VL 的视觉编码器（基于 Vision Transformer（ViT） 模型，约 6.75 亿个参数），能够有效处理图像和视频输入。
- 视觉编码器使用混合训练方法，结合图像和视频数据，确保其在图像理解和视频理解上的高效表现。
- 为了最大程度地保留视频信息并适应音频采样率，我们采用 动态帧率（dynamic frame rate） 来进行视频采样。此外，为保持一致性，每个图像都被视为两个相同的帧。

视频与TMRoPE

我们提出了一种 音视频时间交错算法（time-interleaving），并引入了新的 位置编码方法 —— TMRoPE（Time-aligned Multimodal RoPE）。如 图 3 所示，TMRoPE 编码了多模态输入的三维位置，采用 多模态旋转位置编码（M-RoPE）【ps: Qwen2-VL多模态旋转位置编码 多模位置编码】，并结合绝对时间位置。具体方法是将原始的旋转位置编码分解为三个组件：时间、图像高度和宽度。

文本输入 使用相同的位置信息（位置 ID）来处理各组件，使得 M-RoPE 在文本输入中与 1D-RoPE 等效。

音频输入 也使用相同的位置信息，并引入绝对时间位置编码，每 40ms 对应一个时间 ID。

图像输入，每个视觉标记的时间 ID 保持不变，而高度和宽度组件则根据标记在图像中的位置分配不同的 ID。

音视频输入 情况下，音频依然使用相同的时间位置 ID 编码，每帧 40ms。视频则作为一系列图像处理，每帧对应的时间 ID 增量，同时高度和宽度组件的 ID 分配与图像一致。由于视频的帧率不是固定的，我们根据每帧实际时间动态调整时间 ID，以确保每个时间 ID 对应 40ms。

在多模态输入场景下，每种模态的位置信息初始化时会将前一模态的最大位置 ID 增加 1。

视频与音频时间交错方法

为了使模型能够同时接收视觉和听觉信息，我们采用 时间交错方法（time-interleaving） 对带有音频的视频进行特殊设计。具体做法是：

将视频的音频表示按 实际时间 每 2 秒 切分为块。
在每个 2 秒块中，先安排视频的视觉表示，再安排音频表示，从而将视频和音频的表示交错排列。

生成：

文本生成由 Thinker 直接生成，其逻辑与广泛使用的大型语言模型（LLM）相同，文本通过基于词汇表的概率分布进行自回归采样生成。生成过程中可能会采用一些技术，如 重复惩罚（repetition penalty） 和 top-p 采样，以提高文本生成的多样性。

语音生成中，Talker 接收 Thinker 生成的高维表示和采样的文本标记。高维表示和离散采样标记的结合是这个过程中的关键。作为流式算法，语音生成需要在整个文本完全生成之前预测文本的语气和态度。Thinker 提供的高维表示隐含了这些信息，使得语音生成过程更自然。此外，Thinker 的表示主要体现语义相似性而非语音相似性，因此，即使是发音上差异较大的词，其高维表示可能非常相似，这就需要输入离散的采样标记来消除这种不确定性。

我们设计了一个高效的语音编解码器 qwen-tts-tokenizer，它能够高效地表示语音的关键信息，并通过因果音频解码器流式解码成语音。接收到信息后，Talker 开始自回归地生成音频标记和文本标记。语音生成过程中不需要与文本进行逐字和逐时间戳的对齐，这大大简化了训练数据的要求和推理过程。

流式设计：

在音频和视频流式交互的背景下，初始包延迟是衡量系统流式性能的关键指标。这个延迟受到多个因素的影响：1）多模态信息输入处理引起的延迟；2）从接收到第一个文本输入到输出第一个语音标记之间的延迟；3）将第一个语音段转换为音频的延迟；4）架构本身的固有延迟，这与模型大小、计算 FLOP 数以及其他因素相关。本文将随后讨论在这四个维度上减少这些延迟的算法和架构改进。

支持预填充（Support Prefilling）

块状预填充（Chunked-prefills） 是现代推理框架中广泛使用的一种机制。为了支持模态交互中的预填充机制，我们修改了音频和视觉编码器，以支持沿时间维度的 块状注意力（block-wise attention）。具体而言，音频编码器从对整个音频的全局注意力改为对每个 2 秒的音频块进行注意力计算。视觉编码器则使用 Flash Attention 来实现高效的训练和推理，并通过一个简单的 MLP 层 将相邻的 2×2 标记合并为一个标记。补丁大小设置为 14，允许不同分辨率的图像被打包成一个序列。

流式编解码器生成（Streaming Codec Generation）

为了促进音频的流式传输，特别是对于长序列的流式处理，我们提出了一种 滑动窗口块注意力机制（sliding window block attention），该机制限制了当前标记访问的上下文范围。具体来说，我们采用了 Flow-Matching 的 DiT 模型。输入的code通过 Flow-Matching 转换为 梅尔频谱图（mel-spectrogram），然后通过修改后的 BigVGAN 将生成的梅尔频谱图重建回波形。

预训练

Qwen2.5-Omni 由三个训练阶段组成。在第一阶段，我们锁定大型语言模型（LLM）的参数，专注于训练视觉编码器和音频编码器，利用大量的音频-文本和图像-文本对来增强 LLM 的语义理解能力。在第二阶段，我们解冻所有参数，并使用更广泛的多模态数据进行训练，以实现更全面的学习。在最后阶段，我们使用长度为 32k 的数据来提升模型理解复杂长序列数据的能力。

该模型在一个多样化的数据集上进行预训练，数据类型包括图像-文本、视频-文本、视频-音频、音频-文本和文本语料库。我们将层次标签替换为自然语言提示，遵循 Qwen2-Audio（Chu et al., 2024a）的方法，这可以提高模型的泛化能力和指令跟随能力。

在初始预训练阶段，Qwen2.5-Omni 的 LLM 组件使用 Qwen2.5（Yang et al., 2024b）中的参数初始化，视觉编码器与 Qwen2.5-VL 相同，音频编码器则使用 Whisper-large-v3（Radford et al., 2023）初始化。两个编码器分别在固定的 LLM 上进行训练，最初都专注于训练各自的适配器，然后再训练编码器。这个基础训练对装备模型具有坚实的视觉-文本和音频-文本关系和对齐的理解至关重要。

预训练的第二阶段标志着一个重要的进展，它增加了 8000 亿个图像和视频相关的数据标记，3000 亿个音频相关的数据标记，以及 1000 亿个视频带音频相关的数据标记。这一阶段引入了更多的混合多模态数据和更广泛的任务，增强了听觉、视觉和文本信息之间的互动，并加深了理解。加入多模态、多任务数据集对于培养模型同时处理多任务和多模态的能力至关重要，这是一项处理复杂现实世界数据集的关键能力。此外，纯文本数据在保持和提高语言能力方面也起着重要作用。

为了提高训练效率，我们在之前的阶段将最大标记长度限制为 8192 个标记。随后，我们引入了长音频和长视频数据，并将原始文本、音频、图像和视频数据扩展到 32,768 个标记进行训练。实验结果表明，我们的数据在支持长序列数据方面取得了显著的改进。

Post-training

数据格式：

Thinker

在后训练阶段，我们采用 ChatML 格式（OpenAI, 2022）进行指令跟随数据的微调。我们的数据集包括纯文本对话数据、视觉模态对话数据、音频模态对话数据以及混合模态对话数据。

Talker

我们为 Talker 引入了一个三阶段训练过程，使 Qwen2.5-Omni 能够同时生成文本和语音响应。在第一阶段，我们训练 Talker 学习上下文延续。在第二阶段，利用 DPO（Rafailov et al., 2023）增强语音生成的稳定性。在第三阶段，我们应用了多语者指令微调，以提高语音响应的自然性和可控性。

在 上下文学习（ICL） 训练阶段，除了像 Thinker 那样使用文本监督外，我们还通过下一标记预测执行语音延续任务，利用包含多模态上下文和语音响应的广泛对话数据集。Talker 学会了从语义表示到语音的单调映射，同时获得了根据上下文生成具有多样化属性（如韵律、情感和口音）的语音的能力。此外，我们还实施了音色解耦技术，以防止模型将特定的声音与不常见的文本模式关联。

为了扩大语者和场景的覆盖范围，预训练数据不可避免地包含标签噪声和发音错误，这可能导致模型产生幻觉。为了解决这个问题，我们引入了强化学习阶段来提高语音生成的稳定性。具体来说，对于每个请求和响应文本与参考语音配对的情况，我们构建了一个数据集 D，其中包含三元组数据 (x, yw, yl)，其中 x 是输入序列的输入文本，yw 和 yl 分别是良好和不良生成的语音序列。我们根据这些样本的奖励分数进行排名，奖励分数与 词错误率（WER） 和 标点停顿错误率 相关。

最后，我们对上述基础模型进行了语者微调，使 Talker 能够采用特定的声音并提高其自然性。

Performance

我们对 Qwen2.5-Omni 进行了全面评估，与类似大小的单模态模型和 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro 等闭源模型相比，该模型在所有模态中均表现出色。在需要集成多种模态的任务（例如 OmniBench）中，Qwen2.5-Omni 实现了最佳性能。此外，在单模态任务中，它在语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）和语音生成（Seed-tts-eval 和主观自然度）等领域表现出色。

语音理解模型—OSUM

OSUM: Advancing Open Speech Understanding Models with Limited Resources in Academia

技术报告v2版：https://www.arxiv.org/pdf/2501.13306v2
项目页面：https://github.com/ASLP-lab/OSUM
测试体验页面：https://huggingface.co/spaces/ASLP-lab/OSUM

大型语言模型（LLMs）在各种下游任务中取得了显著进展，启发了业界对语音理解语言模型（speech understanding language models, SULMs）的研发，以期实现基于语音情感、性别等副语言的高表现力交互。然而，大多数先进的SULM是由行业头部公司开发的，消耗大规模的数据和计算资源。而这些资源在学术界并不容易获得。此外，虽然训练好的模型和推理代码被开源了，但训练框架和数据处理流程依然缺乏透明度，这也为进一步研究产生了障碍。在本研究中，我们提出了OSUM，一个开放的语音理解模型，旨在探索在有限的学术资源下训练SLUM的潜力。OSUM模型将Whisper编码器与Qwen2 LLM相结合，支持广泛的语音任务，包括语音识别（ASR）、带时间戳的语音识别（SRWT）、语音事件检测（VED）、语音情感识别（SER）、说话风格识别（SSR）、说话者性别分类（SGC）、说话者年龄预测（SAP）和语音转文本聊天（STTC）。通过采用ASR+X训练策略，OSUM通过同时优化模态对齐和目标任务，实现了高效稳定的多任务训练。除了提供强大的性能，OSUM还强调透明度，提供公开可用的代码，并详细介绍了数据处理流程，以期为学术界提供有价值的参考，旨在加速先进SULM技术的研究和创新。

方案设计

OSUM模型将Whisper编码器与Qwen2 LLM相结合，支持广泛的语音任务，包括语音识别（ASR）、带时间戳的语音识别（SRWT）、语音事件检测（VED）、语音情感识别（SER）、说话风格识别（SSR）、说话者性别分类（SGC）、说话者年龄预测（SAP）和语音转文本聊天（STTC）。通过采用ASR+X训练策略，OSUM通过同时优化模态对齐和目标任务，实现了高效稳定的多任务训练。

模型结构

模型的输入包括语音和自然语言提示。不同于 Whisper 和Qwen-Audio 依靠指令标签，Osum采用描述性文本，将所有八个支持任务转换为图2所示。当前，我们的模型仅支持基于文本的响应，但是音频输出功能正在积极开发。

如图2所示，OSUM模型由一个Speech Encoder、一个Adaptor和一个LLM组成。在训练过程中，Speech Encoder和Adaptor中的所有参数都会更新，而大语言模型则使用LoRA方法进行微调。各部分具体配置如下：

Speech Encoder: Whisper-Medium (769M)；
Adaptor: Conv1D * 3 + Transformer * 4，4倍下采样；
LLM: Qwen2-7B-Instruct带LoRA。LoRA hyperparameters-α, rank, and dropout ratio are set to 32, 8, and 0.1,

多任务监督训练

训练过程包括两个阶段：

首先，在没有LLM的情况下，对原始的Whisper模型进行多任务监督微调，多任务数据微调了 Whisper ，以确保OSUM模型的更快收敛。此外，此阶段使我们能够验证多任务数据的可靠性。具体来说，我们扩展了Whisper的指示标签，以适应更多的任务，每个前向推理仅执行一个任务。

其次，将微调后的Whisper编码器与Qwen2大语言模型相结合，构建出完整的OSUM系统，然后使用更大的数据集进行进一步的监督训练。

OSUM模型的输入包括一段语音和一个自然语言描述的prompt，而输出在现阶段仅支持文本回复，音频输出功能正在开发中。为节省计算资源，OSUM的多任务训练引入了一种“ASR+X”范式，即同时训练ASR任务和一个附加任务X。这在加速训练的同时，允许执行X任务时参考文本和声学两种特征，从而提升性能和训练稳定性。“ASR+X”范式是在LLM的自回归框架内通过调整预测标签来实现的，无需对模型架构或损失函数进行修改。执行不同的X任务是通过给LLM不同的自然语言prompt来实现的，每个任务有5个候选prompt，训练时随机选择一个。prompt的示例如表1所示。

训练数据

OSUM旨在使用多样化的语音数据集进行多任务训练，目标是构建一个能够在对话场景中全面理解输入语音的统一模型。多任务训练过程使各个任务能够从共享学习中获益，从而提升模型的整体性能。有关用于训练的数据集的详细信息见表2所示，本版本模型的训练数据规模大约为5万小时。

技术性能

总览

如图2所示，OSUM 模型和Qwen2-Audio 相比，在大多数任务中，尽管 OSUM 使用的计算资源和训练数据明显更少，但它的表现优于Qwen2-Audio。

图2 OSUM与Qwen2-Audio各项任务性能对比的雷达图。雷达图中每个模型各项任务的值是基于公开测试集和内部测试集的平均结果得出的

各项指标与性能演示

ASR（语音识别）：如表4所示，OSUM在中文ASR上表现优越，具体地，在WenetSpeech test meeting、3个AISHELL-2子测试集以及4个内部使用的SpeechIO测试集上优于其他模型。OSUM在英语测试集上性能也可与SenseVoice-S相媲美。值得注意的是，这些结果是在使用少得多的训练数据的情况下取得的。此外，我们发现，即使在训练过程中未纳入中英混语料数据集，OSUM在识别中英混语音方面也展现出了令人惊讶的出色能力。

表4公开测试集和内部测试集上ASR任务的评估结果。加粗字体表示同一测试集中的最佳结果。所有内部测试结果均由我们自行推理得出

表45公开测试集和内部测试集上多任务的评估结果。每个测试集的最佳结果都用粗体突出显示。蓝色字体显示的结果以及内部测试集的结果，均是我们使用原始发布的模型自行推理得出的

SRWT（带时间戳的语音识别）：如表5所示，OSUM模型在SRWT任务上的性能显著优于Whisper-Large-v3，相对优势达到了36.70%，并且也超过了Qwen-Audio。此外，OSUM的表现甚至略微超过了GMM-HMM模型，而后者在时间戳预测任务被广泛使用。另外，此功能不仅使得OSUM能够以端到端的方式预测时间戳，更重要的是，它引导OSUM模型理解了“时间”这一概念。在将来，我们将会利用这一能力继续开发更灵活的应用，例如判断音频中何时出现了语音事件，何时出现了说话人转换等。

VED（语音事件检测）：我们首先在公开测试集ESC-50和VocalSound上评估OSUM的性能。ESC-50包含大量的非人声音频事件，我们将它们归类为“其他”。表45示的实验结果表明，OSUM可以成功地将这些非人声音频事件归类为“其他”。此外，在VocalSound数据集上的结果显示，OSUM与Qwen2-audio相比虽然存在一定差距，但也取得了超过80%的准确率。值得注意的是，为更加符合真实使用场景，我们的训练数据是语音和音频事件拼接而成，但公开测试集只有孤立的音频事件而没有说话语音。即便存在这一不匹配的情况，OSUM模型的在公开测试集上的结果也证明了其有效性和泛化性。与公开测试集不同，我们人工录制了同时包含语音和声学事件的内部测试集。表45结果表明，PANNs由于其仅为孤立音频事件检测而设计，在我们内部测试集中基本处于不可用状态。Qwen2-audio的表现相对较好，但也出现了性能下降。相比之下，OSUM模型在公开测试集和内部测试集上都取得了较为均衡的结果，展现出了更强的泛化能力。

SER（语音情感识别）：如表45示，对于SER任务，使用公开数据集的实验中，OSUM在MER2023测试集上展现出了卓越的性能，超过了一些近期的公开基准模型。在MELD数据集上，OSUM的性能略低于SenseVoice-L模型，这很可能是因为后者在更大规模的语音情感数据集上进行了训练。此外，OSUM在内部测试集上的结果与EmoBox模型相当，显著优于其他对比方法。但是，我们也观察到，厌恶和恐惧这两种情感尤其难以识别，其归因于这两种情感的训练数据更加稀缺，也容易和其他情感混淆。

SSR（说话风格识别）：表5中实验表明，OSUM所采用的声学-文本双模态风格分类方法的表现显著优于GLM-4-9B-Chat所采用的单文本模态方法，这充分证明了“ASR+X”策略的价值。现阶段OSUM能够区分八种风格：“新闻科普”，“恐怖故事”，“童话故事”，“客服”，“诗歌散文”，“有声书”，“日常口语”以及“其他”。我们详细分析了测试集上各类别的准确率，发现OSUM在对“新闻科普”、“有声书”、“童话故事”以及“客服”风格类别上表现出色；然而，在“诗歌散文”、“恐怖故事”类别上仍有提升空间。有趣的是，我们发现从实际测试的主观体验上来说，OSUM风格分类正确率是超过测试集的，总体来说可以让人满意。

SGC（说话者性别分类）：在SGC公开测试集上的结果表明，OSUM在AISHELL-1测试集上达到了100%的准确率。这一结果在一定程度上表明该任务上存在说话人过拟合现象。此外，在Kaggle测试集上，我们的方法略优于Qwen2-Audio。但在我们的内部测试集上，OSUM的性能略低于Qwen2-Audio，但依然超过了95%。总之，OSUM在SGC任务上展现出了不错的性能，而且实测效果很少出现性别判断错误的情况。

SAP（说话者年龄预测）：在SAP任务上，由于我们发现青少年和成年人的声学相似度非常高，这使得有效区分他们变得很复杂。因此，我们将年龄分为三类：儿童、成年人和老年人。尽管我们努力调试了prompt，但Qwen2-Audio在Kaggle测试集和我们的内部测试集上，年龄分类准确率都较低。这可能是因为这些模型对年龄的分类过于细致，从而影响了Qwen2-Audio模型的最终效果。表4中结果显示，OSUM在Kaggle测试集上显著优于Qwen2-Audio，达到了76.52%的准确率。在我们的内部测试集上OSUM分类准确率虽然略有下降，但仍然超过了Qwen2-Audio。这表明OSUM在不同的数据上表现出了很强的泛化能力。

STTC（语音转文本聊天）：如表5所示，在STTC任务中，我们在所有测试集上都遵循了AirBench的评估协议。这包括提供音频查询的文本以及两个不同答案的文本，让基于文本的大语言模型（LLM）给出1到10的主观评分。这两个答案一个是真实回复，另一个是语音大语言模型（SULM）生成的答案。测试结果表明，在AirBench的官方speech子测试集上，OSUM的得分虽然低于Qwen2-Audio，但也处于一个合理范围。这主要是因为我们没有使用英语对话数据进行训练，目前的得分完全依赖于大语言模型自身的表现。反之，在我们内部的中文对话测试集上，OSUM的表现优于Qwen2-Audio，这充分证明了OSUM在中文对话任务上性能是不错的。总体而言，我们的OSUM模型在对话能力方面与Qwen2-Audio相当。

更多功能

OSUM理解大模型在将来会提供更多的功能，可作为通用语音打标工具使用。此外，我们正在开发的功能包括：

同时支持ASR+X和单X任务模式，在执行单X任务打标时推理速度更快。
同时输出ASR+X1+X2+..Xn的多任务打标模式，一次性提供几乎全部所需标签。
增加更多的理解任务。

Step-Audio: 语音大模型

技术报告：https://arxiv.org/abs/2502.11946
推理代码和模型权重Step-Audio-Chat, Step-Audio-TTS-3B 和 Step-Audio-Tokenizer
Github：https://github.com/stepfun-ai/Step-Audio
Step-Audio-AQAA: a Fully End-to-End Expressive Large Audio Language Model
技术详解：https://www.zhihu.com/question/12539093156/answer/105904691498

由阶跃星辰发布并开源的130B参数的语音大模型Step-Audio(跃问)，具备实时对话、生成语音的风格控制（情感、方言、唱歌等），此外还具体工具调用、角色扮演的能力。

阶跃星辰：Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统，支持多语言对话（如中文，英文，日语），语音情感（如开心，悲伤），方言（如粤语，四川话），可控制语速及韵律风格，支持RAP和哼唱等。其核心技术突破体现在以下四大技术亮点：

1300亿多模态模型: 单模型能实现理解生成一体化完成语音识别、语义理解、对话、语音克隆、语音生成等功能，开源千亿参数多模态模型 Step-Audio-Chat。
高效数据生成链路: 基于130B 突破传统 TTS 对人工采集数据的依赖，生成高质量的合成音频数据，并同步开源首个基于大规模合成数据训练，支持 RAP 和哼唱的指令加强版语音合成模型 Step-Audio-TTS-3B ，该模型具有增强的指令遵循功能以控制语音综合的能力。
精细语音控制: 支持多种情绪（如生气，高兴，悲伤）、方言（包括粤语、四川话等）和唱歌（包括 RAP、干声哼唱）的精准调控，满足用户对多样化语音生成的需求。
扩展工具调用: 通过 ToolCall 机制和角色扮演增强，进一步提升其在 Agents 和复杂任务中的表现。

模型组成

图2 采用了AQTA（**音频输入，文本输出） + TTS框架** 进行实时语音对话

Step-Audio的体系结构。 Step-Adio主要由三个组成部分组成：语音令牌，LLM和语音解码器。语音令牌器负责将输入语音离散到令牌中。LLM模型接收文本和语音令牌，输出文本，而语音解码器生成波形输出。

传统的语音对话系统通常采用包括ASR的级联建筑，LLM和TTS模块。但是，我们提出的模型在训练阶段进行了全面的多模式培训以及对文本和音频的一致性，已经具有端到端的语音对话功能。尽管对替代设计进行了广泛的探索，但我们最终采用了AQTA（音频输入，文本输出） + TTS框架 进行实时语音对话，如图2所示，这是由以下考虑的驱动的：

高质量的纯净对话数据的稀缺性：纯净对话数据的可用性有限，再加上其受限的场景，限制了端到端语音对话模型的训练效率。
输出语音的可控性和自定义：通过引入TTS模块，我们可以灵活地控制语音参数，例如音色和音调，以满足用户的个性化需求，同时不断增强模型的表现力能力。

在Step-Audio系统中，音频流采用Linguistic tokenizer【语义】（码率16.7Hz，码本大小1024）与Semantice tokenizer【声学】（码率25Hz，码本大小4096）并行的双码本编码器方案，双码本在排列上使用了2:3时序交错策略。通过音频语境化持续预训练和任务定向微调强化了130B参数量的基础模型（Step-1），最终构建了强大的跨模态语音理解能力。为了实现实时音频生成，系统采用了混合语音解码器，结合流匹配（flow matching）与神经声码技术。此外，采用语音活动检测（VAD）模块提取声段。

Tokenizer

语言分词器用于提取结构化的高级表征，包括音素和语言特征；而语义分词器则用于编码语义和粗粒度的声学特征。

我们通过token级交错方法实现Linguistic token与Semantic token的有效整合。Linguistic tokenizer的码本大小是1024，码率16.7Hz；而Semantic tokenizer则使用4096的大容量码本来捕捉更精细的声学细节，码率25Hz。鉴于两者的码率差异，我们建立了2:3的时间对齐比例——每两个Linguistic token对应三个Linguistic token形成时序配对。

linguistic tokenization 利用 Paraformer 编码器的输出，该输出以 16.7 Hz 【60ms一帧】的token 速率量化为离散表示。对于语义标记化，采用 CosyVoice的 tokenization ，该 tokenization 专门设计用于高效编码生成自然且富有表现力的语音输出所必需的特征，以 25 Hz 的标记速率运行。

语言模型

为了提升Step-Audio有效处理语音信息的能力，并实现精准的语音-文本对齐，我们在Step-1（一个拥有1300亿参数的基于文本的大型语言模型LLM）的基础上进行了音频持续预训练。

在多轮对话系统中，音频令牌和文本令牌之间的长度差异需要有效的处理策略。为了解决这个问题，历史信息最初是在系统输入之前使用ASR模型转录为文本格式的，从而优化了计算效率。但是，应注意的是，该模型架构保留了在需要时处理和利用音频标记作为历史上下文的能力。

语音解码器

Step-Audio语音解码器主要是将包含语义和声学信息的离散标记信息转换成连续的语音信号。该解码器架构结合了一个30亿参数的语言模型、流匹配模型（flow matching model）和梅尔频谱到波形的声码器（mel-to-wave vocoder）。为优化合成语音的清晰度（intelligibility）和自然度（naturalness），语音解码器采用双码交错训练方法（dual-code interleaving），确保生成过程中语义与声学特征的无缝融合。

实时推理管线

为了实现实时的语音交互，我们对推理管线进行了一系列优化。其中最核心的是控制模块（Controller），该模块负责管理状态转换、协调响应生成，并确保关键子系统间的无缝协同。这些子系统包括：

语音活动检测（VAD）：实时检测用户语音起止
流式音频分词器（Streaming Audio Tokenizer）：实时音频流处理。输入音频流是通过两个平行的令牌管道处理的，每个管道都采用固定持续分段。将所得令牌无缝合并为2：3交织比的单个序列。如果没有流音频令牌，根据音频输入的长度，推理时间将明显较慢。
Step-Audio语言模型与语音解码器：多模态回复生成
上下文管理器（Context Manager）：动态维护对话历史与状态。我们的系统利用文本转录而不是原始的音频令牌来实现历史上下文，因为它提供了更紧凑的表示（平均文本审计代币比率为1:14），提高性能，并启用更长的对话，对质量的影响最小的影响很小。 ASR异步将用户语音转录为文本，并保持准确，最新的对话历史记录。

为了减少交互延迟，系统会预先生成推测响应。这最大限度地减少了感知延迟并增强了响应速度，但代价是丢弃推测响应时偶尔会产生冗余计算。系统初始状态为 Silence ，等待用户输入。当语音激活检测 (VAD) 检测到活动语音时，系统将转换到 UserSpeaking 状态。在此状态下，流音频标记器 (Streaming Audio Tokenizer) 开始将音频转换为标记。如果用户短暂暂停，系统将进入 UserPaused 状态，并触发推测响应生成。通过预先生成响应以预期输入完成，系统可以在对话恢复时减少延迟。如果用户继续说话，则丢弃推测响应。一旦系统确信用户已结束说话，它将转换到 BotReplying 状态，提交最新的推测响应并输出其音频。如果被用户语音打断，系统将优先处理新的输入，同时保持对话的连续性。完成响应后，系统返回静默状态，准备进行下一次交互。经验分析表明，大约 40% 的推测响应能够成功提交。与非推测方法相比，此机制可将每次响应的延迟缩短约 500 毫秒。

数据集：

多模态预训练数据集整合了音频、文本、图像三大类数据资源。音频部分包含 1.1 万亿个音频连续数据（约 730 万小时）、1130 亿个 TTS（文本转语音）合成语音数据（约 70 万小时）、1050 亿个 ASR（自动语音识别）数据（约 65 万小时）和 3500 亿个音文交替数据（约 200 万小时）。文本数据总计 8000 亿个，涵盖网页文档、书籍、代码和专有资料。图像部分包含 8000 亿个图文配对/交替数据，来源于网页、书籍和专有资源。

三阶段训练

阶段 1：我们通过添加 5,120 个音频 token 来扩展预训练文本模型的词汇量，并集成预训练图像编码器，形成 Step-Omni 模型。在训练过程中，为了最大程度地降低文本模型能力的损失，文本模型主干网络的学习率始终保持在较低水平 (2e-5)。然而，嵌入和语言模型 (LM) 头的学习率设置为主干网络的五倍，以促进新添加 token 的更快收敛。同时，图像编码器在整个训练过程中保持冻结状态。在此阶段，音频、文本和图像数据的使用比例为 2:1:1，音频数据仅由纯音频延续任务组成。

Stage2：在 Stage1 阶段使用 1.2T 个 token 进行训练后，我们将音频文本交错数据纳入进一步训练，音频后续数据与音频文本交错数据的比例为 1:1。在此阶段，音频、文本和图像数据的比例仍为 2:1:1。

阶段 3：在阶段 2 阶段使用 800B token进行训练后，我们将 ASR 和 TTS 数据纳入进一步训练。音频连续数据、音文交织数据、ASR 数据和 TTS 数据的比例设置为 1:1:1:1。在此阶段，音频、文本和图像数据的比例调整为 4:3:3。此外，嵌入层和 LM 头的学习率与主干网络同步，采用余弦算法，学习率从 2e-5 递减至 5e-6。

后训练细节

在后训练阶段，我们针对自动语音识别（ASR）与文本转语音（TTS）任务进行了专项监督微调（Supervised Fine-Tuning, SFT）。对于音频输入-文本输出（Audio Question Text Answer, AQTA）任务，我们采用多样化高质量数据集进行SFT，并采用了基于人类反馈的强化学习（RLHF）以提升响应质量，从而实现对情感表达、语速、方言及韵律的细粒度控制。

TTS模型：

Training Detail：

与传统的语音合成（TTS）系统注重对说话人特征、情感表达、语言特征和风格元素的精细控制不同，我们的方法采用了基于聊天的范式和大型语言模型（LLMs）的训练方法。这一战略对齐显著增强了系统的灵活性，同时建立了一个可扩展的框架，以支持未来模型和数据的扩展，从而解决了语音合成系统在可扩展性方面的关键挑战。

监督的微调格式：

SFT格式包括三个基本组成部分：系统提示、人类输入和助手回复，采用两轮对话结构。在这种格式中，系统提示作为指定说话人属性和定义支持的指令标签的基础元素。人类输入和助手回复部分则专门用于处理文本内容和双词典表示。第一轮的文本和音频标记可以用来保持领域内说话人的音色和风格一致性，同时也支持领域外的零样本克隆。

指令标签 ：

指令标签分为两种不同的类别：描述性标签和比较性标签。描述性标签用于控制语言、方言、声音和风格等方面，而比较性标签则用于情感和语速控制的层次化区分。描述性标签的数据是通过Step-Audio模型克隆生成的，支持包括日语、韩语、粤语、四川方言、可爱声音、说唱和唱歌等语言和风格。比较性标签的数据则是通过Audio Edit模型生成的，支持诸如快乐、愤怒、悲伤等情感，以及快慢等语速变化，每种变化都被分为五个层级。

我们使用第5.1.1节中概述的SFT数据，并采用一个具有30亿参数的模型，训练一个周期，初始学习率为 2×10−5。学习率采用余弦衰减策略进行调整，最低值设置为 2×10−6。

AQTA：

我们为AQTA任务应用了基于人类反馈的强化学习（RLHF），从而创建了Step-Audio-Chat模型，如图6所示。

Exploring Tokenizer for Audio Pretraining

研究了使用单码本的训练方法。在实验中，我们发现，当仅使用语义分词训练模型时，下一个分词的预测困惑度相对较低，并且生成内容与前文的语义一致性良好。然而，由于丢弃过多语义分词会导致声学信息大量丢失，后续通过声码器进行的音频恢复在音色和韵律方面会严重受损，导致听觉质量不佳。当仅使用语言分词进行训练时，声码器从模型的后续部分恢复的音频听起来不错，但下一个分词的预测困惑度非常高，并且后续部分与前文的语义一致性较差。

当使用交错的语义标记和语言标记进行训练时，语义标记确保了后续内容与前一上下文的语义一致性，而语言标记则确保了重建音频的听觉质量。由于语义标记和语言标记之间的相互参考，我们观察到当使用双码本训练时，与使用单码本相比，语义标记和语言标记的下一个标记预测困惑度都有所降低。

将语言离散标记和语义离散标记按 2:3 的比例分组交织，有助于加快训练损失的收敛速度。更重要的是，将语言标记扩展至 CosyVoice 语义标记，增强了模型理解和遵循多轮历史指令的能力，并有效缓解发音不清、吐字不清等问题，显著提升了 CosyVoice 单码性能。

说明：

用了AQTA（音频输入，文本输出） + TTS框架 情况下是如何实现多语言对话（如中文，英文，日语），语音情感（如开心，悲伤），方言（如粤语，四川话），可控制语速及韵律风格，支持RAP和哼唱 ？

通过TTS【cosyvoice】代码可知，LLM的文本输出中会包含 {语言}【情感】 [语速] 这样的文本输出，然后TTS用于合成对应的音频：使用[{}]的声音，根据这些情感标签的指示，调整你的情感、语气、语调和哼唱节奏

    self.sys_prompt_dict = {
        "sys_prompt_for_rap": "请参考对话历史里的音色，用RAP方式将文本内容大声说唱出来。",
        "sys_prompt_for_vocal": "请参考对话历史里的音色，用哼唱的方式将文本内容大声唱出来。",
        "sys_prompt_wo_spk": '作为一名卓越的声优演员，你的任务是根据文本中（）或()括号内标注的情感、语种或方言、音乐哼唱、语音调整等标签，以丰富细腻的情感和自然顺畅的语调来朗读文本。\n# 情感标签涵盖了多种情绪状态，包括但不限于：\n- "高兴1"\n- "高兴2"\n- "生气1"\n- "生气2"\n- "悲伤1"\n- "撒娇1"\n\n# 语种或方言标签包含多种语言或方言，包括但不限于：\n- "中文"\n- "英文"\n- "韩语"\n- "日语"\n- "四川话"\n- "粤语"\n- "广东话"\n\n# 音乐哼唱标签包含多种类型歌曲哼唱，包括但不限于：\n- "RAP"\n- "哼唱"\n\n# 语音调整标签，包括但不限于：\n- "慢速1"\n- "慢速2"\n- "快速1"\n- "快速2"\n\n请在朗读时，根据这些情感标签的指示，调整你的情感、语气、语调和哼唱节奏，以确保文本的情感和意义得到准确而生动的传达，如果没有()或（）括号，则根据文本语义内容自由演绎。',
        "sys_prompt_with_spk": '作为一名卓越的声优演员，你的任务是根据文本中（）或()括号内标注的情感、语种或方言、音乐哼唱、语音调整等标签，以丰富细腻的情感和自然顺畅的语调来朗读文本。\n# 情感标签涵盖了多种情绪状态，包括但不限于：\n- "高兴1"\n- "高兴2"\n- "生气1"\n- "生气2"\n- "悲伤1"\n- "撒娇1"\n\n# 语种或方言标签包含多种语言或方言，包括但不限于：\n- "中文"\n- "英文"\n- "韩语"\n- "日语"\n- "四川话"\n- "粤语"\n- "广东话"\n\n# 音乐哼唱标签包含多种类型歌曲哼唱，包括但不限于：\n- "RAP"\n- "哼唱"\n\n# 语音调整标签，包括但不限于：\n- "慢速1"\n- "慢速2"\n- "快速1"\n- "快速2"\n\n请在朗读时，使用[{}]的声音，根据这些情感标签的指示，调整你的情感、语气、语调和哼唱节奏，以确保文本的情感和意义得到准确而生动的传达，如果没有()或（）括号，则根据文本语义内容自由演绎。',
    }

InspireMusic–阿里通义开源音乐生成框架

InspireMusic是由通义实验室开源的音乐生成技术，旨在打造一款集音乐生成、歌曲生成、音频生成能力为一体的开源AIGC工具包。

为研究者和开发者提供音乐/歌曲/音频生成模型的训练和调优工具及模型，方便优化生成效果；同时为音乐爱好者提供一个易于使用的文本生成音乐/歌曲/音频创作工具，可通过文字描述或音频提示来控制生成内容。

目前，InspireMusic已开源了音乐生成的训练和推理代码，支持通过简单的文字描述或音频提示，快速生成多种风格的音乐作品。

InspireMusic的文生音乐创作模式涵盖了多种曲风、情感表达和复杂的音乐结构控制，提供了极大的创作自由度和灵活性。未来计划进一步开放歌唱生成和音频生成的基础模型，欢迎研究者、开发者及用户积极参与体验和研发。该开源工具包为社区开发者提供了丰富的技术资源，支持从学术研究到产品开发的广泛应用。

🎶 主要特点

统一的音频生成框架：基于音频大模型技术，InspireMusic支持音乐、歌曲及音频的生成，为用户提供多样化选择；
灵活可控生成：基于文本提示和音乐特征描述，用户可精准控制生成音乐的风格和结构；
简单易用：简便的模型微调和推理工具，为用户提供高效的训练与调优工具。

🌟代码仓库

GitHub 仓库：InspireMusic（https://github.com/FunAudioLLM/InspireMusic）
Online Demo:ModelScope创空间：https://modelscope.cn/studios/iic/InspireMusic/summary

核心模型

InspireMusic由音频tokenizer、自回归Transformer模型、基于常微分方程的扩散模型即Conditional Flow Matching (CFM)模型、Vocoder所组成，可支持文本生成音乐、音乐续写等任务。通过具有高压缩比的单码本WavTokenizer将输入的连续音频特征转换成离散音频token，然后利用基于Qwen模型初始化的自回归Transformer模型预测音频token，再由CFM扩散模型重建音频的潜层特征，最终通过Vocoder输出高质量的音频波形。两种推理模式的设计：fast模型和高音质模型，为不同需求的用户提供了灵活的选择。

工具包安装使用指南

第一步：下载代码库

git clone --recursive https://github.com/FunAudioLLM/InspireMusic.git
# If you failed to clone submodule due to network failures, please run the following command until success
cd InspireMusic
git submodule update --init --recursive

第二步：安装代码库

conda create -n inspiremusic python=3.8
conda activate inspiremusic
cd InspireMusic
# pynini is required by WeTextProcessing, use conda to install it as it can be executed on all platforms.
conda install -y -c conda-forge pynini==2.1.5
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
# install flash attention to speedup training, support version 2.6.3
pip install flash-attn --no-build-isolation

第三步：下载模型

InspireMusic-Base模型（https://www.modelscope.cn/iic/InspireMusic）
# git模型下载，请确保已安装git lfs
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/InspireMusic.git pretrained_models/InspireMusic-Base

第四步：基本用法说明快速开始

cd InspireMusic/examples/music_generation/
bash run.sh

训练LLM和flow matching模型样例脚本。

torchrun --nnodes=1 --nproc_per_node=8 \
    --rdzv_id=1024 --rdzv_backend="c10d" --rdzv_endpoint="localhost:0" \
    inspiremusic/bin/train.py \
    --train_engine "torch_ddp" \
    --config conf/inspiremusic.yaml \
    --train_data data/train.data.list \
    --cv_data data/dev.data.list \
    --model llm \
    --model_dir `pwd`/exp/music_generation/llm/ \
    --tensorboard_dir `pwd`/tensorboard/music_generation/llm/ \
    --ddp.dist_backend "nccl" \
    --num_workers 8 \
    --prefetch 100 \
    --pin_memory \
    --deepspeed_config ./conf/ds_stage2.json \
    --deepspeed.save_states model+optimizer \
    --fp16

torchrun --nnodes=1 --nproc_per_node=8 \
    --rdzv_id=1024 --rdzv_backend="c10d" --rdzv_endpoint="localhost:0" \
    inspiremusic/bin/train.py \
    --train_engine "torch_ddp" \
    --config conf/inspiremusic.yaml \
    --train_data data/train.data.list \
    --cv_data data/dev.data.list \
    --model flow \
    --model_dir `pwd`/exp/music_generation/flow/ \
    --tensorboard_dir `pwd`/tensorboard/music_generation/flow/ \
    --ddp.dist_backend "nccl" \
    --num_workers 8 \
    --prefetch 100 \
    --pin_memory \
    --deepspeed_config ./conf/ds_stage2.json \
    --deepspeed.save_states model+optimizer

推理脚本

cd InspireMusic/examples/music_generation/
bash infer.sh

带有CFM的推理模式

pretrained_model_dir = "pretrained_models/InspireMusic/"
for task in 'text-to-music' 'continuation'; do
  python inspiremusic/bin/inference.py --task $task \
      --gpu 0 \
      --config conf/inspiremusic.yaml \
      --prompt_data data/test/parquet/data.list \
      --flow_model $pretrained_model_dir/flow.pt \
      --llm_model $pretrained_model_dir/llm.pt \
      --music_tokenizer $pretrained_model_dir/music_tokenizer \
      --wavtokenizer $pretrained_model_dir/wavtokenizer \
      --result_dir `pwd`/exp/inspiremusic/${task}_test \
      --chorus verse \
      --min_generate_audio_seconds 8 \
      --max_generate_audio_seconds 30 
done

不带CFM的fast推理模式

pretrained_model_dir = "pretrained_models/InspireMusic/"
for task in 'text-to-music' 'continuation'; do
  python inspiremusic/bin/inference.py --task $task \
      --gpu 0 \
      --config conf/inspiremusic.yaml \
      --prompt_data data/test/parquet/data.list \
      --flow_model $pretrained_model_dir/flow.pt \
      --llm_model $pretrained_model_dir/llm.pt \
      --music_tokenizer $pretrained_model_dir/music_tokenizer \
      --wavtokenizer $pretrained_model_dir/wavtokenizer \
      --result_dir `pwd`/exp/inspiremusic/${task}_test \
      --chorus verse \
      --fast \
      --min_generate_audio_seconds 8 \
      --max_generate_audio_seconds 30 
done

‍

Baichuan-Omni-1.5 多模态语音大模型

Baichuan-Omni-1.5 🤗 | Baichuan-Omni-1.5-Base 🤗 | 技术报告 📖

OpenMM-Medical 🤗 | OpenAudioBench 🤗

Github: https://github.com/baichuan-inc/Baichuan-Omni-1.5/

Baichuan-Omni-1.5 是 Baichuan-omni 系列的最新、性能一流模型。该模型通过端到端方式训练和推理。与其他开源模型相比，Baichuan-Omni-1.5 在文本、图像、音频和视频输入的理解能力有显著提升，并支持了可控的实时语音对话和多模态实时交互的新功能。此外，Baichuan-Omni-1.5 也是目前最出色的开源医疗多模态模型。Baichuan-Omni-1.5 的主要特性包括：

多模态理解和交互能力： Baichuan-Omni-1.5 接受图像、视频、文本、音频作为输入，并生成高质量文本和语音输出，能够在不损害任何模态能力的情况下实现无缝的高质量跨模态交互，并和用户进行实时语音对话。在针对全模态理解的综合评测基准 OminiBench 中，Baichuan-Omni-1.5 取得开源社区一流水平，并超过了 GPT-4o-mini。
优秀的视觉能力： Baichuan-Omni-1.5 在 OpenCompass 常用的十个视觉评测集上平均得分 73.3，在7B量级的大小下，在图像理解方面超越了 GPT-4o-mini，比GPT-4o-mini平均高出6分，并且和GPT-4o的结果相近。此外，视频理解表现也优于GPT-4V。
出色的语音能力： Baichuan-Omni-1.5 通过一个 8 层 RVQ 音频Tokenizer（Baichuan-Audio-Tokenizer），在 12.5 Hz 帧率下实现了语义和声学信息捕获的最佳平衡，支持高质量可控制声音的中英双语实时对话。Baichuan-Omni-1.5 在语音理解任务优于 GLM-4-Voice，并在语音对话的语义和声学评估中展现了开源模型中最高的语音生成性能。同时，我们还开源了音频理解和生成基准（OpenAudio-Bench），以评估音频的端到端能力。
领先的医疗图像理解能力： 我们从开源数据集中收集了一个比较全面的医学理解基准（OpenMM-Medical）用于评估模型的医学能力。Baichuan-Omni-1.5 在 GMAI-MMBench 以及 OpenMM-Medical 上取得了最佳的表现。在 OpenMM-Medical 上，Baichuan-Omni-1.5 仅使用 7B 的 LLM 取得了 83.8% 的高分，超过 Qwen2-VL-72B 的 80.7%。

在图像、视频和音频模态上的评估。（左）Baichuan-Omni-1.5覆盖了比Qwen2 VL更多的模态，并且超越了当前领先的全模态模型VITA-1.5和MiniCPM-o 2.6。（右）各模态在所有基准测试中的平均得分。

简介

Baichuan-Omni-1.5是一款全模态模型，具备全模态理解能力，并提供端到端的音频生成能力。为了实现跨模态的流畅高质量互动，同时不妥协任何模态的能力，优先优化了三个关键方面。首先，建立了一个全面的数据清洗和合成管道，用于多模态数据处理，获得了约5000亿条高质量数据（包括文本、音频和视觉数据）。其次，设计了一种音频分词器（Baichuan-Audio-Tokenizer），能够同时捕捉音频中的语义和声学信息，从而实现无缝集成，并提升与多模态大语言模型（MLLM）的兼容性。最后设计了一个多阶段的训练策略，逐步整合多模态对齐和多任务微调，确保各模态之间的有效协同。Baichuan-Omni-1.5在全模态能力方面领先于当前的模型（包括GPT4o-mini和MiniCPM-o 2.6）。值得注意的是，在多个多模态医学基准测试中，它取得了与领先模型（如Qwen2-VL-72B）相媲美的成绩。

与开源对手相比，Baichuan-Omni-1.5在文本、图像、音频和视频输入的理解能力上表现出显著的提升。特别地，该模型在可控实时语音互动和跨模态实时协同理解方面展示了令人印象深刻的能力。除了其通用能力外，Baichuan-Omni-1.5在医疗领域作为最出色的多模态大语言模型（MLLM）脱颖而出。这为人工智能在促进人类社会福祉方面开辟了令人兴奋的新可能性。Baichuan-Omni-1.5的架构如下图所示。根据评估结果，我们总结了Baichuan-Omni-1.5的关键优势和贡献：

• 全模态互动：Baichuan-Omni-1.5旨在处理文本、图像、音频和视频输入，输出高质量的文本和语音。它能够实现无缝、高质量的跨模态互动，且不会妥协任何模态的能力。

• 卓越的视觉-语言能力：Baichuan-Omni-1.5在十个图像理解基准测试中平均得分为73.3，超越GPT-4o-mini平均6分。

• 统一且出色的语音能力：我们设计了一种8层的RVQ音频分词器（Baichuan-Audio-Tokenizer），在捕捉语义和声学信息之间达到了最佳平衡，帧率为12.5Hz，支持高质量的可控双语（中文和英文）实时对话。同时，我们还开源了音频理解和生成基准（OpenAudioBench），用于评估音频的端到端能力。

• 领先的医学图像理解能力：我们收集了一个全面的医学理解基准：OpenMM-Medical，这是多个现有数据集的整合。我们的模型在GMAI-MMBench和OpenMM-Medical上取得了最先进的表现。具体来说，在OpenMM-Medical上，Baichuan-Omni-1.5使用7B大语言模型取得了83.8%的得分，超过了Qwen2-VL-72B的80.7%。

模型架构：

Baichuan-Omni-1.5

高质量预训练数据

构建了全面且高质量的跨模态数据集，包含文本、图像-文本、视频-文本、音频-文本及它们之间的交互

图像数据：我们将图像训练数据分为三种类型：交织的图像-文本数据、图像描述数据和问答数据。为了提高数据的多样性并提升模型性能，我们采用了以下两种图像数据合成策略：

1）我们利用公司内收集的书籍和论文，并解析它们生成交织的图像-文本、OCR数据和图表数据。这些数据具有高度的完整性、专业性和知识密集性。

2）我们根据[19]的方案，训练了一个专用的描述模型，能够生成所需的图像描述，如OCR提示。这些描述提供了图像内容的深入说明。

3）目前，大量的开源数据集主要是英文数据。为了避免模型的中文能力下降，我们合成了大量的中文描述和交织数据。

视频数据：视频数据集包含了广泛的公开资源，涵盖了视频分类、动作识别和时间定位等多种任务。视频-文本数据源可以分为视频描述数据和视频问答（QA）数据。

音频数据：音频数据可以大致分为两种主要类型：音频理解数据和音频生成数据。音频理解数据包括自动语音识别（ASR）、音频问答（AQA）、语音转文本翻译和音频-文本交织数据。音频生成数据包括文本转语音（TTS）、交织的文本转语音数据和纯音频数据。交织数据由文本和音频模态交替组成，并以标点符号分隔，以促进跨模态知识的迁移。完全对齐的生成数据由完全对齐的文本和音频内容组成，旨在增强模型在文本监督下生成音频标记的能力。音频-文本配对数据（例如ASR和TTS数据）提高了基础语音任务的表现。纯音频数据则增强了独立处理音频模态的能力。

文本数据：为了构建一个高质量的文本语料库，我们从各种来源聚合了数据，包括网页、书籍、学术论文、代码等。我们遵循之前研究中的数据处理指南，采用严格的选择方法，旨在提高文本语料库的多样性和质量。这种多样性确保训练语料库涵盖了广泛的主题和语言风格，适用于不同的应用。同时，我们的高质量处理技术旨在消除冗余和过滤噪声，从而丰富数据集的信息密度和整体效用。最终，我们获得了1.507亿条纯文本数据。

跨模态交互数据：为了增强模型的跨模态交互能力，我们合成了一系列跨模态交互数据集，涵盖了图像-音频-文本和视频-音频-文本格式。图像-文本数据来源包括两种类型：图像-文本描述数据和图像-文本交织数据。具体而言，文本数据首先在句子级别进行分割。然后，将四分之一的文本通过我们的内部文本转语音（TTS）接口转换为音频元素。随后，我们利用生成的音频元素替换原始图像-文本数据中的相应文本句子。这种方法通过将多样化的音频元素融入现有的文本内容，促进了丰富的跨模态交互框架。我们的音频数据包含44种不同的语音类型，确保了语调的多样性。此设置配有任务提示，如“请听以下音频，描述图像的内容。您的任务是在听完后结合音频和图像补充额外信息”，旨在预测剩余的三分之二文本描述。对于视频-文本数据集，音频成分直接从原始视频中提取，作为跨模态的音频元素。总计，我们生成了1000亿个用于跨模态交互的标记数据。

模型结构：

Baichuan-Omni-1.5是一个统一的全模态模型，由视觉分支、音频分支和一个预训练的大型语言模型（LLM）主干组成，支持文本、音频、视觉输入以及端到端的文本和音频输出。

视觉分支：
像当前主流的MLLM一样，视觉分支旨在将图像和视频输入处理为视觉标记，并将其与文本标记一起输入到LLM中。我们使用Qwen2-VL的NaViT作为视觉编码器，该编码器能够动态处理任意分辨率和纵横比的图像和视频。然后，我们应用一个由两层MLP组成的视觉投影器，将视觉特征压缩为2×2的因子，从而在性能和效率之间取得平衡。

音频分支
音频分支扩展了LLM，使其能够支持端到端的语音输入和输出。这通过引入Baichuan-Audio-Tokenizer和基于流匹配的解码器来实现，前者负责将音频信号转换为离散标记，后者负责将音频标记解码为语音波形。我们在下图中展示了详细信息。

Baichuan-Audio-Tokenizer基于残差向量量化（RVQ）和多目标训练，帧率为12.5 Hz。在使用Whisper Large Encoder 从Mel谱图特征中提取高级特征后，残差卷积网络执行下采样以获得低帧率序列特征。然后使用8层残差向量量化器对这些特征进行量化，生成音频标记。这些标记随后被输入到音频解码器和预训练的LLM中，分别执行Mel谱图重建和转录预测。音频解码器采用与Whisper编码器对称的结构，并使用多尺度Mel损失来增强声音重建的质量。在训练过程中，预训练LLM的参数保持不变，以确保音频标记器和文本空间之间的语义对齐。

除了传统的任务如ASR、AQA和S2TT外，我们还将一定比例的交织文本-音频数据融入其中，以提高VQ模块建模复杂上下文场景的能力。

为了进一步增强合成音频的质量和感知逼真度，音频解码器模块通过流匹配模型进行优化。借鉴Matcha-TTS 和CosyVoice 的设计，U-Net包括一个单独的下采样块、一个上采样块和12个中间块。具体而言，流匹配解码器在24 kHz音频数据上进行训练，以生成目标Mel谱图，然后使用HiFi-GAN 声码器将其转换为语音波形。

多阶段模型训练：

图像-文本预训练

图像-文本预训练阶段扩展了LLM，使其能够处理和理解视觉输入，使用3000亿图像-文本样本，该阶段可以分为两个部分。

• 第一阶段：在第一阶段，我们训练视觉投影器，利用开源图像描述数据（例如LAION-5B数据集），建立图像表示与文本之间的初步对齐。在此阶段，我们冻结LLM和视觉编码器，仅训练视觉投影器，学习率为1e−3。

• 第二阶段：在第二阶段，我们解冻视觉编码器和LLM，以促进图像和文本表示之间更好的对齐。具体来说，我们以学习率1e−5训练LLM和视觉投影器，并以更低的学习率1e−6训练视觉编码器。我们使用公共和内部图像文本数据，包含交织数据和图像描述数据，以增强视觉-语言的表现力。具体来说，我们收集并标注高质量的OCR数据和图表数据，以增强文本/图表识别和理解能力。此外，我们还使用高质量的纯文本数据，这些数据占总数据的40%，以更好地保持语言模型的原始能力。

图像-音频-文本预训练

图像-音频-文本预训练阶段扩展了一个预训练在视觉数据上的LLM，使其能够以端到端的方式理解音频数据，使用887k小时的语音-文本数据，并结合我们的Baichuan-Audio-Tokenizer、新引入的音频嵌入层和独立音频头。

具体来说，Baichuan-Audio-Tokenizer生成的音频令牌首先通过音频嵌入层转化为音频嵌入。音频LLM交替生成对齐的文本令牌和音频令牌，使用一个特殊令牌实现文本与音频之间的模态切换。生成的音频令牌由独立的音频头处理，该音频头基于先前的工作设计，包含3层深度变换器和8个分类头。

为了缓解语音和文本特征之间显著差异带来的冲突，我们参考了之前的工作，采用音频和文本数据交织的方法进行预训练。此外，采用了两阶段训练策略，以保持原始LLM的文本知识，同时有效地整合音频模态。

• 第一阶段：在第一阶段，我们冻结LLM、视觉模块和音频标记器的参数，只有音频嵌入层和音频头的参数更新，学习率为1e−4。我们在这一阶段使用包括ASR、TTS、INTLV和ITTS数据的音频数据。

• 第二阶段：在第二阶段，训练扩展到除视觉编码器和音频标记器之外的所有参数，学习率为1e−5。具体来说，我们使用音频数据、图像数据和纯文本数据，分别占比0.2、0.4和0.4，这可以更好地提升音频能力，同时保持视觉和语言能力。

全模态预训练

基于之前预训练阶段获得的视觉和音频能力，我们继续使用高质量的跨模态交互数据集进行训练，数据集涵盖图像-音频-文本和视频-音频-文本格式，并将最大序列长度扩展到64k，以支持长时间的语音和视频流。具体来说，输入的视频帧以每秒1帧的速率进行采样，每个视频最多包含32帧。每个输入帧被调整为最大分辨率560×1120像素，以保持最佳质量和细节。这一精心配置在性能和效率之间达到了平衡，促进了有效的模型训练，同时管理了计算负载。此训练过程使用4e−6的低学习率，以进一步优化与语言模态和跨模态交互的对齐。

多模态监督微调

在本节中，我们描述了全模态监督微调（SFT）阶段，旨在增强模型在各种任务中执行复杂全模态指令的能力。我们收集了包括开源、合成和内部注释数据在内的综合数据集。这些数据集涵盖了多个任务，包含大约1700万个数据对，跨越文本、音频、图像-文本、视频-文本和图像-音频组合等多种模态。关于这些数据类型和数量的详细信息见表4。

实验

如表6所示，Baichuan-Omni-1.5 在纯文本基准测试中表现出色，特别是在与仅专注于语言模态的开源LLM模型相比时。例如，在通用MMLU基准测试中，Llama3-Instruct的得分为67.1%，而Baichuan-Omni-1.5则达到了72.2%。Baichuan-Omni-1.5在语言模态上的成功，主要归功于我们在训练策略上的调整以及多模态训练数据的平衡比例，其中保持了适当比例的纯文本数据。这些结果表明，我们的数据合成与平衡方法，以及多阶段的训练策略，能够有效解决在多模态训练过程中纯语言任务性能下降的问题。此外，相较于最新的开源多模态模型MiniCPM-o 2.6，Baichuan-Omni-1.5在中文基准测试中展示了明显的优势，例如CMMLU（63.3%对75.5%）和C-Eval（61.5%对73.1%），并且在通用基准测试中也大大超过了MiniCPM-o 2.6，MMLU（65.3%对72.2%）和AGIEval（50.9%对54.4%）。这些结果表明，相较于当前的全模态模型，这些模型在训练非文本模态数据后可能会导致文本理解能力下降，而我们的模型在理解纯文本方面依然保持强大能力。

如表7和表8所示，显然，我们的模型在大多数基准测试中优于最新的开源模型VITA-1.5和MiniCPM-o 2.6。例如，与最近的MiniCPM-o 2.6相比，我们的模型在包括MMBench、SEED-IMG、MME和MMMU在内的十个基准测试中的六个上表现更好，这些基准测试要求具备专家级的感知和推理能力。这表明，我们的全模态模型已经处于开源模型的前沿。此外，与其他非全模态模型相比，Baichuan-Omni-1.5也取得了相当或更优的表现。例如，与MiniCPM-Llama3-V 2.5相比，我们的模型在大多数视觉问答（VQA）任务中表现更好。总体而言，与Qwen2-VL-7B相比，我们的模型在各类图像理解基准测试中的表现相当。我们的模型在MMBench-CN（81.9%对83.6%）、MMMU（52.7%对53.9%）、MathVista-mini（58.2%对63.6%）和ChartQA（83.0%对84.9%）等方面取得了更好的表现。此外，值得注意的是，在MMBench-EN/CN和OCRBench上，我们的模型已经超越了像GPT4o这样的闭源模型。

总结

在这项工作中，我们介绍了Baichuan-Omni-1.5，一个全模态模型，代表了朝着开发一个涵盖所有人类感官的综合框架迈出的重要一步。通过使用高质量的多模态数据以及多阶段的全模态预训练和微调策略，Baichuan-Omni-1.5在处理视频、图像、文本和音频理解方面取得了优异的表现。Baichuan-Omni-1.5的关键特点包括：(1) 强大的纯文本和多模态理解能力；(2) 全模态输入（文本、图像、视频、文本）和双模态输出（文本和音频）的端到端并行处理；(3) 在医疗场景中的卓越表现；以及(4) 高质量的可控音频生成。

尽管这些结果很有前景，但每种模态的基础能力仍有相当大的改进空间。即：(1) 增强文本理解能力；(2) 支持更长的视频帧理解；以及(3) 改进音频理解和生成，不仅能识别人类声音，还能识别自然环境中的声音，如流水声、鸟鸣声和碰撞声等。

我们的未来研究将专注于完善这些领域，以确保开发出更复杂、更通用的模型，能够理解和与复杂环境互动。我们预计，在这些领域的持续进展将对实现人工通用智能（AGI）的更广泛目标做出重要贡献。

Kokoro TTS：支持多语言的轻量级TTS模型

最近，HuggingFace模型趋势榜上有一个很火的开源模型Kokoro-82M。

开源模型：https://huggingface.co/hexgrad/Kokoro-82M

Kokoro-82M不是大模型，而是一个参数量只有82M的TTS（Text-to-Speech）模型。虽然模型不大，但是Kokoro-82M在TTS Arena榜单上排行第一！TTS Arena 是一个用于评估语音合成模型的平台，其灵感来源于 LMsys 的 Chatbot Arena。用户可以通过输入文本并对比两个模型的合成语音来投票选择更自然的结果，模型名称在投票后才会显示。该平台旨在解决语音合成领域缺乏有效质量评估方法的问题，通过公开排名使结果更透明且易于访问。虽然这个排行榜很有参考意义。

在人工智能语音合成技术快速发展的今天，Kokoro TTS 以其轻量级设计和高效性能脱颖而出。作为一个仅有82M参数的文本转语音（TTS）模型，Kokoro 在 TTS Spaces Arena 中击败了许多参数规模更大的竞争对手，成为语音合成领域的一颗新星。

模型架构与参数规模

Kokoro TTS 基于 StyleTTS 2 架构，其参数规模仅为82M，远低于许多主流 TTS 模型（如 XTTS v2 的467M 参数和 MetaVoice 的1.2B 参数），但在单声道设置下表现卓越。

支持的语音与语言

Kokoro 最新版（0.23）支持多语言支持与声音克隆，包括：中、英、法、日、韩。每种语言支持多种音色以及男、女声，每种语音包都经过专业调校，确保音质清晰自然。英语支持美国英语和英国英语，并提供了10种独特的语音包，包括男声和女声（如 af_bella、af_sarah、am_adam 等）。

不过还不支持中文或韩文中与英语混合的情况。

性能优势与创新点

Kokoro 的训练数据量不到100小时，远低于其他模型（如 XTTS v2 的10,000小时），但其在 TTS Spaces Arena 中排名第一，证明了其在参数效率上的优势。此外，Kokoro 采用 espeak-ng 进行字形到音素（g2p）转换，进一步提升了语音合成的自然度。

本地部署步骤

模型地址：https://huggingface.co/hexgrad/Kokoro-82M

以下步骤为notebook中使用

# 1️⃣ Install dependencies silently
!git lfs install
!git clone https://huggingface.co/hexgrad/Kokoro-82M
%cd Kokoro-82M
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
!pip install -q phonemizer torch transformers scipy munch

# 2️⃣ Build the model and load the default voicepack
from models import build_model
import torch
device = 'cuda' if torch.cuda.is_available() else 'cpu'
MODEL = build_model('kokoro-v0_19.pth', device)
VOICE_NAME = [
    'af', # Default voice is a 50-50 mix of Bella & Sarah
    'af_bella', 'af_sarah', 'am_adam', 'am_michael',
    'bf_emma', 'bf_isabella', 'bm_george', 'bm_lewis',
    'af_nicole', 'af_sky',
][0]
VOICEPACK = torch.load(f'voices/{VOICE_NAME}.pt', weights_only=True).to(device)
print(f'Loaded voice: {VOICE_NAME}')

# 3️⃣ Call generate, which returns 24khz audio and the phonemes used
from kokoro import generate
text = "How could I know? It's an unanswerable question. Like asking an unborn child if they'll lead a good life. They haven't even been born."
audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME[0])
# Language is determined by the first letter of the VOICE_NAME:
#    'a' => American English => en-us
#    'b' => British English => en-gb

# 4️⃣ Display the 24khz audio and print the output phonemes
from IPython.display import display, Audio
display(Audio(data=audio, rate=24000, autoplay=True))
print(out_ps)

API 接口与 Docker 化部署

Kokoro-FastAPI 是一个基于 Docker 的 FastAPI 封装，支持 NVIDIA GPU 加速和队列处理功能。用户可以通过 API 接口发送文本转语音请求，并获取高质量的语音输出。

Kokoro-FastAPI地址：https://github.com/remsky/Kokoro-FastAPI

TangoFlux-TTA 高效的文本到音频（TTA）生成模型

NVIDIA发布了新模型TangoFlux，TangoFlux和Flux采用类似的MMDiT架构，但与Flux不同的是，TangoFlux是用于根据文本来生成与之匹配的音频（Text-to-Audio，TTA）。注意，TTA与文本生成语音（Text-to-Speech，TTS）是两个不同的任务，TTS是根据文本合成口语化的语音，而TTA更复杂，是根据文本内容生成相应的背景音、环境音或者情感表达的音频。TangoFlux模型参数只有515M，能够在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频，而且效果上实现了SOTA，所以是一个又快又好的TTA模型。目前，TangoFlux的代码和代码均已经开源：

在对齐 TTA（文本到音频）模型时，一个关键挑战在于生成偏好对的困难，因为 TTA 缺乏像大型语言模型（LLMs）那样的结构化机制，例如可验证的奖励或黄金标准答案。为了解决这一问题，我们提出了一种新颖的框架——CLAP 排序偏好优化（CRPO），通过迭代生成和优化偏好数据来增强 TTA 的对齐性能。研究表明，使用 CRPO 生成的音频偏好数据集优于现有的替代方案。借助这一框架，TangoFlux 在客观和主观基准测试中均达到了最先进的性能。

代码：https://github.com/declare-lab/TangoFlux
模型：https://huggingface.co/declare-lab/TangoFlux
技术报告：https://arxiv.org/abs/2412.21037
HuggingFace demo：https://huggingface.co/spaces/declare-lab/TangoFlux

贡献：

引入了 TANGOFLUX，这是一种基于修正流的小型高效 TTA 模型，能够在完全非专有的训练数据上实现最先进的性能。
提出了 CRPO，这是一种简单而有效的策略，用于生成音频偏好数据并对修正流进行对齐，其在音频偏好数据集上的表现优于其他方法。
公开发布了代码和模型权重，以促进文本到音频生成领域的研究。

方法：

TangoFlux 由 FluxTransformer 块组成，这些块是基于扩散变换器（Diffusion Transformer, DiT，Peebles & Xie，2023）和多模态扩散变换器（Multimodal Diffusion Transformer, MMDiT，Esser 等，2024）的模型，通过文本提示和时长嵌入进行条件化，以生成最高 44.1kHz、时长达 30 秒的音频。TangoFlux 从通过变分自动编码器（VAE，Kingma & Welling，2022）编码的音频潜在表示中学习修正流轨迹。

TangoFlux 的训练流程包括三个阶段：预训练、微调和偏好优化。通过 CRPO 对 TangoFlux 进行对齐，CRPO 通过迭代生成新的合成数据并构建偏好对，执行偏好优化。整体训练流程如图 1 所示。

TangoFlux在模型架构上参考了Flux，也是采用混合MMDiT和DiT block的transformer，首先是6层MMDiT block，然后跟着18层DiT block，模型的特征维度是1024，总参数量为515M。类似SD和Flux，这里也是采用了一个音频VAE（来源Stable Audio Open）将音频编码成一定长度的latents，然后用DiT来生成latents。这里的文本编码器采用FLAN-T5，除了文本特征，还用一个小的网络将音频时长编码成一个embedding，并和文本特征拼接在一起，从而实现对生成音频长度的控制。训练也是采用Flow Matching。

音频编码

使用 Stable Audio Open Evans et al. 的 VAE，它能够将 44.1kHz 的立体声音频波形编码为音频潜在表示。给定一个立体声音频 X∈ℝ^2×d×s⁢r ，其中 d 是时长duration 和 s⁢r 是采样率 sampling rate，VAE 编码 X 为潜在表示 Z∈ℝ^L×C ，其中 L ，C 分别是潜在序列长度和通道大小。VAE 将 latent 表示 Z 解码回原始立体声音频 X 。整个 VAE 在 TangoFlux 训练期间保持冻结。

Model Conditioning

为了实现不同长度音频的可控生成，我们采用了文本调节和持续时间调节。文本调节根据提供的描述控制生成的音频的事件，而持续时间调节指定所需的音频长度，最长可达 30 秒。

文本条件。给定音频的文本描述，我们从预训练的文本编码器FLAN-T5中获取文本编码 c_{t⁢e⁢x⁢t}

持续时间编码。为了生成可变长度的音频，我们首先使用一个小型神经网络将音频持续时间编码成一个 duration embedding c_d⁢u⁢r 。这与文本编码 c_{t⁢e⁢x⁢t} 连接并馈送到 TangoFlux 以控制音频输出的持续时间。

模型架构

采用混合 MMDiT 和 DiT 架构作为 TangoFlux 的主干，首先是6层MMDiT block，然后跟着18层DiT block，模型的特征维度是1024，总参数量为515M 。

Flow Matching

流匹配（Flow Matching）基于连续归一化流框架。该方法通过学习一个时间相关的向量场，将来自简单先验分布（例如高斯分布）的样本映射到复杂的目标分布，从而生成目标分布的样本。

在 TTA（文本到音频）领域的先前研究中，例如 AudioBox（Vyas 等，2023）和 Voicebox（Le 等，2023），主要采用了 Lipman 等（2023）提出的最优传输条件路径（Optimal Transport conditional path）。然而，我们的方法采用了 修正流（Rectified Flows，Liu 等，2022），这是一种从噪声到目标分布的直线路径，代表了最短路径。

整流流（Rectified Flows）。给定音频样本的潜在表示 x₁ 和服从正态分布 x₀ ∼ N(0, I) 的噪声样本，通过时间步 t ∈ [0, 1] 可以构建训练样本 xₜ。模型通过学习预测速度 vₜ = dxₜ/dt 来引导 xₜ 向 x₁ 演化。尽管存在多种构建传输路径 xₜ 的方法，我们采用了 Liu 等人（2022）提出的整流流（RFs）。该方法在目标分布与噪声分布之间构建直线路径作为前向过程，其定义如公式（1）所示。经验表明，当减少采样步数时，整流流具有更高的采样效率且性能下降更少（Esser 等人，2024）。我们用 θ 表示模型 u 的参数，该模型通过直接回归预测速度 u(xₜ, t; θ) 与真实速度 vₜ 的匹配，其损失函数如公式（2）所示。

推理。在推理过程中，我们从先验分布 x~0∼𝒩⁢(𝟎,𝐈) 中采样噪声，并使用常微分方程求解器根据模型在每个时间步 t 长预测的速度 vt 来计算 x1 。在此过程中，我们使用 Euler 求解器。

CLAP 排名偏好优化（CRPO）

CLAP 排名偏好优化（CRPO）利用文本-音频联合嵌入模型作为代理奖励模型，根据与输入描述的相似性对生成的音频进行排名，然后构建偏好对。

我们首先设置了一个 Ta ngoFlux 架构的预训练检查点作为要对齐的基础模型，用 π0 表示。此后，CRPO 迭代地将 checkpoint πk≔u⁢(⋅;θk) 对齐到 checkpoint πk+1 中，从 k=0 开始。每个这样的对齐迭代都包括三个步骤：（i）批量在线数据生成，（ii）奖励估计和偏好数据集创建，以及（iii） πk+1 通过直接偏好优化进行微调 πk 。

Main Results

表 1：跨各种指标的音频生成模型比较。Output length 表示生成的音频的持续时间。度量包括 FD
openl3表示 Frechet 距离、 passt KL 表示 KL 散度和 CLAP score 表示对齐。所有推理时间都是在同一个 A40 GPU 上计算的。我们在 #Params 列中报告可训练参数。

表 1 在客观指标方面将 TangoFlux 与 AudioCaps 上先前的文本到音频生成模型进行了比较。表 2 报告了具有多个事件的提示（即多事件提示）的模型性能。