2025年2月20日 – chenpaopao

Step-Audio：产品级开源实时语音对话模型

技术报告：https://arxiv.org/abs/2502.11946
推理代码和模型权重Step-Audio-Chat, Step-Audio-TTS-3B 和 Step-Audio-Tokenizer
Github：https://github.com/stepfun-ai/Step-Audio

阶跃星辰：Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统，支持多语言对话（如中文，英文，日语），语音情感（如开心，悲伤），方言（如粤语，四川话），可控制语速及韵律风格，支持RAP和哼唱等。其核心技术突破体现在以下四大技术亮点：

1300亿多模态模型: 单模型能实现理解生成一体化完成语音识别、语义理解、对话、语音克隆、语音生成等功能，开源千亿参数多模态模型 Step-Audio-Chat。
高效数据生成链路: 基于130B 突破传统 TTS 对人工采集数据的依赖，生成高质量的合成音频数据，并同步开源首个基于大规模合成数据训练，支持 RAP 和哼唱的指令加强版语音合成模型 Step-Audio-TTS-3B ，该模型具有增强的指令遵循功能以控制语音综合的能力。
精细语音控制: 支持多种情绪（如生气，高兴，悲伤）、方言（包括粤语、四川话等）和唱歌（包括 RAP、干声哼唱）的精准调控，满足用户对多样化语音生成的需求。
扩展工具调用: 通过 ToolCall 机制和角色扮演增强，进一步提升其在 Agents 和复杂任务中的表现。

模型组成

图2 采用了AQTA（**音频输入，文本输出） + TTS框架** 进行实时语音对话

Step-Audio的体系结构。 Step-Adio主要由三个组成部分组成：语音令牌，LLM和语音解码器。语音令牌器负责将输入语音离散到令牌中。LLM模型接收文本和语音令牌，输出文本，而语音解码器生成波形输出。

传统的语音对话系统通常采用包括ASR的级联建筑，LLM和TTS模块。但是，我们提出的模型在训练阶段进行了全面的多模式培训以及对文本和音频的一致性，已经具有端到端的语音对话功能。尽管对替代设计进行了广泛的探索，但我们最终采用了AQTA（音频输入，文本输出） + TTS框架 进行实时语音对话，如图2所示，这是由以下考虑的驱动的：

高质量的纯净对话数据的稀缺性：纯净对话数据的可用性有限，再加上其受限的场景，限制了端到端语音对话模型的训练效率。
输出语音的可控性和自定义：通过引入TTS模块，我们可以灵活地控制语音参数，例如音色和音调，以满足用户的个性化需求，同时不断增强模型的表现力能力。

在Step-Audio系统中，音频流采用Linguistic tokenizer【语义】（码率16.7Hz，码本大小1024）与Semantice tokenizer【声学】（码率25Hz，码本大小4096）并行的双码本编码器方案，双码本在排列上使用了2:3时序交错策略。通过音频语境化持续预训练和任务定向微调强化了130B参数量的基础模型（Step-1），最终构建了强大的跨模态语音理解能力。为了实现实时音频生成，系统采用了混合语音解码器，结合流匹配（flow matching）与神经声码技术。此外，采用语音活动检测（VAD）模块提取声段。

Tokenizer

我们通过token级交错方法实现Linguistic token与Semantic token的有效整合。Linguistic tokenizer的码本大小是1024，码率16.7Hz；而Semantic tokenizer则使用4096的大容量码本来捕捉更精细的声学细节，码率25Hz。鉴于两者的码率差异，我们建立了2:3的时间对齐比例——每两个Linguistic token对应三个Linguistic token形成时序配对。

语言模型

为了提升Step-Audio有效处理语音信息的能力，并实现精准的语音-文本对齐，我们在Step-1（一个拥有1300亿参数的基于文本的大型语言模型LLM）的基础上进行了音频持续预训练。

在多轮对话系统中，音频令牌和文本令牌之间的长度差异需要有效的处理策略。为了解决这个问题，历史信息最初是在系统输入之前使用ASR模型转录为文本格式的，从而优化了计算效率。但是，应注意的是，模型体系结构在需要时保持处理和使用音频令牌作为历史上下文的能力。

语音解码器

Step-Audio语音解码器主要是将包含语义和声学信息的离散标记信息转换成连续的语音信号。该解码器架构结合了一个30亿参数的语言模型、流匹配模型（flow matching model）和梅尔频谱到波形的声码器（mel-to-wave vocoder）。为优化合成语音的清晰度（intelligibility）和自然度（naturalness），语音解码器采用双码交错训练方法（dual-code interleaving），确保生成过程中语义与声学特征的无缝融合。

实时推理管线

为了实现实时的语音交互，我们对推理管线进行了一系列优化。其中最核心的是控制模块（Controller），该模块负责管理状态转换、协调响应生成，并确保关键子系统间的无缝协同。这些子系统包括：

语音活动检测（VAD）：实时检测用户语音起止
流式音频分词器（Streaming Audio Tokenizer）：实时音频流处理。输入音频流是通过两个平行的令牌管道处理的，每个管道都采用固定持续分段。将所得令牌无缝合并为2：3交织比的单个序列。没有流音频令牌，根据音频输入的长度，推理时间将明显较慢。
Step-Audio语言模型与语音解码器：多模态回复生成
上下文管理器（Context Manager）：动态维护对话历史与状态。我们的系统利用文本转录而不是原始的音频令牌来实现历史上下文，因为它提供了更紧凑的表示（平均文本审计代币比率为1:14），提高性能，并启用更长的对话，对质量的影响最小的影响很小。 ASR异步将用户语音转录为文本，并保持准确，最新的对话历史记录。

后训练细节

在后训练阶段，我们针对自动语音识别（ASR）与文本转语音（TTS）任务进行了专项监督微调（Supervised Fine-Tuning, SFT）。对于音频输入-文本输出（Audio Question Text Answer, AQTA）任务，我们采用多样化高质量数据集进行SFT，并采用了基于人类反馈的强化学习（RLHF）以提升响应质量，从而实现对情感表达、语速、方言及韵律的细粒度控制。

TTS模型：

Training Detail：

与传统的语音合成（TTS）系统注重对说话人特征、情感表达、语言特征和风格元素的精细控制不同，我们的方法采用了基于聊天的范式和大型语言模型（LLMs）的训练方法。这一战略对齐显著增强了系统的灵活性，同时建立了一个可扩展的框架，以支持未来模型和数据的扩展，从而解决了语音合成系统在可扩展性方面的关键挑战。

监督的微调格式：

SFT格式包括三个基本组成部分：系统提示、人类输入和助手回复，采用两轮对话结构。在这种格式中，系统提示作为指定说话人属性和定义支持的指令标签的基础元素。人类输入和助手回复部分则专门用于处理文本内容和双词典表示。第一轮的文本和音频标记可以用来保持领域内说话人的音色和风格一致性，同时也支持领域外的零样本克隆。

指令标签 ：

指令标签分为两种不同的类别：描述性标签和比较性标签。描述性标签用于控制语言、方言、声音和风格等方面，而比较性标签则用于情感和语速控制的层次化区分。描述性标签的数据是通过Step-Audio模型克隆生成的，支持包括日语、韩语、粤语、四川方言、可爱声音、说唱和唱歌等语言和风格。比较性标签的数据则是通过Audio Edit模型生成的，支持诸如快乐、愤怒、悲伤等情感，以及快慢等语速变化，每种变化都被分为五个层级。

我们使用第5.1.1节中概述的SFT数据，并采用一个具有30亿参数的模型，训练一个周期，初始学习率为 2×10−5。学习率采用余弦衰减策略进行调整，最低值设置为 2×10−6。

AQTA：

我们为AQTA任务应用了基于人类反馈的强化学习（RLHF），从而创建了Step-Audio-Chat模型，如图6所示。

说明：

用了AQTA（音频输入，文本输出） + TTS框架 情况下是如何实现多语言对话（如中文，英文，日语），语音情感（如开心，悲伤），方言（如粤语，四川话），可控制语速及韵律风格，支持RAP和哼唱 ？

通过TTS【cosyvoice】代码可知，LLM的文本输出中会包含 {语言}【情感】 [语速] 这样的文本输出，然后TTS用于合成对应的音频：使用[{}]的声音，根据这些情感标签的指示，调整你的情感、语气、语调和哼唱节奏

    self.sys_prompt_dict = {
        "sys_prompt_for_rap": "请参考对话历史里的音色，用RAP方式将文本内容大声说唱出来。",
        "sys_prompt_for_vocal": "请参考对话历史里的音色，用哼唱的方式将文本内容大声唱出来。",
        "sys_prompt_wo_spk": '作为一名卓越的声优演员，你的任务是根据文本中（）或()括号内标注的情感、语种或方言、音乐哼唱、语音调整等标签，以丰富细腻的情感和自然顺畅的语调来朗读文本。\n# 情感标签涵盖了多种情绪状态，包括但不限于：\n- "高兴1"\n- "高兴2"\n- "生气1"\n- "生气2"\n- "悲伤1"\n- "撒娇1"\n\n# 语种或方言标签包含多种语言或方言，包括但不限于：\n- "中文"\n- "英文"\n- "韩语"\n- "日语"\n- "四川话"\n- "粤语"\n- "广东话"\n\n# 音乐哼唱标签包含多种类型歌曲哼唱，包括但不限于：\n- "RAP"\n- "哼唱"\n\n# 语音调整标签，包括但不限于：\n- "慢速1"\n- "慢速2"\n- "快速1"\n- "快速2"\n\n请在朗读时，根据这些情感标签的指示，调整你的情感、语气、语调和哼唱节奏，以确保文本的情感和意义得到准确而生动的传达，如果没有()或（）括号，则根据文本语义内容自由演绎。',
        "sys_prompt_with_spk": '作为一名卓越的声优演员，你的任务是根据文本中（）或()括号内标注的情感、语种或方言、音乐哼唱、语音调整等标签，以丰富细腻的情感和自然顺畅的语调来朗读文本。\n# 情感标签涵盖了多种情绪状态，包括但不限于：\n- "高兴1"\n- "高兴2"\n- "生气1"\n- "生气2"\n- "悲伤1"\n- "撒娇1"\n\n# 语种或方言标签包含多种语言或方言，包括但不限于：\n- "中文"\n- "英文"\n- "韩语"\n- "日语"\n- "四川话"\n- "粤语"\n- "广东话"\n\n# 音乐哼唱标签包含多种类型歌曲哼唱，包括但不限于：\n- "RAP"\n- "哼唱"\n\n# 语音调整标签，包括但不限于：\n- "慢速1"\n- "慢速2"\n- "快速1"\n- "快速2"\n\n请在朗读时，使用[{}]的声音，根据这些情感标签的指示，调整你的情感、语气、语调和哼唱节奏，以确保文本的情感和意义得到准确而生动的传达，如果没有()或（）括号，则根据文本语义内容自由演绎。',
    }

VITA-1.5：GPT-4o级别的实时视觉和语音交互模型

[📖 VITA-1.5 Paper] [🤖 Basic Demo] [🍎 VITA-1.0]

Github：https://github.com/VITA-MLLM/VITA
Paper：arxiv.org/pdf/2501.01957
modelscope：https://modelscope.cn/models/modelscope/NJU_VITA-1.5/summary

[📽 VITA-1.5 Demo Show! Here We Go! 🔥]

引言

近年来，多模态大语言模型（MLLMs）在视觉和文本的结合上取得了显著进展。然而，随着人机交互需求的增加，语音在多模态对话系统中的作用变得愈发重要。语音不仅是信息传递的关键媒介，还能显著提升交互的自然性和便捷性。因此，如何将视觉和语音模态高效整合，实现高性能的多模态交互，成为了当前研究的重点。

VITA-1.5的提出正是为了解决这一挑战。通过精心设计的多阶段训练方法，VITA-1.5逐步训练大语言模型（LLM）理解视觉和语音信息，最终实现了流畅的视觉和语音交互。与现有模型相比，VITA-1.5不仅保留了强大的视觉-语言能力，还实现了高效的语音对话能力，显著加速了多模态端到端的响应速度。

VITA-1.5

模型架构

VITA-1.5的整体架构如图2所示。输入侧与VITA-1.0版本相同，采用“多模态编码器-适配器-LLM”的配置。它将视觉/音频Transformer和多层连接器与LLM结合进行联合训练，旨在增强对视觉、语言和音频的统一理解。在输出侧，VITA-1.5拥有自己的端到端语音模块，而不是像原始VITA-1.0版本那样使用外部TTS模型。

视觉模态

视觉编码器：VITA-1.5采用InternViT-300M作为视觉编码器，输入图像大小为448×448像素，每张图像生成256个视觉标记。对于高分辨率图像，VITA-1.5采用动态分块策略捕捉局部细节，提高图像理解的准确性。

视频处理：视频被视为一种特殊的多图像输入。如果视频长度短于4秒，则均匀采样4帧；对于4到16秒的视频，每秒采样一帧；对于超过16秒的视频，均匀采样16帧。视频帧不应用动态分块，以避免过多的视觉标记影响处理效率。

视觉适配器：使用两层MLP将视觉特征映射到适合LLM理解的视觉标记。

音频模态

语音编码器：类似于[56]，我们的音频编码模块由多个下采样卷积层（4倍下采样）和24个Transformer块（隐藏大小为1024）组成。下采样层有助于降低音频特征的帧率，提高LLM的处理速度。音频编码器约有350M参数，输出帧率为12.5Hz。使用Mel滤波器组特征作为音频编码器的输入，窗口大小为25ms，偏移为10ms。

语音适配器：由多个2倍下采样的卷积层组成。

语音解码器：使用TiCodec作为我们的编解码模型，定制了一个大小为1024的单码本。这种单码本设计简化了推理阶段的解码过程。编解码模型负责将连续语音信号编码为离散语音标记，频率为40Hz，同时能够将这些标记解码回采样率为24,000Hz的语音信号。

当前的LLM只能输出文本标记，语音生成能力要求LLM能够输出语音标记。为此，我们在文本标记后添加了两个语音解码器：1）非自回归（NAR）语音解码器，全局处理文本标记并建模语义特征，旨在生成语音标记的初始分布；2）自回归（AR）语音解码器，基于NAR解码器生成的语音信息逐步生成更高质量的语音标记。最终的语音标记序列通过编解码模型的语音解码器解码为连续语音信号流（波形）。我们为NAR和AR语音解码器采用了4个LLaMA解码层，隐藏大小为896，参数大小约为120M。

训练数据

如表1所示，多模态指令微调的训练数据涵盖了广泛的类别，如描述数据和问答数据，包括中文和英文。在不同的训练阶段，从整体数据集中选择性地采样子集以服务于不同的目标。具体来说，数据集分类如下：

图像描述数据：使用ShareGPT4V、ALLaVA-Caption、SharedGPT4o-Image和合成数据等数据集训练模型生成图像的描述性语言。
图像问答数据：使用LLaVA-150K、LLaVA-Mixture-sample、LVIS-Instruct、ScienceQA、ChatQA和从LLaVA-OV采样的子集（如通用图像问答和数学推理数据集）等数据集训练模型回答基于图像的问题和执行视觉推理任务。
OCR和图表数据：支持模型理解OCR和图表内容，使用Anyword-3M、ICDAR2019-LSVT、UReader、SynDOG、ICDAR2019-LSVT-QA和从LLaVA-OV采样的相应数据等数据集。
视频数据：使用ShareGemini和合成数据等数据集训练模型处理视频输入并执行诸如描述和基于视频的问答等任务。
纯文本数据：增强模型理解和生成语言的能力，促进基于文本的问答任务。

除了表1中列出的图像和视频数据外，还纳入了110,000小时的内部语音-转录配对ASR数据，涵盖中文和英文，用于训练音频编码器并将音频编码器与LLM对齐。此外，使用TTS系统生成的3,000小时文本-语音配对数据用于训练语音解码器。

三阶段训练策略

为了确保VITA-1.5在涉及视觉、语言和音频的任务中表现良好，我们必须面对一个关键挑战，即不同模态之间的训练冲突。例如，添加语音数据可能会对视觉数据的理解产生负面影响，因为语音的特征与视觉的特征显著不同，导致学习过程中的干扰。为了解决这一挑战，我们设计了一个三阶段训练策略，如图3所示。核心思想是逐步将不同模态引入模型，使其在增加新模态能力的同时保持现有模态的能力。

VITA-1.5的训练管道。训练过程分为三个阶段，以逐步将视觉和音频纳入LLM同时缓解了形态冲突。第一阶段的重点是视觉训练，包括视觉对齐（阶段1.1，使用表1中的20％字幕数据），视觉理解（阶段1.2，使用100％的字幕数据）以及用于Visual QA的指令调整（阶段1.3，使用20％字幕数据和100％QA数据）。阶段2引入音频输入调整，并具有音频对齐（阶段2.1，使用11,000小时的语音转录对）和语音质量检查的指令调整（阶段2.2，采样4％字幕数据和20％的QA数据）。最后，第3阶段的重点是音频输出调整，包括对编解码器模型的训练（使用3,000个小时的文本语音数据）和语音解码器培训（阶段3.2）。图像中显示的百分比对应于表1中指定的数据采样率。

阶段1：视觉训练

阶段1.1 视觉对齐：在此阶段，我们的目标是弥合视觉和语言之间的差距。前者的特征从预训练的视觉编码器InternViT-300M中提取，后者通过LLM引入。我们使用表1中20%的描述性描述数据进行训练，其中只有视觉适配器是可训练的，而其他模块是冻结的。这种方法允许LLM初步对齐视觉模态。

阶段1.2 视觉理解：在此阶段，我们的目标是教会LLM转录图像内容。为此，我们使用表1中所有的描述性描述数据。在此过程中，视觉模块的编码器和适配器以及LLM都是可训练的。重点是使模型通过学习关于图像的描述性文本，建立视觉和语言之间的强连接，使其能够通过生成自然语言描述来理解图像内容。

阶段1.3 视觉SFT：在阶段1.2之后，模型已经获得了对图像和视频的基本理解。然而，指令跟随能力仍然有限，难以应对视觉问答任务。为了实现这一点，我们使用表1中所有的问答数据，同时保留20%的描述性描述数据以增加数据集的多样性和任务的复杂性。

在训练过程中，视觉模块的编码器和适配器以及LLM都是可训练的。此阶段的关键目标是使模型不仅能够理解视觉内容，还能够根据指令回答问题。

阶段2：音频输入微调

阶段2.1 音频对齐：在完成阶段1的训练后，模型已经建立了强大的图像和视频理解基础。在此阶段，我们的目标是基于阶段1减少音频和语言之间的差异，使LLM能够理解音频输入。训练数据包括11,000小时的语音-转录对。我们采用两步方法：（a）语音编码器训练：我们采用常见语音识别系统中使用的训练框架，使用连接时序分类（CTC）损失函数[18]训练语音编码器。目的是使编码器从语音输入中预测转录文本。此步骤确保音频编码器能够提取语音特征并将其映射到文本表示空间。（b）语音适配器训练：在训练语音编码器后，我们将其与LLM集成，使用音频适配器将音频特征引入LLM的输入层。此阶段的训练目标是使LLM能够输出语音数据的转录文本。

此外，在步骤（b）中，我们引入了特殊的可训练输入标记来指导语音理解过程。这些标记提供了额外的上下文信息，指导用于问答任务的LLM执行ASR任务。

阶段2.2 音频SFT：此阶段的重点是引入语音问题和文本答案的问答功能。为此，我们从表1中采样4%的描述数据和20%的问答数据。在数据处理方面，大约一半的基于文本的问题被随机替换为其对应的语音版本，使用TTS系统生成。

在此阶段，视觉编码器和适配器、音频编码器和适配器以及LLM都是可训练的，旨在提高模型对多模态输入的适应性。此外，我们在LLM的输出中添加了一个分类头。该头用于区分输入是来自语音还是文本。结果，模型可以更准确地解释语音输入，并高效灵活地处理不同模态。

阶段3：音频输出微调

在前两个训练阶段，VITA-1.5模型已经有效地发展了其多模态理解能力。然而，一个关键的能力，即语音输出，仍然缺失，这对于其作为交互助手的角色至关重要。为了在不影响模型基本能力的情况下引入语音输出功能，我们借鉴了[56]的策略，使用3,000小时的文本-语音数据，并采用两步训练方法（见图3）。

阶段3.1 编解码训练：此步骤的目标是使用语音数据训练具有单码本的编解码模型。编解码模型的编码器能够将语音映射到离散标记，而解码器可以将离散标记映射回语音流。在VITA-1.5的推理阶段，仅使用解码器。

阶段3.2 NAR + AR解码器训练：此阶段的训练使用文本-语音配对数据，其中文本被输入到LLM的分词器和嵌入层以获得其嵌入向量，语音被输入到编解码模型的编码器以获得其语音标记。文本嵌入向量被发送到NAR语音解码器以获得全局语义特征，然后将这些特征发送到AR语音解码器，预测相应的语音标记。请注意，在此阶段LLM是冻结的，因此多模态性能不受影响。

评估

视觉-语言评估

基线：我们比较了一系列开源MLLMs，包括VILA-1.5、LLaVA-Next、CogVLM2、InternLM-XComposer2.5、Cambrian-1、MiniCPM-V-2.6、Ovis1.5、InternVL-Chat-1.5、InternVL-2、LLaVA-OV和Video-LLaVA、SilME和LongVA，以及5个闭源MLLMs，包括GPT-4V、GPT-4o、GPT-4o-mini、Gemini 1.5 Pro和Claude 3.5 Sonnet。

评估基准：为了评估VITA-1.5的图像感知和理解能力，我们使用了多个评估基准，包括MME、MMBench、MMStar、MMMU、MathVista、HallusionBench、AI2D、OCRBench和MMVet。这些基准涵盖了广泛的方面，包括通用多模态能力（如MME、MMBench和MMMU）、数学推理（MathVista）、幻觉检测（HallusionBench）、图表（AI2D）和OCR（OCRBench）理解，提供了全面的评估结果。对于视频理解，我们使用了代表性的评估基准，包括Video-MME、MVBench和TempCompass。

视觉-语言能力：表2展示了VITA-1.5的图像理解性能比较。在三个阶段的训练后，VITA-1.5的表现与最先进的开源模型相当，甚至超过了一些闭源模型，如GPT-4V和GPT-4o-mini。这一结果突显了VITA-1.5在图像-语言任务中的强大能力。如表3所示，VITA-1.5在视频理解评估中表现出与顶级开源模型相当的性能。与专有模型的显著差距表明，VITA-1.5在视频理解方面仍有显著的改进空间和潜力。请注意，在阶段2（音频输入微调）和阶段3（音频输出微调）的训练后，VITA-1.5几乎保留了其在阶段1（视觉-语言训练）中的原始视觉-语言能力。

语音评估

基线：以下三个基线模型用于比较：Wav2vec2-base、Mini-Omini2、Freeze-Omini和VITA-1.0。

评估基准：普通话评估集包括三个数据集：aishell-1、test net和test meeting。这些数据集用于评估模型在普通话语音上的表现。评估指标是字符错误率（CER）。英语评估集包括四个数据集：dev-clean、dev-other、test-clean和test-other，用于评估模型在英语语音上的表现。评估指标是词错误率（WER）。

ASR性能：表4中的评估结果表明，VITA-1.5在普通话和英语ASR任务中均取得了领先的准确性。这表明VITA-1.5已成功集成了先进的语音能力，以支持多模态交互。

结论

本文介绍了VITA-1.5，这是一个通过精心设计的三阶段训练策略整合视觉和语音的多模态LLM。通过缓解模态之间的固有冲突，VITA-1.5在视觉和语音理解方面实现了强大的能力，无需依赖单独的ASR或TTS模块即可实现高效的语音到语音交互。广泛的评估表明，VITA-1.5在多模态基准测试中表现出色。我们希望VITA-1.5能够接过VITA-1.0的旗帜，继续推动开源模型在实时多模态交互领域的进步。