Kimi-Audio 音频基础大模型

通用能力：支持自动语音识别（ASR）、音频问答（AQA）、自动音频描述（AAC）、语音情感识别（SER）、声音事件/场景分类（SEC/ASC）以及端到端语音对话等多样化任务。
顶尖性能：在多项音频基准测试中达到最先进水平（参见评估部分和技术报告）。
大规模预训练：基于超过1300万小时的多样化音频数据（语音、音乐、环境声）和文本数据进行预训练，具备强大的音频推理和语言理解能力。
创新架构：采用混合音频输入（连续声学向量+离散语义标记）和具有并行输出头的LLM核心架构，可同步生成文本和音频标记。
高效推理：配备基于流匹配技术的分块流式解码器，实现低延迟音频生成。
开源计划：公开预训练和指令微调的代码与模型检查点，并发布完整评估工具包以促进社区研发。

Introduction

现有研究在构建通用音频基础模型方面仍存在不足：

1）仅聚焦特定任务类型（如音频理解、音频生成或语音对话）；

2）忽视音频预训练，仅在下游任务微调LLM

Kimi-Audio作为开源音频基础模型，通过三大核心要素实现技术突破：

• 架构创新
模型包含音频分词器（输入）、解分器（输出）和音频LLM核心（处理）三大组件。采用离散语义音频标记作为基础表征，同时在输入端融合连续声学向量以增强感知能力，在输出端结合离散文本token以提升生成能力。通过将音频token率压缩至12.5Hz，有效弥合文本与音频序列的模态鸿沟。

• 数据工程
构建包含语音增强、说话人分离、转写过滤等流程的数据处理管线，采集超1300万小时预训练数据。针对监督微调阶段，我们创新提出纯开源数据解决方案——仅依赖公开资源与处理工具即可构建高质量SFT数据集，无需商业数据采购。

• 训练策略
基于预训练LLM初始化模型，设计三级渐进式预训练任务：1）单模态（纯文本/音频）知识学习；2）音频-文本跨模态映射；3）音文交错联合建模。在微调阶段开发高效训练方案提升任务泛化性。

针对音频模型评估标准不统一的问题，开发了包含语音识别、音频理解、语音对话等全维度评测工具包。

Architecture

Kimi-Audio作为一种音频基础模型，采用统一架构实现音频理解、生成与对话的全方位处理。如图2所示，系统包含三大核心组件：

音频分词器：通过12.5Hz帧率的向量量化将输入音频转换为离散语义标记，同时提取连续声学向量增强感知能力；
音频大模型：采用共享Transformer层处理多模态输入后，通过并行输出头同步生成语义标记与文本标记，提升生成能力；
音频解码器：基于流匹配技术将预测的离散语义标记重建为连贯音频波形。

该一体化架构使Kimi-Audio能在单一模型中无缝处理语音识别、理解及对话等多样化任务。

音频分词器

本模型采用离散语义标记+连续声学向量的混合分词策略，在保留离散标记语义效率的同时，通过连续表征捕捉丰富声学细节。

离散语义token：继承GLM-4-Voice方案，基于Whisper编码器架构引入向量量化层，通过单码本将语音表征压缩为12.5Hz低帧率的离散标记序列。该组件源自监督式语音分词器，由ASR模型驱动优化。

连续声学特征：从预训练Whisper模型提取50Hz帧率的连续特征，通过适配器降采样至12.5Hz后与离散标记嵌入相加，作为音频LLM的联合输入。

技术优势：离散标记提供高效语义表征、连续特征保留细粒度声学信息、12.5Hz统一帧率实现模态对齐

音频大语言模型

该模型能产生多模态输出，包括音频的离散语义标记和对应文本标记，以增强生成能力。为实现音频语义标记与文本响应的同步生成，我们改造了标准LLM架构，将其划分为共享功能模块与专用功能模块：原始Transformer底层（即最初若干层）的大部分被用作共享层，这些层通过处理输入序列学习跨模态表征，整合输入或上下文中文本与音频模态的信息。基于共享层，架构分叉为两个并行的Transformer层头部——文本头部专门自回归预测文本标记以形成文本输出，音频头部则预测离散音频语义标记，这些预测的音频标记随后传入音频解标记器模块合成最终波形输出。

为充分利用预训练文本LLM的强大语言能力，共享Transformer层和文本头部的参数直接初始化为预训练文本LLM的权重，音频头部层则随机初始化。该策略确保模型在习得高效音频处理与生成能力的同时，始终保持卓越的文本理解与生成性能。

音频解码器

音频解码器的目标是根据离散语义音频标记生成高质量、富有表现力的语音。我们采用与MoonCast相同的解标记器架构，该架构包含两部分：

1）流匹配模块，将12.5Hz的语义标记转换为50Hz的梅尔频谱图；
2）声码器，将梅尔频谱图转换为波形。

为降低语音生成延迟，我们设计了一种分块流式解标记器。初步实验表明，若简单将语义标记分块独立解码，会在块边界出现断续问题。因此，我们提出了一种带前瞻机制的分块自回归流式框架。

分块自回归流式框架
将音频分割为块（如每块1秒）：{c₁, c₂, …, cᵢ, …, c_N}，其中N为总块数。首先，为匹配语义标记（12.5Hz）与梅尔频谱图（50Hz）的序列长度，将语义标记上采样4倍。其次，在训练和推理时应用分块因果掩码——对于当前块cᵢ，所有先前块cⱼ（j<i）均作为提示。设cᵢ的梅尔频谱图为mᵢ，对应离散语义音频标记为aᵢᵈ。流匹配模型的前向步骤会将mᵢ与高斯噪声混合，反向步骤则在条件aᵢᵈ和历史提示cⱼ（含mⱼ与aⱼᵈ）下去噪生成纯净的mᵢ。推理时，当LLM生成一个音频块后，流匹配模型会立即将其解标记为梅尔频谱图，最终通过BigVGAN码器逐块生成波形。

前瞻机制
实验发现，因果注意力机制因无法感知块边界未来上下文，导致生成音频在边界处仍存在断续。为此，我们提出无需训练的前瞻机制：对于当前块cᵢ，从下一块cᵢ₊₁提取n个（如4个）未来语义标记拼接至cᵢ末端，形成扩展块ĉᵢ。解标记ĉᵢ生成梅尔频谱图后，仅保留原始cᵢ对应的部分。该机制仅会使首块生成延迟n个标记的时间，但显著改善边界连续性。

Data

预训练数据

我们的预训练语料库包含单模态（纯文本、纯音频）和多模态（文本-音频）数据。纯音频预训练数据覆盖了广泛的现实场景，包括有声书、播客和访谈等，约包含1300万小时的原始音频，涵盖丰富的声学事件、音乐、环境音、人声以及多语言信息。

大多数音频语料仅包含原始音频，缺乏对应的转录文本、语言类型、说话人标注和分段边界。此外，原始音频中常存在背景噪声、混响和说话人重叠等干扰因素。我们开发了高效的自动音频数据处理流程以生成高质量标注，最终形成多模态（音频-文本）数据。相较于以往主要生成无上下文信息的短音频片段的数据流程，我们的流程旨在提供具有连贯长上下文的长音频标注。该流程按步骤包含以下核心组件（如图3所示）：

语音增强
为抑制背景噪声和混响，我们基于Band-Split RNN（BSRNN）架构开发了语音增强模型（图3A）。该模型可进行48kHz语音增强。实验发现语音增强会消除环境音和音乐，可能损害音频理解能力，因此在预训练阶段我们以1:1比例随机选择原始或增强后的音频。

基于聚类分割的分段
我们采用说话人聚类分割方法处理长音频，使用PyAnnote工具包¹进行说话人聚类（图3B），该工具会对音频分段并标注说话人标签。但原始输出效果欠佳，因此我们开发了后处理流程来优化：

说话人聚类合并：PyAnnote可能将同一说话人标注为多个聚类，导致碎片化。我们计算每个初始聚类的代表性说话人嵌入向量，合并余弦相似度超过0.6的聚类对（图3C）。
基于分块的重分配：初始分割可能产生包含多说话人的片段。为提纯：1）先将所有片段切分为1.5秒分块；2）对相邻分块，若余弦相似度低于0.5则视为不同说话人，并将其重分配到相似度最高的说话人聚类（图3D）。
片段合并：初始分割可能导致片段长度差异过大（短于1秒或长于100秒）。我们迭代合并标注为同一说话人的相邻片段（重分配后），合并终止条件为：累计长度超过27秒或片段间静音间隔大于2秒（图3E）。
经此优化后的分割结果比基线输出具有更准确的说话人轮换和更一致的片段长度。

语音转写
为获取各语音片段的语言类型和文本转录，我们首先使用Whisper-large-v3模型检测语言类型。本研究仅保留英语和汉语片段进行转写：英语片段直接使用Whisper-large-v3生成带标点的文本；汉语片段采用FunASR工具包³的Paraformer-Zh模型生成带字级时间戳的文本。由于Paraformer-Zh无法输出标点，我们按以下策略添加：若相邻字符间隔大于0.5秒但小于1.0秒，插入”逗号”；若超过1.0秒，则插入”句号”。

实施细节
该数据处理流程部署在30个云实例组成的集群上，每个实例配备128个虚拟CPU（vCore）、1TB内存和8块NVIDIA L20 GPU，采用支持AMX等向量化加速指令的英特尔至强铂金8575C处理器。整个集群总计提供3,840个vCore、30TB内存和240块NVIDIA L20 GPU。经深度优化后，该流程每日可处理约20万小时原始音频数据。

监督微调（SFT）数据

在预训练阶段之后，我们通过监督微调（SFT）进一步提升 Kimi-Audio 在指令跟随和音频处理任务上的性能。SFT 数据主要分为三类：音频理解、语音对话 和 音频转文本对话。

音频理解

我们主要采用开源数据集进行音频理解训练，涵盖 6 种任务：

自动语音识别（ASR）
音频问答（AQA）
自动音频描述（AAC）
语音情感识别（SER）
声音事件分类（SEC）
音频场景分类（ASC）

具体数据集及 SFT 阶段的训练轮次详见表 1。

除开源数据外，我们还使用了：

55,000 小时 内部 ASR 数据
5,200 小时 内部音频数据（覆盖 AAC/AQA 任务）

语音对话

为了激活 Kimi-Audio 模型在不同对话场景下生成多样化风格、高表现力语音的能力，我们构建了大规模的语音对话数据，这些数据由一系列用户查询和助手响应组成的多轮对话构成。

用户查询生成

我们指导 大语言模型（LLM） 编写用户查询文本，然后使用 Kimi-TTS 系统将其转换为语音。
提示语音（prompt speech）从包含 超过 125,000 种音色 的大规模音色库中随机选择。

助手响应生成

我们选择一位配音演员作为 Kimi-Audio 的固定音色，并以该音色合成具有合适风格和情感的助手响应。
以下介绍 Kimi-Audio 配音演员的数据录制过程，以及用于合成多样化风格和表现力响应的 Kimi-TTS 和 Kimi-VC 系统。

Kimi-Audio 配音演员的数据录制

为了实现生成语音的多样化风格和高表现力，我们选择了一位配音演员作为 Kimi-Audio 的固定音色，并在专业录音棚中精心录制了该音色的数据集。

录制设计

20+ 种风格和情感（如开心、悲伤、愤怒、严肃等），每种情感进一步分为 5 个强度等级，以体现不同的情感表达程度。
对于每种风格和情感等级，我们录制了参考音频，以确保不同文本句子之间的情感和风格一致性。
整个录制过程由专业录音导演指导，确保高质量数据。

Kimi-TTS（零样本语音合成系统）

我们开发了一个零样本文本转语音（TTS）系统，称为 Kimi-TTS，仅需 3 秒的提示语音即可生成语音，并保持提示语音的音色、情感和风格。

应用场景

用户查询语音合成：使用大规模音色库（125K+ 音色）为不同用户查询生成多样化音色的语音。
助手响应语音合成：使用 Kimi-Audio 配音演员录制的风格和情感数据，合成助手的响应语音。

技术架构

类似 MoonCast 的架构，采用 LLM 根据提示语音和输入文本生成语音 token。
使用基于流匹配（flow-matching）的语音解 token 器生成高质量语音波形。

训练数据与优化

在 100 万小时（由自动数据流水线生）的数据上训练。
采用强化学习（RL）进一步提升生成语音的鲁棒性和质量。

Kimi-VC（语音转换系统）

由于配音演员难以覆盖所有风格、情感和口音，我们开发了一个语音转换（VC）系统，称为 Kimi-VC，用于将不同说话人/音色的语音转换为 Kimi-Audio 固定音色，同时保留原始语音的风格、情感和口音。

技术架构

基于 Seed-VC 框架。
在训练阶段引入音色扰动（timbre-shifting），以缓解信息泄露，并确保训练和推理阶段的对齐。

优化与数据

使用 Kimi-Audio 配音演员录制的语音数据进行微调，确保高质量的语音转换。

音频到文本对话

为了让 Kimi-Audio 具备基础的对话能力，我们从文本领域收集了开源的监督微调（SFT）数据（如表 2 所示），并将用户查询转换为多种音色的语音，从而构建音频到文本对话数据（用户输入为语音，助手响应为文本）。

数据预处理

由于部分文本难以直接转换为语音，我们进行了以下优化：

过滤不适用内容：剔除包含复杂数学、代码、表格、复杂多语言内容或过长文本的数据。
口语化改写：将书面化表达调整为更自然的对话风格。
单轮转多轮优化：将复杂指令的单轮问答数据拆解为更简洁、易理解的多轮对话形式。

模型训练

预训练阶段

Kimi-Audio的预训练目标是从真实世界的音频和文本领域学习知识，并在模型的潜在空间中对齐这两个模态，从而支持复杂任务如音频理解、音频到文本对话和语音对话。为此，我们设计了多阶段预训练任务：

单模态预训练（音频/文本独立学习）
音频-文本映射学习
三种跨模态交织任务（进一步 bridging 音频与文本）

数据表示形式

给定原始音频A，数据处理流水线会将其分割为N个片段{S₁, S₂, …, Sₙ}，每个片段Sᵢ包含：

音频信号aᵢ
对应文本转录tᵢ

我们对音频片段aᵢ提取两种特征：

连续声学向量 aᵢᶜ
离散语义token aᵢᵈ

为适配模型架构（以离散语义token为主输入/输出，同时输入连续声学token和输出离散文本token），训练序列表示为：

{a₁ᶜ/a₁ᵈ/t₁, a₂ᶜ/a₂ᵈ/t₂, ..., aₙᶜ/aₙᵈ/tₙ}

其中：

通过填充空白token确保音频与文本序列等长
实际训练片段可为以下任意组合：
- 纯音频：aᵢᵈ 或 aᵢᶜ/aᵢᵈ
- 纯文本：tᵢ
- 跨模态对：aᵢᵈ/tᵢ

对于连续+离散音频联合输入（aᵢᶜ/aᵢᵈ）：

将离散语义token通过查表转换为嵌入向量
与连续声学向量相加得到最终音频特征aᵢ

对于音频-文本联合输入（aᵢᵈ/tᵢ）：

将音频语义token和文本token分别嵌入后相加
通过各自独立的输出头生成对应token

具体预训练任务设计见表3，下文将详细介绍。

**aᵢᵈ** 表示音频片段 *i* 的离散语义标记；
**aᵢᶜ** 表示音频片段 *i* 的连续声学向量；
aᵢ 表示音频片段 *i* 的 aᵢᵈ 和 aᵢᶜ 的组合；
**下划线** 表示该部分在训练时会计算损失。

音频/文本单模态预训练
我们首先分别学习文本和音频的知识。对于文本预训练，我们直接使用MoonLight[44]中的文本数据，这些数据质量高且全面，适合训练大语言模型。我们仅对文本标记进行下一标记预测。对于音频预训练，针对每个片段Si，我们对其离散语义标记序列a_d^i进行下一标记预测。

音频-文本映射预训练
直观上，为了在统一空间中对齐音频和文本，学习两种模态之间的映射是有帮助的。因此，我们设计了自动语音识别（ASR）和文本到语音合成（TTS）预训练任务。对于ASR，我们将训练序列构建为{a1, t1, a2, t2, …, aN, tN}。对于TTS，训练序列构建为{t1, a_d^1, t2, a_d^2, …, tN, a_d^N}。我们仅在ASR中计算文本标记的损失，在TTS中计算音频语义标记的损失。

音频-文本交错预训练
为了进一步弥合音频和文本模态之间的差距，我们设计了三种音频-文本交错预训练任务：

音频到语义标记交错：将训练序列构建为{a1, a_d^2, a3, a_d^4, …, aN−1, a_d^N}，然后仅计算语义音频标记a_d^i的损失，而不计算ai−1的损失。
音频到文本交错：将训练序列构建为{a1, t2, a3, t4, …, aN−1, tN}，仅计算文本标记ti的损失。
音频到语义标记+文本交错：将训练序列构建为{a1, a_d^2/t2, a3, a_d^4/t4, …, aN−1, a_d^N/tN}。对于a_d^i/ti，由于语义音频标记序列总是比文本标记序列长，语义标记的预测类似于流式文本到语音任务。实验发现，前几个语义标记的预测较难，因为模型需要同时预测下一个文本标记及其语义音频标记。我们通过在语义音频标记前添加6个特殊空白标记（根据初步实验在生成质量和延迟之间权衡确定）来延迟前几个语义音频标记的预测，从而解决这一问题。

预训练方案

我们基于预训练的 Qwen2.5 7B 模型初始化 Kimi-Audio 的音频大语言模型，并通过添加语义音频标记和特殊标记扩展其词表。我们按照 1 : 7 : 1 : 1 : 1 : 1 : 2 的任务权重（如表3所示）对上述预训练任务进行训练。Kimi-Audio 的预训练数据包含 5850亿音频标记 和 5850亿文本标记，训练 1个周期。

优化器采用 AdamW，学习率按余弦衰减从 2e⁻⁵ 降至 2e⁻⁶，并使用 1% 的token进行学习率预热。

音频分词器的连续声学特征提取模块：该模块基于 Whisper large-v3初始化，能够捕捉输入音频信号中的细粒度声学特征。在预训练的初始阶段（约 20% 的token训练完成前），该 Whisper 特征提取器的参数保持冻结。随后解冻，使其参数能够与模型其余部分联合微调，从而更好地适应训练数据的细节和目标任务的需求。

监督微调

任务设计：在通过海量真实音频与文本数据完成预训练后，我们对 Kimi-Audio 进行监督微调，使其具备指令跟随能力。具体设计如下：

任务通用性：下游任务多样，因此不设置特殊任务切换操作，而是采用自然语言指令描述每个任务；
多模态指令：为每条指令同时构建音频版（由 Kimi-TTS 根据文本零样本生成）和文本版，训练时随机选择一种形式；
指令增强：通过大语言模型生成 200条ASR任务指令 和 30条其他任务指令，每个训练样本随机选取一条以增强鲁棒性。监督微调数据规模约 30万小时。

微调方案：对每个数据源进行 2-4个周期 的微调。优化器采用 AdamW，学习率按余弦衰减从 1e⁻⁵ 降至 1e⁻⁶，并使用 10% 的标记进行预热。

音频解码器训练分为三个阶段：

预训练阶段：使用约 100万小时 预训练音频数据，联合训练流匹配模型和声码器，学习多样化的音色、韵律和音质特征；
分块微调：在同一数据集上采用动态分块策略（块长0.5秒至3秒）进行优化；
高质量精调：最终基于 Kimi-Audio 发言人 的高质量单人录音数据进行微调，进一步提升生成效果。

推理与部署

Kimi-Audio 设计用于处理多种音频相关任务，包括语音识别、音频理解、音频-文本对话及语音-语音对话。由于实时语音对话在基础设施和工程实现上复杂度最高，本节以其为例阐述 Kimi-Audio 的部署实践。我们首先说明客户端（如 Kimi APP 或网页浏览器）与服务器（Kimi-Audio 服务）间的实时语音对话流程，随后介绍产品化部署方案。

实时语音对话流程

图4展示了用户客户端（如 Kimi APP）与服务器（Kimi-Audio 服务）之间的语音-语音对话流程。每轮对话按以下步骤执行：

用户语音输入：用户通过客户端（如 Kimi APP 或浏览器）说话，音频数据被采集并实时流式传输至服务器；
端点检测：服务器端的语音活动检测（VAD）模块判断用户是否结束说话；
触发推理：当用户停止说话时，服务器发送提交信号并启动 Kimi-Audio 模型的推理流程；
实时流式播放：推理过程中，客户端实时接收生成的音频片段并立即播放给用户。
客户端（手机或网页浏览器）将接收到的音频片段实时播放给用户。

服务端的 Kimi-Audio 在每轮对话中的推理流程如下：

音频编码：通过音频分词器将输入音频转换为离散语义标记和连续声学向量；
输入构建：将系统提示标记、音频标记和对话历史标记拼接为 Audio LLM 的输入序列；
模型推理：Audio LLM 接收标记序列并生成输出标记；
音频合成：通过反分词器将输出标记还原为音频波形。

生产环境部署
如图5所示，在生产环境中，所有核心组件（音频分词器、音频大语言模型和音频反分词器）均属于计算密集型模块，需要可扩展且高效的基础架构支撑。为此我们设计了如下生产级部署架构：

Kimi-Audio实时通信服务
该服务作为客户端交互接口，负责接收用户音频数据并转发至推理调度器，同时将生成的音频分块返回客户端。我们采用WebRTC协议确保稳定低延时的通信连接。

推理调度器
推理调度器通过在后端存储中以token形式维护对话历史来管理会话流程。每轮交互执行以下步骤：
• 调用分词器服务将用户音频转换为token
• 将新token与对话历史拼接构建模型输入
• 将输入发送至大语言模型服务生成响应token
• 调用反分词器服务将响应token转换为音频输出

此外，该系统会将所有输出token作为持续更新的对话历史存储，确保多轮对话的连贯性。

实验

首先开发了面向音频理解、生成及对话任务的开源评估工具包。【https://github.com/MoonshotAI/Kimi-Audio-Evalkit.】该工具目前集成支持Kimi-Audio及系列前沿音频大模型，并可扩展评估其他音频基础模型，主要特性包括：

• 标准化评估框架
基于Qwen-2-Audio实现标准化词错误率计算，并集成GPT-4o-mini作为智能评判器，克服指标不一致和简单字符串匹配的局限，实现公平对比。

• 统一比较平台
提供支持多模型多版本的统一平台，简化横向对比。通过定义和共享标准化推理参数与提示策略（”配方”），直接解决评估设置不一致问题，显著提升不同研究成果间的可复现性。

挑战与未来趋势

尽管Kimi-Audio在构建通用音频基础模型方面取得显著进展，但要实现更强大、更智能的音频处理系统仍存在诸多挑战。我们梳理现存问题并指出以下极具潜力的发展方向：

从语音转写到音频描述

当前音频基础模型的预训练范式通常依赖音频-文本对齐训练，其中文本数据多通过ASR（自动语音识别）从语音转写获得。但转写文本仅聚焦口语内容（”说了什么”），忽略了音频中的副语言信息（如情感、风格、音色、语调）、声学场景和非语言声音等重要特征。未来需引入描述性文本（如音频字幕）来构建更丰富的上下文表征。通过同时融合转写文本与描述文本，模型不仅能更好地理解与生成口语内容，还能处理复杂的声学环境，为构建更细腻的多模态音频处理系统和更通用的音频智能奠定基础。

更优的音频表征

现有音频表征主要采用语义token或声学token：

语义token：通常通过ASR辅助损失函数获取，侧重转写导向的信息，但难以捕捉对理解与生成至关重要的声学细节
声学token：通过音频重构损失函数学习，侧重描述导向的声学特征，但缺乏连接文本智能所需的抽象语义信息

关键研究方向是开发能同时整合转写导向语义与描述导向声学特征的新型表征，在保留高层抽象信息的同时，涵盖说话人身份、情感、环境音等细微特征，这对实现更复杂的音频理解与生成至关重要。

摒弃ASR/TTS的建模依赖

现有音频基础模型在预训练和微调阶段严重依赖ASR/TTS生成训练数据，其质量受限于：

ASR的文本识别准确率
TTS合成语音的表现力/多样性/质量

这种模式下，音频模型本质上只是现有ASR/TTS系统的精馏版本，性能天花板受制于ASR/TTS系统的上限，无法实现真正的自主音频智能。未来应探索不依赖ASR/TTS伪音频数据、直接基于原生音频数据的训练范式，这将大幅提升模型性能上限。