语音多模态大模型 – 第 15 页

FunAudioLLM：人类和LLMs之间自然交互的语音理解和生成基础模型

https://funaudiollm.github.io/  [阿里团队]
arxiv.org/abs/2407.04051

[Paper] [Code] [Modelscope:SenseVoice CosyVoice] [HuggingFace: SenseVoice]

我们介绍FunAudioLLM，本报告介绍了FunAudioLLM，这是一个旨在增强人类与大型语言模型之间的自然语音交互的框架（LLMs）。其核心是两个创新模型：SenseVoice用于高精度多语言语音识别，情感识别和音频事件检测;CosyVoice用于多语言，音色和情感控制的自然语音生成。SenseVoice具有极低的延迟并支持50多种语言，而CosyVoice在多语言语音生成、零触发语音生成、跨语言语音克隆和指令遵循功能方面表现出色。与SenseVoice和CosyVoice相关的模型已经在Modelscope和Huggingface上开源，沿着相应的训练，推理和微调代码发布在GitHub上。通过将这些模型与LLMs集成，FunAudioLLM可以实现语音翻译、情感语音聊天、交互式播客和富有表现力的有声读物叙述等应用，从而推动语音交互技术的发展。

SenseVoice支持多语言语音识别，其训练时间超过30万小时。具体来说，SenseVoice-Small在推理方面非常高效，其中识别延迟小于80 ms，分别比Whisper-Small和Whisper-large快5倍和15倍以上，SenseVoice-Large支持50多种语言的高精度ASR。此外，SenseVoice支持丰富的转录，包括最先进的情感识别、音频事件检测、反向文本标准化（Pusateri 等人，2017）和标点符号（Chen 等人，2020年）。

语音生成模型，CosyVoice，可以生成多语言的语音，这是超过17万小时和五种语言，包括中文（ZH），英语（EN），日语（JP），广东话（Yue）和韩语（KO）的训练。CosyVoice生成的样本可以实现低于2%的WER和超过75%的说话人相似度，达到人类平价的质量水平。CosyVoice支持零样本上下文学习，这使得语音克隆只需要3秒的提示语音。音色、情感、韵律和风格可以在语言内部或跨语言复制。我们还发布了一个指令模型，它可以控制说话者身份，说话风格（例如，情感）和其他具有自然纹理指令的细粒度语言特征。

Speech-to-Speech Translation:

通过集成SenseVoice、LLMs和CosyVoice，我们可以毫不费力地执行语音到语音翻译（S2ST）。

Emotional VoiceChat 情感语音聊天:

通过集成SenseVoice、LLMs和CosyVoice，我们可以开发一个情感语音聊天应用程序。

Interactive Podcast 互动播客:通过集成SenseVoice，一个基于LLM的多智能体系统，具有实时世界知识，以及CosyVoice，我们可以创建一个交互式播客。

有声书：通过LLMs的分析能力来构建和识别书籍中的情感，并将其与CosyVoice合成，我们实现了具有增强表现力的有声读物。

CosyVoice:

在推理阶段概述CosyVoice模型。概括地说，CosyVoice包括一个自回归Transformer，用于为输入文本生成相应的语音标记，一个基于ODE的扩散模型，流匹配，用于从生成的语音标记重建Mel频谱，以及一个基于HiFiGAN的声码器，用于合成波形。虚线模块在特定模型用途中是可选的，例如跨语言、SFT推理等。[论文]

图1：所提出的CosyVoice模型的概述。(a)演示了 𝒮3
标记器，其中虚线模块仅在训练阶段使用。(b)是CosyVoice的示意图，由文本到令牌LLM和令牌到语音流匹配模型组成。 S、E和T表示“start of sequence”、“end of sequence”和“turn of speech”标记。虚线表示推理阶段的自回归解码。(c)提供了我们的流匹配模型的放大视图，该模型以概率密度路径上的时间步长 t处的说话者嵌入 𝐯、语义标记 μ、掩蔽语音特征 X~和中间状态 Xt为条件。

图2：（a）零触发上下文学习和（B）跨语言语音克隆的序列构建。LID表示目标语言标识符。

CosyVoice由四个组件组成，即文本编码器、语音分词器[ speech tokenizer]、大语言模型和条件流匹配模型。具体地说，文本编码器用于对齐文本和语音token的语义空间，而 speech tokenizer 用于提取语义记号，如图1（a）所示。我们采用一个大的语言模型来学习整个文本编码和语音标记序列，将TTS重新表述为一个给定文本作为提示的自回归序列生成问题。然后，如图1（c）所示，利用条件流匹配模型，通过最佳路径上的去噪过程将语音令牌转换为Mel频谱图。2020）用于以所生成的Mel频谱图作为输入来合成波形。

语音的受监督语义令牌 [ speech tokenizer] :

采用有监督的自动语音识别（ASR）模型来导出用于语音的有监督的语义语音（ 𝒮3 ）分词器。该模型是我们专有的SenseVoice ASR模型的微调版本。它接受了多语言音频数据的训练，并具有丰富的音频内容理解能力。与原始ASR模型不同，我们将编码器分为两部分，并在它们之间插入矢量量化层。给定Mel频谱图 X 作为输入，其经历位置编码和 Encoder1 以获得上下文感知表示 H ：

然后，一个矢量量化器（VQ）参与获得离散令牌。对于帧 l 处的隐藏表示 𝐡l ，码本 C 中的最近嵌入的索引被视为该时间步处的语音令牌 μl ：

语音令牌的对应码本嵌入被用作量化的隐藏表示 H¯={𝐜μ1,𝐜μ2,…,𝐜μL} ，并通过剩余的编码器层 Encoder2 ：

在 Encoder2 之后，接下来是基于transformer的ASR解码器，预测文本标签的后验概率：

TTS的大型语言模型:

我们将TTS任务表述为具有大型语言模型的自回归语音令牌生成问题（LLM）。对于LLM，序列构建是最重要的事项，其构建如下：

S and E denote the start and end of sequence, respectively.T is “turn of speech” tokens. 𝐯 is a speaker embedding vector extracted from the speech X with a pre-trained voice-print model². The text encodings Y¯={𝐲¯u}u⁣∈⁣[1:U] is obtained by passing the text through a Byte Pair Encoded (BPE) tokenizer and text encoder:

由于文本和语音标记位于不同的语义层，因此文本编码器用于对齐它们的语义空间并有利于LLM建模。在文本编码和语音标记 {μl}l⁣∈⁣[1:L] 之间插入开始标识符T报告问题，语音标记 {μl}l⁣∈⁣[1:L] 是用2.1中描述的监督语义标记器提取的。在训练阶段，我们采用教师强迫方案，其中左移序列作为模式输入，原始序列作为期望输出。注意，在训练期间仅考虑语音标记的交叉熵损失和：

Optimal-transport Conditional Flow Matching:

在CosyVoice中，采用最优传输条件流匹配模型（OT-CFM）来学习Mel谱图的分布，并以生成的语音令牌为条件从其生成样本。与扩散概率模型（DPM）相比，OT-CFM可以实现更好的性能，具有更简单的梯度，更容易的训练和更快的生成.

在连续时间归一化流（CNF）中，从先验分布 p0⁢(X) 到Mel谱图 q⁢(X) 的数据分布构造概率密度路径。概率密度路径由依赖于时间的矢量场 νt⁢(X):[0,1]×ℝL∗D→ℝL∗D 定义，其通过以下常微分方程（ODE）生成流 ϕt ：

流匹配模型（The flow matching model）用于估计条件概率 P(S|X, v, Sref)。其中，X 和 v 分别表示语音片段和说话人嵌入，S 和 Sref 分别表示目标和参考语音的梅尔频谱。该模型使用卷积 Transformer U-Net 来确定最优传输 ODE 中先验分布与目标分布之间的矢量场。在推理阶段，只需五到十次迭代即可生成令人满意的梅尔频谱图。此外，还采用无分类器指导技术，通过屏蔽 70% 到 100% 的前置特征条件来增强上下文学习能力。

在从预测的梅尔频谱图合成波形时，我们使用改进的 HiFTNet 声码器，以支持流式生成。

关于最优传输条件流匹配模型的补充：

最优传输条件流匹配（Optimal Transport Conditional Flow Matching，OT-CFM）是一种用于生成模型的流匹配方法，它旨在学习将输入分布和目标分布之间的条件映射。与传统扩散模型（DPM）不同，OT-CFM的优化目标是基于最优传输理论（Optimal Transport，OT）进行的。通过构建和学习流场，OT-CFM能够高效地生成目标数据。

问题背景：给定输入分布 X0 和目标分布 X1，最优传输的目标是找到一个时间相关的流动函数 ϕt 【t介于0-1之间】使得它能够逐渐将输入分布 X0 演变为目标分布 X1。这个流动由常微分方程（ODE）定义：

其中 vt是一个时间相关的速度场（或流场）。ϕt(X)表示输入数据 X 在时间 t 的状态。

优化目标：OT-CFM 的核心是通过学习流场 vt 使得生成过程遵循最优传输路径。为此，定义最优传输条件流匹配的目标函数：

最优传输路径下的流场与中间状态：

流场的估计与学习：为了学习最优传输的流场 vt，引入一个神经网络 vtθ 对 vt 进行参数化。具体步骤如下：

时间调度策略：为了使生成过程更稳定，文章引入了一个时间调度 t 的变换函数：

这个变换函数可以更均匀地分配时间步，提高生成效果。

可以实现的任务：

Multi-lingual Voice Generation 【多语言的语音合成】

Zero-shot In-context Generation 零样本上下文生成

CosyVoice模型具有零触发的上下文学习能力，允许仅用简短的参考语音样本复制任意语音。这个过程需要仔细构造令牌语言模型（LM）的输入序列，如图2所示。对于同一语言的提示语音和输入文本，我们将它们合并成一个统一的输入，将提示语音标记视为预生成的。利用该输入序列，自回归LM迭代地预测后续令牌，直到其遇到针对前一元素的“序列结束”令牌E。然而，当提示语音和输入文本在语言上不同时，我们省略与提示相关联的文本和标记，以防止原始语言的韵律特征影响目标语言。重要的是要注意，提示文本（对应于提示语音的内容）可以通过人工注释或ASR模型（如SenseVoice）转录。与提示文本类似，提示令牌是使用 𝒮3 tokenizer从提示语音中提取的。在生成语音标记之后，它们被附加在提示标记之后，形成流匹配模型的复合条件。此外，说话人嵌入和梅尔声谱图的提示语音，以进一步提高音色和环境的一致性。

Instructed Voice Generation指令语音生成：

Speaker Identity Control、细粒度控制、Style Control、情感丰富的声音生成、Speaker Fine-tune、Speaker Interpolation

为了进一步实现对CosyVoice的可控性，我们尝试集成额外的指令微调（Ji 等人，2023年）。CosyVoice-instruct扩展了CosyVoice-base，具有增强的后续功能。具体地说，它支持对诸如说话人身份（即，说话者的特征）、说话风格（包括情感、性别、语速和音调）以及细粒度的副语言特征。这些功能包括插入笑声、呼吸、边笑边说以及强调某些单词的能力。

SenseVoice:

SenseVoice 是具有音频理解能力的音频基础模型，包括语音识别（ASR）、语种识别（LID）、语音情感识别（SER）和声学事件分类（AEC）或声学事件检测（AED）。提出了具有不同大小和架构的两个模型以适应不同的要求：SenseVoice-Small，用于快速语音理解的仅编码器语音基础模型，以及SenseVoice-Large，编码器-解码器（Vaswani 等人，2017）语音基础模型，用于更准确的语音理解，支持更多语言。

SenseVoice模型概述。SenseVoice是一个语音基础模型，具有多种语音理解功能，包括ASR、LID、SER和AED。SenseVoice-Small是一种用于快速语音理解的仅编码器语音基础模型，SenseVoice-Large是一种编码器-解码器语音基础模型，用于更准确的语音理解，支持更多语言。

𝐞LID 、 𝐞SER 、 𝐞AEC 、 𝐞ITN/NoITN 是四个特殊标记的嵌入：

⟨LID⟩ 表示LID任务。如果 ⟨LID⟩ 被放置，则模型被训练以预测输出的对应位置处的语言标记。在训练阶段，我们根据概率0.8用真实语言标记随机替换 ⟨LID⟩ ，以便模型可以预测语言标记，或者在推理阶段配置指定的语言标记。

⟨SER⟩ 表示SER任务。如果 ⟨SER⟩ 被放置，则训练模型以预测输出的对应位置处的语音情感标签。

⟨AEC⟩ 表示AEC任务。如果 ⟨AEC⟩ 被放置，则模型被训练以预测输出的对应位置处的音频事件标签。

⟨ITN⟩ 或 ⟨NoITN⟩ 指定转录样式。如果提供了 ⟨ITN⟩ ，则模型被训练为使用反向文本规范化（ITN）和标点符号进行转录。如果提供了 ⟨NoITN⟩ ，则模型被训练为在没有ITN和标点符号的情况下转录。

在训练阶段，利用交叉熵损失对LID、SER和AEC任务进行优化。ASR任务使用CTC损失来优化。

SenseVoice-Large是一个自回归编码器-解码器模型，用于多语言ASR和多语音理解任务。与Whisper类似（拉德福等人，2023），SenseVoice-Large通过解码器的输入令牌序列来指定任务。具体来说，我们通过分别包括 ⟨LID⟩ 、 ⟨SER⟩ 、 ⟨AED⟩ 令牌来指定是否预测具有时间戳的语言、语音情感和音频事件。与SenseVoice-Small相比，SenseVoice-Large的优势在于转录准确性和支持大量语言（50+）。

SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测

多语言识别： 采用超过 40 万小时数据训练，支持超过 50 种语言，识别效果上优于 Whisper 模型。
富文本识别：
- 具备优秀的情感识别，能够在测试数据上达到和超过目前最佳情感识别模型的效果。
- 支持声音事件检测能力，支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。
高效推理： SenseVoice-Small 模型采用非自回归端到端框架，推理延迟极低，10s 音频推理仅耗时 70ms，15 倍优于 Whisper-Large。
微调定制： 具备便捷的微调脚本与策略，方便用户根据业务场景修复长尾样本问题。
服务部署： 具有完整的服务部署链路，支持多并发请求，支持客户端语言有，python、c++、html、java 与 c# 等。

推理效率：

性能评测：

我们在开源基准数据集（包括AISHELL-1、AISHELL-2、Wenetspeech、Librisepeech和Common Voice）上比较了SenseVoice和Whisper的多语言识别性能和推理效率。使用A800机器进行推理效率评估。SenseVoice-small采用非自回归端到端架构，推理延迟极低-与Whisper-small相比快7倍，与Whisper-large相比快17倍。

1、文本识别:[在开源基准数据集（包括 AISHELL-1、AISHELL-2、Wenetspeech、Librispeech 和 Common Voice）上比较了 SenseVoice 与 Whisper 的多语言语音识别性能和推理效率。在中文和粤语识别效果上，SenseVoice-Small 模型具有明显的效果优势。]

2、情感识别

SenseVoice也可以用于离散情感识别。支持快乐、悲伤、愤怒和中立。我们在7个流行的情感识别数据集上对其进行了评估。SenseVoice-Large可以在大多数数据集上接近或超过SOTA结果，即使没有目标语料库微调。

由于目前缺乏被广泛使用的情感识别测试指标和方法，我们在多个测试集的多种指标进行测试，并与近年来 Benchmark 上的多个结果进行了全面的对比。所选取的测试集同时包含中文 / 英文两种语言以及表演、影视剧、自然对话等多种风格的数据，在不进行目标数据微调的前提下，SenseVoice 能够在测试数据上达到和超过目前最佳情感识别模型的效果。

我们还在测试集上对多个开源情感识别模型进行对比，结果表明，SenseVoice-Large 模型可以在几乎所有数据上都达到了最佳效果，而 SenseVoice-Small 模型同样可以在多数数据集上取得超越其他开源模型的效果。

3、事件检测

SenseVoice-Small和SenseVoice-Large模型都可以检测到语音中的音频事件，包括音乐、掌声、笑声。SenseVoice-Large可以预测音频事件的开始和结束位置，而SenseVoice Small只能预测音频中发生了什么（只有一个事件），但是，它可以检测更多的事件，例如在人机交互过程中可能发生的咳嗽，打喷嚏，呼吸和哭泣。

尽管 SenseVoice 只在语音数据上进行训练，它仍然可以作为事件检测模型进行单独使用。我们在环境音分类 ESC-50 数据集上与目前业内广泛使用的 BEATS 与 PANN 模型的效果进行了对比。SenseVoice 模型能够在这些任务上取得较好的效果，但受限于训练数据与训练方式，其事件分类效果专业的事件检测模型相比仍然有一定的差距。

训练数据：

SenseVoice的训练集

下图展示了用于训练 SenseVoice 模型的数据集概览。

SenseVoice-Small 模型在一个包含约 30 万小时音频数据的庞大语料库上进行了训练，覆盖了包括中文、粤语、英语、日语和韩语在内的 5 种语言。为了进一步增强 SenseVoice-Large 的多语言能力，训练语料库中额外加入了 10 万小时多语言数据。为了从语音数据中获取丰富的转录标签，我们利用了开源的音频事件检测（AED）模型和语音情感识别（SER）模型，生成伪标签，从而构建了一个内容丰富的大规模转录数据集。具体而言，AED 数据集包含了 1.5 亿条音频，而 SER 数据集则包含了 3000 万条音频。

【 SER 模型：https://modelscope.cn/models/iic/emotion2vec_plus_large】

【 AED模型：https://github.com/qiuqiangkong/audioset_tagging_cnn/tree/master】

CosyVoice 的训练集

为了训练 CosyVoice 模型，我们积累了一个包含多种语言的大量数据集。在整个收集过程中，我们利用专门的内部工具进行语音检测、信噪比（SNR）估计、说话人分类和分离。随后，使用 SenseVoice-Large 和 Paraformer 生成伪文本标签。这些标签在力对齐（FA）模型的帮助下经过优化过程，这有助于消除低质量的数据并提高标点符号的准确性。表 4 列出了各种语言的训练数据持续时间的全面细分。

对于 CosyVoice-instruct 模型，我们使用指令训练数据对 CosyVoice-base 进行了微调，而无需在自回归语言模型中加入说话人嵌入。表 5 显示了不同类型指令的训练数据的持续时间。

限制：

1、SenseVoice有一些需要解决的局限性。首先，对于资源不足的语言，ASR性能通常要低得多。其次，SenseVoice不是为流式转录而设计的。因此，未来的工作可能会集中在开发基于SenseVoice的流式语音理解模型。

2、CosyVoice也有一些限制。首先，它支持的语言数量有限。虽然它可以根据明确的指令表达情感和说话风格，但它不能根据文本的语义内容推断出适当的情感或风格。此外，CosyVoice在唱歌时表现不佳。在保持声音原有音色的同时，实现富有表现力的情感变化仍有改进的空间。

3、另一个限制是FunAudioLLM中的两个创新模型没有使用LLMs进行端到端的训练。这种流水线方法可能会引入错误传播，这可能会影响整体性能。

sensevoice 推理代码：

    def inference(
        self,
        data_in,
        data_lengths=None,
        key: list = ["wav_file_tmp_name"],
        tokenizer=None,
        frontend=None,
        **kwargs,
    ):


        meta_data = {}
        if (
            isinstance(data_in, torch.Tensor) and kwargs.get("data_type", "sound") == "fbank"
        ):  # fbank
            speech, speech_lengths = data_in, data_lengths
            if len(speech.shape) < 3:
                speech = speech[None, :, :]
            if speech_lengths is None:
                speech_lengths = speech.shape[1]
        else:
            # extract fbank feats
            time1 = time.perf_counter()
            audio_sample_list = load_audio_text_image_video(
                data_in,
                fs=frontend.fs,
                audio_fs=kwargs.get("fs", 16000),
                data_type=kwargs.get("data_type", "sound"),
                tokenizer=tokenizer,
            )
            # print(audio_sample_list)
            time2 = time.perf_counter()
            meta_data["load_data"] = f"{time2 - time1:0.3f}"
            speech, speech_lengths = extract_fbank(
                audio_sample_list, data_type=kwargs.get("data_type", "sound"), frontend=frontend
            )
            time3 = time.perf_counter()
            meta_data["extract_feat"] = f"{time3 - time2:0.3f}"
            meta_data["batch_data_time"] = (
                speech_lengths.sum().item() * frontend.frame_shift * frontend.lfr_n / 1000
            )

        speech = speech.to(device=kwargs["device"])
        speech_lengths = speech_lengths.to(device=kwargs["device"])
        print("speech", speech.shape, speech_lengths)
        language = kwargs.get("language", "auto")
        language_query = self.embed(
            torch.LongTensor(
                [[self.lid_dict[language] if language in self.lid_dict else 0]]
            ).to(speech.device)
        ).repeat(speech.size(0), 1, 1)
        print("language_query", language_query.shape)
        use_itn = kwargs.get("use_itn", False)
        textnorm = kwargs.get("text_norm", None)
        if textnorm is None:
            textnorm = "withitn" if use_itn else "woitn"
        textnorm_query = self.embed(
            torch.LongTensor([[self.textnorm_dict[textnorm]]]).to(speech.device)
        ).repeat(speech.size(0), 1, 1)
        print("textnorm_query", textnorm_query.shape)
        speech = torch.cat((textnorm_query, speech), dim=1)
        speech_lengths += 1
        print("speech_add_textnorm", speech.shape, speech_lengths)
        event_emo_query = self.embed(torch.LongTensor([[1, 2]]).to(speech.device)).repeat(
            speech.size(0), 1, 1
        )
        print("event_emo_query", event_emo_query.shape)
        input_query = torch.cat((language_query, event_emo_query), dim=1)
        print("input_query", input_query.shape)
        speech = torch.cat((input_query, speech), dim=1)
        speech_lengths += 3
        print("speech_final", speech.shape, speech_lengths)

        # Encoder
        encoder_out, encoder_out_lens = self.encoder(speech, speech_lengths)
        print("encoder_out", encoder_out.shape, encoder_out_lens)
        if isinstance(encoder_out, tuple):
            encoder_out = encoder_out[0]

        # c. Passed the encoder result and the beam search

        # 束搜索和CTC解码
        ctc_logits = self.ctc.log_softmax(encoder_out)

        results = []
        b, n, d = encoder_out.size()
        if isinstance(key[0], (list, tuple)):
            key = key[0]
        if len(key) < b:
            key = key * b
        for i in range(b):

#对每个 batch 样本提取 CTC logits 输出的前 encoder_out_lens[i] 帧。
#使用 argmax 找到每个时间步概率最大的类别 ID (yseq)。
#使用 torch.unique_consecutive 去除连续的重复类别 ID（CTC 解码中的常见步骤，用于去除重复的符号）。
            x = ctc_logits[i, : encoder_out_lens[i].item(), :]
            yseq = x.argmax(dim=-1)
            yseq = torch.unique_consecutive(yseq, dim=-1) # 使用 torch.unique_consecutive 去除连续的重复类别 ID（CTC 解码中的常见步骤，用于去除重复的符号）

            ibest_writer = None
            if kwargs.get("output_dir") is not None:
                if not hasattr(self, "writer"):
                    self.writer = DatadirWriter(kwargs.get("output_dir"))
                ibest_writer = self.writer[f"1best_recog"]

#使用 mask 去掉 CTC 解码中的 blank ID。
#将整数 ID 列表转化为对应的字符或单词（通过 tokenizer.decode）。
            mask = yseq != self.blank_id
            token_int = yseq[mask].tolist()

            # Change integer-ids to tokens
            text = tokenizer.decode(token_int)

            result_i = {"key": key[i], "text": text}
            results.append(result_i)

            if ibest_writer is not None:
                ibest_writer["text"][key[i]] = text

        return results, meta_data

CTC使用blank id来对齐不同长度的输入和输出：

在语音识别等任务中，输入的语音帧数往往远多于输出的字符数。CTC 通过引入 blank ID 来解决这个问题，使模型能够生成对齐（alignment），从而允许输入长度大于输出长度。
blank 用来表示在某个时间步模型没有输出任何字符，或者保持上一个字符的状态不变。

去除重复和冗余：

语音帧与字符之间的对齐并不是一一对应的，CTC 会允许模型在多个时间步中输出相同的字符，同时在其他时间步输出 blank。
解码过程中，当遇到连续的相同字符时，只保留第一个字符，忽略重复出现的字符和 blank，这帮助去除冗余。
例如，模型输出可能是 [a, blank, blank, a, a, blank, t, blank, blank]，最终解码结果会变为 "a, t"。

大模型系列教程

https://github.com/liguodongiot/llm-action?tab=readme-ov-file

🐌 LLM训练
- 🐫 LLM训练实战
- 🐼 LLM参数高效微调技术原理
- 🐰 LLM参数高效微调技术实战
- 🐘 LLM分布式训练并行技术
- 🌋 分布式AI框架
- 📡 分布式训练网络通信
- 🌿 LLM训练优化技术
- ⌛ LLM对齐技术
🐎 LLM推理
- 🚀 LLM推理框架
- ✈️ LLM推理优化技术
♻️ LLM压缩
- 📐 LLM量化
- 🔰 LLM剪枝
- 💹 LLM知识蒸馏
- ♑️ 低秩分解
🌴 LLM数据工程
- 🐬 LLM微调高效数据筛选技术
🌀 提示工程
♍️ LLM算法架构
🧩 LLM应用开发
🀄️ LLM国产化适配
🔯 AI编译器
🔘 AI基础设施
- 🍁 AI加速卡
- AI集群网络通信
💟 LLMOps
🍄 LLM生态相关技术
💫 LLM面试题
🔨 服务器基础环境安装及常用工具
💬 LLM学习交流群
👥 微信公众号
⭐️ Star History
🔗 AI工程化课程推荐

LLM训练

LLM训练实战

下面汇总了我在大模型实践中训练相关的所有教程。从6B到65B，从全量微调到高效微调（LoRA，QLoRA，P-Tuning v2），再到RLHF（基于人工反馈的强化学习）。

LLM	预训练/SFT/RLHF…	参数	教程	代码
Alpaca	full fine-turning	7B	从0到1复现斯坦福羊驼（Stanford Alpaca 7B）	配套代码
Alpaca(LLaMA)	LoRA	7B~65B	1.足够惊艳，使用Alpaca-Lora基于LLaMA(7B)二十分钟完成微调，效果比肩斯坦福羊驼 2. 使用 LoRA 技术对 LLaMA 65B 大模型进行微调及推理	配套代码
BELLE(LLaMA/Bloom)	full fine-turning	7B	1.基于LLaMA-7B/Bloomz-7B1-mt复现开源中文对话大模型BELLE及GPTQ量化 2. BELLE(LLaMA-7B/Bloomz-7B1-mt)大模型使用GPTQ量化后推理性能测试	N/A
ChatGLM	LoRA	6B	从0到1基于ChatGLM-6B使用LoRA进行参数高效微调	配套代码
ChatGLM	full fine-turning/P-Tuning v2	6B	使用DeepSpeed/P-Tuning v2对ChatGLM-6B进行微调	配套代码
Vicuna(LLaMA)	full fine-turning	7B	大模型也内卷，Vicuna训练及推理指南，效果碾压斯坦福羊驼	N/A
OPT	RLHF	0.1B~66B	1.一键式 RLHF 训练 DeepSpeed Chat（一）：理论篇 2. 一键式 RLHF 训练 DeepSpeed Chat（二）：实践篇	配套代码
MiniGPT-4(LLaMA)	full fine-turning	7B	大杀器，多模态大模型MiniGPT-4入坑指南	N/A
Chinese-LLaMA-Alpaca(LLaMA)	LoRA（预训练+微调）	7B	中文LLaMA&Alpaca大语言模型词表扩充+预训练+指令精调	配套代码
LLaMA	QLoRA	7B/65B	高效微调技术QLoRA实战，基于LLaMA-65B微调仅需48G显存，真香	配套代码
LLaMA	GaLore	60M/7B	突破内存瓶颈，使用 GaLore 一张4090消费级显卡也能预训练LLaMA-7B	配套代码

⬆ 一键返回目录

LLM微调技术原理

对于普通大众来说，进行大模型的预训练或者全量微调遥不可及。由此，催生了各种参数高效微调技术，让科研人员或者普通开发者有机会尝试微调大模型。

因此，该技术值得我们进行深入分析其背后的机理，本系列大体分七篇文章进行讲解。

LLM微调实战

下面给大家分享大模型参数高效微调技术实战，该系列主要针对 HuggingFace PEFT 框架支持的一些高效微调技术进行讲解。

教程	代码	框架
大模型参数高效微调技术实战（一）-PEFT概述及环境搭建	N/A	HuggingFace PEFT
大模型参数高效微调技术实战（二）-Prompt Tuning	配套代码	HuggingFace PEFT
大模型参数高效微调技术实战（三）-P-Tuning	配套代码	HuggingFace PEFT
大模型参数高效微调技术实战（四）-Prefix Tuning / P-Tuning v2	配套代码	HuggingFace PEFT
大模型参数高效微调技术实战（五）-LoRA	配套代码	HuggingFace PEFT
大模型参数高效微调技术实战（六）-IA3	配套代码	HuggingFace PEFT
大模型微调实战（七）-基于LoRA微调多模态大模型	配套代码	HuggingFace PEFT
大模型微调实战（八）-使用INT8/FP4/NF4微调大模型	配套代码	PEFT、bitsandbytes

⬆ 一键返回目录

LLM分布式训练并行技术

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，传统的单机单卡模式已经无法满足超大模型进行训练的要求。因此，我们需要基于单机多卡、甚至是多机多卡进行分布式大模型的训练。

而利用AI集群，使深度学习算法更好地从大量数据中高效地训练出性能优良的大模型是分布式机器学习的首要目标。为了实现该目标，一般需要根据硬件资源与数据/模型规模的匹配情况，考虑对计算任务、训练数据和模型进行划分，从而进行分布式训练。因此，分布式训练相关技术值得我们进行深入分析其背后的机理。

下面主要对大模型进行分布式训练的并行技术进行讲解，本系列大体分九篇文章进行讲解。

⬆ 一键返回目录

分布式AI框架

PyTorch
- PyTorch 单机多卡训练
- PyTorch 多机多卡训练
Megatron-LM
- Megatron-LM 单机多卡训练
- Megatron-LM 多机多卡训练
- 基于Megatron-LM从0到1完成GPT2模型预训练、模型评估及推理
DeepSpeed
- DeepSpeed 单机多卡训练
- DeepSpeed 多机多卡训练
Megatron-DeepSpeed
- 基于 Megatron-DeepSpeed 从 0 到1 完成 LLaMA 预训练
- 基于 Megatron-DeepSpeed 从 0 到1 完成 Bloom 预训练

分布式训练网络通信

待更新…

LLM训练优化技术

FlashAttention V1、V2
混合精度训练
重计算
MQA / GQA
梯度累积

LLM对齐技术

PPO（近端策略优化）
DPO
ORPO

⬆ 一键返回目录

LLM推理

LLM推理框架

LLM推理优化技术

LLM推理优化技术概述
FlashAttention
PagedAttention
Continuous Batching
大模型推理优化技术-KV Cache
Flash Decoding
FlashDecoding++

LLM压缩

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。模型压缩主要分为如下几类：

剪枝（Pruning）
知识蒸馏（Knowledge Distillation）
量化

LLM量化

本系列将针对一些常见大模型量化方案（GPTQ、LLM.int8()、SmoothQuant、AWQ等）进行讲述。

LLM剪枝

结构化剪枝：

LLM-Pruner(LLM-Pruner: On the Structural Pruning of Large Language Models)
LLM-Shearing(Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning)

非结构化剪枝：

SparseGPT(SparseGPT: Massive Language Models Can be Accurately Pruned in One-Shot)
LoRAPrune(LoRAPrune: Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning)
Wanda(A Simple and Effective Pruning Approach for Large Language Models)
Flash-LLM(Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity)

LLM知识蒸馏

大模型知识蒸馏概述

Standard KD:

使学生模型学习教师模型(LLM)所拥有的常见知识，如输出分布和特征信息，这种方法类似于传统的KD。

MINILLM
GKD

EA-based KD:

不仅仅是将LLM的常见知识转移到学生模型中，还涵盖了蒸馏它们独特的涌现能力。具体来说，EA-based KD又分为了上下文学习（ICL）、思维链（CoT）和指令跟随（IF）。

In-Context Learning：

In-Context Learning distillation

Chain-of-Thought：

MT-COT
Fine-tune-CoT
DISCO
SCOTT
SOCRATIC CoT

Instruction Following：

Lion

低秩分解

低秩分解旨在通过将给定的权重矩阵分解成两个或多个较小维度的矩阵，从而对其进行近似。低秩分解背后的核心思想是找到一个大的权重矩阵W的分解，得到两个矩阵U和V，使得W≈U V，其中U是一个m×k矩阵，V是一个k×n矩阵，其中k远小于m和n。U和V的乘积近似于原始的权重矩阵，从而大幅减少了参数数量和计算开销。

在LLM研究的模型压缩领域，研究人员通常将多种技术与低秩分解相结合，包括修剪、量化等。

ZeroQuant-FP（低秩分解+量化）
LoRAPrune（低秩分解+剪枝）

LLM数据工程

LLM Data Engineering

预训练语料处理技术

数据收集
数据处理
- 去重
- 过滤
- 选择
- 组合

LLM微调高效数据筛选技术

提示工程

Zero-Shot Prompting
Few-Shot Prompting
Chain-of-Thought (CoT) Prompting
Automatic Chain-of-Thought (Auto-CoT) Prompting
Tree-of-Thoughts (ToT) Prompting

LLM算法架构

大模型算法演进

ChatGLM / ChatGLM2 / ChatGLM3 大模型解析
Bloom 大模型解析
LLaMA / LLaMA2 大模型解析
百川智能开源大模型baichuan-7B技术剖析
百川智能开源大模型baichuan-13B技术剖析
LLaMA3 技术剖析
QWen 大模型剖析

LLM应用开发

大模型是基座，要想让其变成一款产品，我们还需要一些其他相关的技术，比如：向量数据库（Pinecone、Milvus、Vespa、Weaviate），LangChain等。

LLM国产化适配

随着 ChatGPT 的现象级走红，引领了AI大模型时代的变革，从而导致 AI 算力日益紧缺。与此同时，中美贸易战以及美国对华进行AI芯片相关的制裁导致 AI 算力的国产化适配势在必行。本系列将对一些国产化 AI 加速卡进行讲解。

⬆ 一键返回目录

AI编译器

AI编译器是指将机器学习算法从开发阶段，通过变换和优化算法，使其变成部署状态。

框架：

MLIR
XLA
TVM

AI基础设施

AI加速卡

AI芯片技术原理剖析（一）：国内外AI芯片概述
AI芯片技术原理剖析（二）：英伟达GPU
AI芯片技术原理剖析（三）：谷歌TPU

AI集群

待更新…

AI集群网络通信

待更新…

分布式训练网络通讯原语
AI 集群通信软硬件

LLMOps

LLM生态相关技术

LLM面试题

正在收集中…

⬆ 一键返回目录

服务器基础环境安装及常用工具

基础环境安装：

常用工具：

多模态视觉-语言大模型的架构演进

https://zhuanlan.zhihu.com/p/693885420

A Survey on Multimodal Large Language Models

https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

本文回顾了多模态LLM (视觉-语言模型) 近一年来的模型架构演进，对其中有代表性的工作进行了精炼总结.这篇综述一张图总结了多模态LLM的典型架构：

BLIP

【2022.01发布】https://arxiv.org/abs/2201.12086

统一视觉-语言理解和生成，使用captioner+filter高效利用互联网有噪数据

Refer to caption — 我们使用Captioner（Cap）为Web图像生成合成标题，并使用Filter（Filt）删除嘈杂的标题。

模型架构：

Image/text encoder: ITC loss对齐视觉和语言表征，基于ALBEF提出的momentum distillation
Image-grounded text encoder: ITM loss建模视觉-语言交互，区分positive/negative图文对，使用hard negative mining挖掘更高相似度的负例优化模型
Image-grounded text decoder: LM loss实现基于图像的文本解码，将双向self-attention替换为causal self-attention

BLIP-2

【2023.01发布】https://arxiv.org/abs/2301.12597

使用相对轻量的Q-Former连接视觉-语言模态，通过两阶段训练：第1阶段基于冻住的视觉编码器，第2阶段基于冻住的LLM

第1阶段：同样优化ITC/ITM/LM loss，使用不同的self-attention mask，query和text端共享self-attention参数，使得可学习的query embedding提取与text语义最相关的视觉表征；使用BERT-base初始化，32个768维的query作为信息瓶颈

ITC：计算每个query与text的相似度，取最大的；使用batch内negatives，不再使用momentum queue
ITM：对每个query与text的分类logits取平均，使用hard negatives mining挖掘难负例
LM：text token和frozen image encoder不能直接交互，要求query能提取有益的视觉特征

第2阶段：可基于decoder-only/encoder-decoder LLM进行适配，FC层对齐维度

LLaVA

【2023.04发布】https://arxiv.org/abs/2304.08485

使用仅文本模态的GPT-4生成视觉-语言指令遵循数据，用于微调多模态LLM
- 使用图片的dense captions和bounding boxes作为prompt，可以生成对话、细节描述、复杂推理等指令
CLIP ViT-L/14 + Vicuna，使用简单的线性层进行映射
- 更复杂的：Flamingo中gated cross-attention，BLIP-2中的Q-former

Qwen-VL

【2023.08发布】https://arxiv.org/abs/2308.12966

支持中英双语、多图像输入

Qwen-7B + OpenCLIP ViT-bigG，输入图像直接resize到视觉编码器输入

位置感知的VL adapter：使用基于Q-former的单层的cross-attention，将图像特征维度压缩到256，在query-key pairs中引入2D绝对位置编码增强位置信息

图像输入：<img>256-dim图像特征</img>

bounding box输入输出：<box>(X_topleft, Y_topleft), (X_bottomright, Y_bottomright)</box>, <ref>…</ref>标记box所指内容

三阶段训练：

stage1. 预训练：基于大规模、弱标注、网络爬取的图像-文本对，输入分辨率224×224，冻住LLM，训练ViT和Q-former，主要目的是模态对齐

stage2. 多任务预训练：基于7种下游视觉-语言理解任务的高质量、细粒度标注数据训练，输入分辨率448×448，图像/文本数据交错，训练整个模型

stage3. 指令微调：提升指令遵循和多轮对话能力，冻住ViT，训练LLM和Q-former

Qwen-VL-Plus和Qwen-VL-Max提升了视觉推理能力、图像细节的识别/提取/分析能力（尤其是文本导向的任务）、支持高分辨率和极端纵横比的输入图像；在部分中文场景超过了GPT-4V和Gemini

InternLM-XComposer

【2023.09发布】https://arxiv.org/abs/2309.15112

交错图文构成：自动在输出文本中插入合适的图片

EVA-CLIP ViT + InternLM-7B + Q-former (将图像特征压缩到64个embedding）

两阶段训练：

stage1. 预训练：冻住ViT，训练LLM和Q-former

stage2. 监督微调：包括多任务训练和指令微调，冻住ViT和LLM，训练Q-former，对LLM进行LoRA微调，增强指令遵循和图文混排能力

Fuyu-8B

【2023.10发布】https://huggingface.co/adept/fuyu-8b

模型架构和训练过程简单，易于scaling；支持任意图像分辨率；推理速度快

decoder-only的transformer，没有专门的图像编码器；image patch直接线性映射到transformer第一层

LLaVA-1.5

【2023.10发布】https://arxiv.org/abs/2310.03744

仍使用MLP作为模态连接，突出了训练的数据高效性

CogVLM

【2023.11发布】https://arxiv.org/abs/2311.03079

深度视觉-语言模态融合，而不影响LLM原有的语言能力：冻住LLM和ViT，在attention和FFN层训练一份视觉专家模块

CogAgent

【2023.12发布】https://arxiv.org/abs/2312.08914

针对GUI场景的多模态理解和导引，使用高分辨率-低分辨率双编码器，支持1120×1120的屏幕输入

高分辨率分支使用更轻量的ViT，基于cross-attention将高分辨率图像特征与LLM每层进行融合

VILA

【2023.12发布】https://arxiv.org/abs/2312.07533

探索了视觉-语言模型训练的设计选择：

预训练阶段冻住LLM虽然能取得较好的zero-shot性能，但上下文学习能力依赖对LLM的微调
图文交错的预训练数据是有益的，只用图文数据对效果不够好
将纯文本的指令微调数据加入SFT阶段有助于缓解纯文本任务的能力退化，同时也能够增强视觉-语言任务的准确性

LLaVA-Next

【2024.01发布】https://llava-vl.github.io/blog/2024-01-30-llava-next/

相对于LLaVA-1.5，保持了极简的设计和数据高效性：

提高了输入图像的分辨率 (4x)，支持3种纵横比：672×672, 336×1344, 1344×336
更好的视觉推理和OCR能力：更好的指令微调数据配比
更好的多场景视觉对话：更好的世界知识和逻辑推理
更高效的部署和推理：SGLang

动态高分辨率：视觉编码器支持336×336的图像输入，对于672×672的图像，按照{2,2}的grid split成4个图像patch过encoder，downsample到336×336也过encoder，特征拼接作为visual tokens输入到LLM中

收集高质量用户数据，包括真实场景中反映用户更广泛意图的指令数据，利用GPT-4V进行数据构造

多模态文档/图表数据，增强文档OCR和图表理解能力

InternLM-XComposer2

【2024.01发布】https://arxiv.org/abs/2401.16420

提出了新的模态对齐方法partial LoRA：只在image token上添加LoRA参数，保证预训练语言知识的完整性，这样一个更轻量的视觉编码器同样有效

OpenAI CLIP ViT-L/14 + InternLM2-7B + partial LoRA (rank=256)

两阶段训练：

stage1. 预训练：冻住LLM，微调ViT和partial LoRA模块，包括通用语义对齐（理解图像基本内容）、世界知识对齐（进行复杂的知识推理）、视觉能力增强（OCR、物体定位、图表理解）

stage2. 监督微调：微调整个模型，包括多任务训练、自由形式图文排布

InternLM-XComposer2-4KHD

2024.04发布了4KHD版本：https://arxiv.org/abs/2404.06512

支持动态分辨率（336px → 4K (3840×1600))：改进了patch division范式，保持训练图像原有的纵横比，自动变化patch数目，基于336×336的ViT配置layout

动态图像划分：将输入图像resize and pad到336的整数倍宽高

结合图像的global和local视角：global视角由输入直接resize到336×336，使用sep token分隔两种视角的token

图像2D结构的换行符：可学习的\n token分隔图像token行

Mini-Gemini

【2024.03发布】https://arxiv.org/abs/2403.18814

使用双视觉编码器提取低分辨率embedding作为query，高分辨率特征区域作为key/value，两者之间做cross-attention，输出挖掘的tokens作为prompt前缀，输入到LLM做推理，外接图像解码器生成图像(SDXL)

LLaVA-NeXT系列

LLaVA-1.5

23年10月，LLaVA-1.5发布，通过在视觉和语言模态间添加简单的MLP层实现了训练样本高效性，为多模态大模型在低数据业务场景的落地提供了可能。

[2310.03744] Improved Baselines with Visual Instruction Tuning

LLaVA-NeXT

24年1月，LLaVA-NeXT(1.6)发布，在1.5的基础上保持了精简的设计和数据高效性，支持更高的分辨率、更强的视觉推理和OCR能力、更广泛场景的视觉对话。模型分为两阶段训练：阶段1预训练只训练连接层，阶段2指令微调训练整个模型。

LLaVA-NeXT: Improved reasoning, OCR, and world knowledge

动态高分辨率AnyRes：如上图，为了让模型能感知高分辨率图像的复杂细节，对图像进行网格划分。比如，对于672×672的图像，一方面按2×2的网格切分为4张336px的输入图像送给ViT编码成特征，另一方面将图像直接resize到336px进行编码，最后将两部分特征合并输入到LLM中，这样模型具备了全局和局部的视觉推理能力。
指令数据混合：一方面保证指令数据具有高质量、多样性，反映真实场景的广泛用户意图；另一方面，补充文档和表格数据，提升模型的OCR和图表理解能力。
扩大LLM尺寸：考虑了7B、13B、34B的LLM。

24年5月，团队发布基于更强LLM的LLaVA-NeXT版本，支持LLaMA3(8B)和Qwen1.5(72B/110B)。更大的LLM提供更好的视觉世界知识和逻辑推理能力，最大的模型接近GPT-4V的性能，同时保证了训练高效性。

LLaVA-NeXT: Stronger LLMs Supercharge Multimodal Capabilities in the Wild

LLaVA-NeXT-Video

24年4月，LLaVA-NeXT-Video发布，展现出强大的zero-shot视频理解能力。LLaVA-NeXT中的高分辨率图像动态划分可以很自然地迁移到视频模态用来表示视频的多帧，使得只在图文模态上训练的LLaVA-NeXT能在视频任务上泛化。此外，推理时的长度泛化用于有效处理超出LLM最大长度的长视频输入。基于LLaVA-NeXT-Image模型，作者发布了在视频数据上监督微调的LLaVA-NeXT-Video，以及在AI反馈的监督下使用DPO偏好对齐的LLaVA-NeXT-Video-DPO。使用SGLang部署和推理，支持可扩展的大规模视频推理。可以想到，这有助于海量视频的高效文本标注，催生了未来更强大视频生成模型。

LLaVA-NeXT: A Strong Zero-shot Video Understanding Model

AnyRes：可以将N帧视频看作{1xN}的网格，而LLM的最大长度限制了可以处理的帧数，很自然地会考虑对图像进行下采样减少每帧token数，但作者发现为保证效果仍只能处理16帧。
长度泛化：基于LLM的长度外推技术（RoPE的线性扩展），推理时扩展2倍，从之前的16帧扩展到56帧，大大提升了模型分析长视频序列的能力。
基于LLM反馈的DPO偏好优化：偏好数据由LLM生成，视频表示为详细的说明文字，带来了很大的性能增益。
对于视频数据的微调，作者进行了ablation study：(1) 在LLaVA-NeXT图像级指令微调后，继续在视频级指令上增量微调；(2) 在LLaVA-NeXT图像级预训练后，在图像级和视频级数据联合微调，每个batch数据包含一种类型或者混合两种类型，实验表明混合图像和视频模态数据效果最佳。

指令微调Ablation Study

团队还分享了视觉指令微调过程中除数据之外的因素的ablation study，从模型架构、视觉表征、训练策略角度进行分析。

LLaVA-NeXT: What Else Influences Visual Instruction Tuning Beyond Data?

模型架构：扩展LLM比扩展视觉编码器更有效，视觉输入配置（分辨率、token数）比视觉编码器大小更关键。
- 学习率：为了训练更稳定，视觉编码器的学习率通常应该比LLM学习率小10倍～5倍，更大的LLM需要更小的学习率，尽量避免loss跑飞。
- 视觉编码器：相较于模型大小，基于分辨率、token数的视觉特征支持编码更多的视觉细节，预训练数据支持编码更多的视觉知识，作用更重要。
视觉表征：分辨率、特征空间视觉token数都重要，相对来说扩展分辨率更有效，建议使用AnyRes时下采样。
- 对于更高分辨率图像或者更长的视频，AnyRes需要更多的格子。比如，对于超过768×768的图像，以前的方案首先resize到768×768会导致细节丢失。这里考虑划分成更多的格子，然后对编码的特征进行双线性插值（下采样）到更小的特征，以防止视觉token数过多。
训练策略：在互联网级低质数据上大规模预训练后，指令微调前，增加一个阶段，使用一些高质量合成数据增强知识。

LLaVA-NeXT-Interleave

24年6月，LLaVA-NeXT-Interleave发布，提出图文交错格式可以作为通用模版统一不同的视觉模态，比如单图像(multi-patch)、多图像(multi-image)、视频(multi-frame)、3D(multi-view)。在保证LLaVA-NeXT单图像输入的性能下，可以提高其它模态任务的性能，而且在不同模态任务上具有初步的迁移能力。这种大一统的模型支持更广泛真实场景的应用，比如多页PPT的总结和问答、生成图像编辑的提示词、多文档的汇总和比较。

LLaVA-NeXT: Tackling Multi-image, Video, and 3D in Large Multimodal Models

作者在训练策略上进行了ablation study：

从LLaVA-NeXT单图像模型继续训练，从stage2单图像指令微调后的模型开始训练效果更好，可以继承单图像任务的指令遵循能力。
两种组织格式：将所有图像token放在最前面，在文本中使用特殊token指代图像 (in-the-front)，将图像token放在其原来的位置，与文本交错 (interleaved)。实验表明，在训练阶段混合两种格式有助于在推理阶段这两种格式都取得更好的性能。

InternVL系列

InternVL-1.0

23年12月，上海AI Lab @OpenGVLab发布InternVL。该工作在模态对齐中视觉编码器和LLM之间在参数规模和特征表征能力上存在较大的差距，自然地提出扩大视觉端的参数量到6B (InternViT-6B)，然后使用不同质量的图文数据逐渐与LLM对齐。此外，连接层的参数量也扩大了，类似Q-Former，这里设计了一个8B的语言中间件QLLaMA，使用Chinese-LLaMA的参数初始化增强其跨语言理解能力，新增96个可学习query token和cross-attention层 (1B)，实现视觉和语言模态进一步对齐。

[2312.14238] InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

下图是InternVL的三阶段渐进式训练策略，训练数据质量逐渐提高，最开始使用大规模有噪的图文对进行对比预训练 (类似CLIP)，接着加入冻结参数的QLLaMA连接件，只学习cross-attention，使用图文匹配/对比/生成loss (类似BLIP)，最后引入LLM进行监督微调，赋予多模态对话和问答能力。

InternVL训练的多阶段性赋予其内在的多功能性，通过灵活组合不同模块，可以支持各种视觉-语言任务，如下图。

这里值得讨论的一个点在于，InternVL为了让视觉端和语言端参数量平衡，对视觉端和连接层都进行了scale up。一个很自然的问题是，视觉端真的需要这么heavy的参数量吗？因为当前最新的LLaVA-NeXT仍然使用约300M的ViT和轻量的MLP连接层，仅通过扩展LLM提升多模态任务性能。我的个人拙见是，视觉理解包括感知和推理，感知部分可能并不需要那么大的参数量，而推理部分作用于high-level的视觉特征，通过微调LLM赋予其理解推理视觉模态的能力，所以为了性能、效率和稳定性的平衡，似乎这里scale up必要性不是很强，当然这里值得深入实验的验证和讨论。看到这篇论文中的图，让我想到了22年Google的Coca论文，作者把文本解码器按层对半划开，浅层一半用于文本单模态，深层一半用于图文多模态，可以看到下图视觉端参数量占比也相当高。

[2205.01917] CoCa: Contrastive Captioners are Image-Text Foundation Models

InternVL-1.5

24年4月，InternVL-1.5发布，综合性能更强，且支持推理时高达4K的分辨率。

[2404.16821] How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

上图为模型整体架构，采用了类LLaVA的ViT+MLP+LLM范式，结合了增强的InternViT-6B-448px-V1.5和中英双语InternLM2-Chat-20B，总体参数约26B。相比于InternVL-1.0，在输入端支持了动态高分辨率，连接层改为轻量的MLP，使用pixel shuffle操作将输出的视觉token数减为1/4。训练分为两阶段，预训练阶段训练InternViT和MLP映射，随后微调整个模型。

这里不再使用Q-Former作为连接层的原因，可以参考作者 @Weiyun 大佬的回答：多模态大语言模型（MLLM）为什么最近的工作中用BLIP2中Q-Former结构的变少了？ – Weiyun的回答 – 知乎，大致意思是说相比于MLP，Q-Former参数量大收敛更慢，数据量小的场景无法达到LLaVA-1.5这样的性能，而且提高数据量和计算量，Q-Former也没有明显的性能优势。
这里的pixel shuffle操作来源于16年的一篇论文，本质是对特征元素进行重排列，将 (𝐶×𝑟2,𝐻,𝑊) 的特征变换为 (𝐶,𝐻×𝑟,𝑊×𝑟) ，对特征进行了空间维度的上采样，但通道维度缩小为原来的 1/𝑟2 。这里输出的视觉token数可以理解为通道数，主要目的是通过提升特征维度换取更少的token数，从而可以支持更高的图像分辨率。这样，448×448的输入图像，patch size=14，总共有32×32=1024个token，设置上采样系数r=2，则该图像可以表示为256个token。

接着我们来看InternVL-1.5的三个重要改进：

InternViT增强：V1.2版本去掉了模型的最后3层，将分辨率扩展为固定448×448，而V1.5进一步扩展为动态448×448，即每张训练图像可分块，每块大小为448×448，支持1~12个块。此外，还增强了数据规模、质量和多样性，提高了OCR和高分辨率处理能力。
动态高分辨率：基于图像的分辨率和纵横比，将图像切分为448×448的分块，训练阶段最多12块，测试阶段可以外推到40块，即4K分辨率，这样模型训练和推理能适应多种分辨率和纵横比，避免了强行resize带来的失真和细节丢失。如下图，具体来说，对于一张800×1300的图像，从预定义的纵横比中匹配一个最接近的纵横比2:3，然后将图像resize到896×1344，并切分为多个448×448的图像块，再添加一个缩略视图 (直接resize到448×448) 用于图像全局理解。
高质量中英双语数据集：包含自然场景、图表、文档、对话等多样化的数据，借助LLM实现数据集英文到中文的转换。

此外，翻译的prompt值得我们学习：

System:
You are a translator proficient in English and {language}. Your task is to translate the following English text into {language}, focusing on a natural and fluent result that avoids “translationese.” Please consider these points:
1. Keep proper nouns, brands, and geographical names in English.
2. Retain technical terms or jargon in English, but feel free to explain in {language} if necessary.
3. Use {language} idiomatic expressions for English idioms or proverbs to ensure cultural relevance.
4. Ensure quotes or direct speech sound natural in {language}, maintaining the original’s tone.
5. For acronyms, provide the full form in {language} with the English acronym in parentheses.
User:
Text for translation: {text}
Assistant:
{translation results}

作者在ablation study部分研究了更大的LLM是否需要更大的视觉编码器，实际上是针对我们上面对InternVL-1.0视觉端参数量的问题的实验。实验对比了LLaVA-NeXT和InternVL-1.2，两者都使用34B的LLM，在尽量保证对比公平的条件下，实验证明更大的视觉模型能提供模型解决多模态任务的整体性能（不过原论文好像没有给具体数据？）。团队后续也发布了蒸馏版的视觉模型InternViT-300M-448px，与LLaVA-NeXT的视觉端保持了同等规模。

MiniCPM-V系列

MiniCPM-V是 @面壁智能发布的一系列支持高效端侧部署的多模态LLM。

MiniCPM-V 2.0

24年4月，MiniCPM-V 2.0发布，仅有2.8B参数，整体性能超过了Yi-VL 34B、CogVLM-Chat 17B、Qwen-VL-Chat 10B等更大的开源模型，OCR能力突出，支持中英双语对话，部分指标接近Gemini Pro。
视觉编码器使用SigLIP SO400M/14-384px，LLM使用MiniCPM-2.4B，连接层使用Flamingo中的Perceiver Resampler (类似Q-Former使用可学习query提取显著视觉信息，但不以输入文本为条件)。基于自研的RLHF-V实现可信行为对齐，在缓解多模态幻觉问题上接近GPT-4V。基于自研的LLaVA-UHD支持高达1344×1344的分辨率和任意纵横比输入。基于自研的VisCPM实现跨语言的多模态能力泛化，进而有良好的中英双语能力。此外，该模型在端侧部署内存开销较小、速度较快，即便是处理高分辨率的图像。官方还提供了安卓端部署的mlc-MiniCPM示例。

MiniCPM-Llama3-V 2.5

24年5月，MiniCPM-Llama3-V 2.5发布，总共8B参数，整体性能超过了GPT-4V-1106、Gemini Pro、Qwen-VL-Max、Claude 3等闭源模型，OCR和指令遵循能力进一步增强 (增强了全文本OCR提取、表格到Markdown转换等功能)，支持超过30种语言对话，在量化、编译优化、高效推理等加持下，同样可以在端侧高效部署。
在MiniCPM-V 2.0基础上，LLM替换为Llama3-8B-Instruct，基于更新的RLAIF-V进一步降低幻觉率。当前，官方支持了llama.cpp和ollama的高效CPU推理、GGUF 16-bit量化、LoRA微调等实用功能。

VILA1.5

24年5月，NVIDIA发布VILA1.5，提供视频理解能力，开源了3B/8B/13B/40B的模型，位于当前开源榜单MMMU和Video-MME前列。VILA详见我的上篇文章，这里简单回顾一下：VILA在大规模交错图文数据上预训练，从而具有多图理解能力，作者通过实验发现：(1) 图文交错排布比较关键；(2) 交错图文预训练过程中微调LLM能赋予其上下文学习的能力；(3) 混合只有文本的指令数据有助于提升性能；(4) 压缩视觉token可以扩展视频帧数。

CogVLM2

24年5月，智谱 @GLM大模型发布CogVLM2，随后发布了GLM-4V。CogVLM2基于Llama3-8B-Instruct，支持8K上下文、1344×1344分辨率、中英双语对话。GLM-4V-9B替换为GLM-4-9B语言模型，采取同样的数据和训练策略，去除CogVLM原有的视觉专家，将模型大小减为13B。CogVLM和CogAgent详见我的上篇文章。

Cambrian-1

24年6月，LeCun&谢赛宁团队发布Cambrian-1，关注以视觉为中心的多模态LLM，开源了8B/13B/34B的模型。当前多模态LLM仍存在较大的视觉缺陷，需要增强视觉表征以更好地和语言模态交互，赋予模型在真实场景更强的感知定位能力。这项研究的一大意义在于影响多模态LLM的工作开始重视视觉表征质量的提升，而非一直scale up LLM。

[2406.16860] Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

如上图，该工作围绕多模态LLM的5个核心设计要素展开研究，分别是：视觉表征、连接器设计、指令微调数据、指令微调策略、评估基准。

视觉表征

作者评估了多种视觉编码器及其组合，下图表明以语言监督的CLIP模型优势较强，但自监督方法在提供充足数据和适当微调的情况下性能也能接近。而且，结合多种类型的视觉编码器有助于提升多模态LLM的性能，尤其是以视觉为中心的任务。注意到，高分辨率的编码器大大增强了图表和以视觉为中心任务的性能，而基于ConvNet的架构适合处理这类任务。

2. 连接器设计

提出Spatial Vision Aggregator (SVA)，一个动态的、具备空间感知的连接器，以将 (来自多个视觉编码器的) 视觉特征与LLM深度融合。如下图，该方法设置一些可学习的latent query tokens，通过cross-attention与多个视觉特征交互 (视觉特征作为key/value)。SVA的设计有两点要素：(1) 通过显式定义每个query token对应的视觉特征图子区域，引入空间inductive bias，便于模型在处理视觉信息时保留对空间结构的理解，更准确地定位和整合局部特征；(2) 在LLM的多层聚合视觉特征，让模型在不同层级特征上反复利用视觉信息，增强模型对视觉内容的深入推理能力。该方法可以有效减少需要的视觉token数，例如相比于Mini-Gemini和LLaVA-NeXT，Cambrian-1的视觉token数是其20%。

3. 指令微调数据

作者发布了指令微调数据集Cambrian-10M，综合了OCR、通用VQA、纯语言等指令数据，还筛选了质量更高的7M版本。不同类型的视觉指令数据能赋予模型不同的能力，因此数据配比的平衡性也很关键，实验结果表明，平衡OCR、通用数据和语言数据的比例很重要。此外，在实验中作者发现，训练好的多模态LLM可能在基准测试上指标表现好，但实际对话能力弱，回复简短。因此，作者在训练期间引入了额外的系统提示，鼓励模型输出更长的回答和思维链推理，增强数学推理等任务的表现。

4. 指令微调策略

作者遵循LLaVA的两阶段训练策略，先使用适配数据只微调中间的MLP连接层，再打开LLM和连接器微调。结果表明，第一阶段对连接器的预训练可以提高性能，而使用更多的适配数据可以进一步增强。此外，作者对比了是否微调视觉编码器带来的性能影响，表明微调视觉编码器能增强性能，尤其对自监督预训练的视觉编码器 (如DINO v2、MoCo v3、MAE等)，在以视觉为中心的测试上提升明显。

5. 以视觉为中心的基准CV-Bench

现有多数benchmark无法正确评估模型的视觉感知定位能力，而且相应的样本数量有限。CV-Bench重新利用现有视觉benchmark中的样本，包含2638个以视觉为中心的VQA问题，涉及2D的空间位置关系和物体计数、3D的深度次序和相对距离。

最后，让我们共同期待我国的AGI基础模型不断取得新的突破，引领世界潮流！

Sequence Modeling With CTC

网址： https://distill.pub/2017/ctc/

在语音识别中，我们的数据集是音频文件和其对应的文本，不幸的是，音频文件和文本很难在单词的单位上对齐。除了语言识别，在OCR，机器翻译中，都存在类似的Sequence to Sequence结构，同样也需要在预处理操作时进行对齐，但是这种对齐有时候是非常困难的。如果不使用对齐而直接训练模型时，由于人的语速的不同，或者字符间距离的不同，导致模型很难收敛。

我们可以设计一个规则，比如“一个字符对应十个语音输入”。但是人们的语速是不同的，所以这种规则总是可以被打破的。另一种方法是手动将每个字符与其在音频中的位置对齐。从建模的角度来看，这工作得很好，我们知道每个输入时间步的基本事实。然而，这对数据集的标注工作是非常耗时的。

这个问题不仅仅出现在语音识别中。我们在许多其他地方看到它。来自图像或笔画序列的手写识别就是一个例子。

CTC(Connectionist Temporal Classification 连接时序分类)是一种避开输入与输出手动对齐的一种方式，是非常适合语音识别或者OCR这种应用的。

给定输入序列 𝑋=[𝑥1,𝑥2,…,𝑥𝑇] 以及对应的标签数据 𝑌=[𝑦1,𝑦2,..,𝑦𝑈] ,例如语音识别中的音频文件和文本文件。我们的工作是找到 𝑋 到 𝑌 的一个映射，这种对时序数据进行分类的算法叫做Temporal Classification。

对比传统的分类方法，时序分类有如下难点：

𝑋 和 𝑌 的长度都是变化的；
𝑋 和 𝑌 的长度是不相等的；
对于一个端到端的模型，我们并不希望手动设计𝑋 和 𝑌 的之间的对齐。

CTC提供了解决方案，对于一个给定的输入序列 𝑋 ，CTC给出所有可能的 𝑌 的输出分布。根据这个分布，我们可以输出最可能的结果或者给出某个输出的概率。我们会要求CTC有效地完成下面这两件事。

1、损失函数：给定输入序列 𝑋 ，我们希望最大化 𝑌 的后验概率 𝑃(𝑌|𝑋) , 𝑃(𝑌|𝑋) 应该是可导的，这样我们能执行梯度下降算法；

2、测试：给定一个训练好的模型和输入序列 𝑋 ，我们希望输出概率最高的 𝑌 :

当然，在测试时，我们希望 𝑌∗ 能够尽快的被搜索到。

算法详解

给定输入 𝑋 ，CTC输出每个可能输出及其条件概率。问题的关键是CTC的输出概率是如何考虑 𝑋 和 𝑌 之间的对齐的，这种对齐也是构建损失函数的基础。所以，首先我们分析CTC的对齐方式，然后我们在分析CTC的损失函数的构造。

1.1 对齐

需要注意的是，CTC本身是不需要对齐的，但是我们需要知道 𝑋 的输出路径和最终输出结果的对应关系，因为在CTC中，多个输出路径可能对应一个输出结果，举例来理解。例如在OCR的任务中，输入 𝑋 是含有“CAT”的图片，输出 𝑌 是文本[C, A, T]。将 𝑋 分割成若干个时间片，每个时间片得到一个输出，一个最简答的解决方案是合并连续重复出现的字母，如图2.

这个问题有两个缺点：

几乎不可能将 𝑋 的每个时间片都和输出Y对应上，例如OCR中字符的间隔，语音识别中的停顿;
不能处理有连续重复字符出现的情况，例如单词“HELLO”，按照上面的算法，输出的是“HELO”而非“HELLO”。

为了解决上面的问题，CTC引入了空白字符 𝜖 ，例如OCR中的字符间距，语音识别中的停顿均表示为 𝜖 。所以，CTC的对齐涉及去除重复字母和去除 𝜖 两部分，如图3。

这种对齐方式有三个特征：

𝑋 与 𝑌 之间的时间片映射是单调的，即如果 𝑋 向前移动一个时间片， 𝑌 保持不动或者也向前移动一个时间片；
𝑋 与 𝑌 之间的映射是多对一的，一个或多个输入元素可以与单个输出元素对齐，但反之则不然，所以也有了特征3；
𝑋 的长度大于等于 𝑌 的长度。

1.2 损失函数

CTC对齐为我们提供了一种从每个时间步的概率到输出序列的概率的自然方法。

也就是说，对应标签 𝑌 ，其关于输入 𝑋 的后验概率可以表示为所有映射为 𝑌 的路径之和，我们的目标就是最大化 𝑌 关于 𝑥=𝑦 的后验概率 𝑃(𝑌|𝑋) 。假设每个时间片的输出是相互独立的，则路径的后验概率是每个时间片概率的累积，公式及其详细含义如图5。

上面的CTC算法存在性能问题，对于一个时间片长度为 𝑇 的 𝑁 分类任务，所有可能的路径数为 𝑁𝑇 ，在很多情况下，这几乎是一个宇宙级别的数字，用于计算Loss几乎是不现实的。在CTC中采用了动态规划的思想来对查找路径进行剪枝，算法的核心思想是如果路径 𝜋1 和路径 𝜋2 在时间片 𝑡 之前的输出均相等，我们就可以提前合并他们，如图6。

其中，横轴的单位是 𝑋 的时间片，纵轴的单位是 𝑌 插入 𝜖 的序列 𝑍 。例如对于单词“ZOO”，插入 𝜖 后为：

𝑍={𝜖,𝑍,𝜖,𝑂,𝜖,𝑂,𝜖}

我们用 𝛼𝑠,𝑡 表示路径中已经合并的在横轴单位为 𝑡 ，纵轴单位为 𝑠 的节点。根据CTC的对齐方式的三个特征，输入有9个时间片，标签内容是“ZOO”， 𝑃(𝑌|𝑋) 的所有可能的合法路径如下图：

有两个有效的起始节点和两个有效的最终节点，因为序列开头和结尾的 𝜖ϵ 是可选的。完全概率是最后两个节点的和。现在我们可以有效地计算损失函数，下一步是计算梯度并训练模型。CTC损失函数相对于每个时间步的输出概率是可微的，因为它只是它们的总和和乘积。考虑到这一点，我们可以解析地计算损失函数相对于（未归一化的）输出概率的梯度，并从那里像往常一样运行反向传播。

对于数据集 𝐷 ，模型的优化目标是最小化负对数似然:

1.3 预测

当我们训练好一个RNN模型时，给定一个输入序列 𝑋 ，我们需要找到最可能的输出，也就是求解

𝑌∗=arg⁡max𝑌⁡𝑝(𝑌|𝑋)

求解最可能的输出有两种方案，一种是Greedy Search，第二种是beam search

1.3.1 Greedy Search

每个时间片均取该时间片概率最高的节点作为输出：

1.3.2 Beam Search

Beam Search是寻找全局最优值和Greedy Search在查找时间和模型精度的一个折中。一个简单的beam search在每个时间片计算所有可能假设的概率，并从中选出最高的几个作为一组。然后再从这组假设的基础上产生概率最高的几个作为一组假设，依次进行，直到达到最后一个时间片，下图是beam search的宽度为3的搜索过程，红线为选中的假设。

到目前为止，我们提到了CTC的一些重要属性。在这里，我们将更深入地了解这些属性是什么以及它们提供了什么样的权衡。

CTC的性质：

条件独立：CTC的一个非常不合理的假设是其假设每个时间片都是相互独立的，这是一个非常不好的假设。在OCR或者语音识别中，各个时间片之间是含有一些语义信息的，所以如果能够在CTC中加入语言模型的话效果应该会有提升。
单调对齐：CTC的另外一个约束是输入 𝑋 与输出 𝑌 之间的单调对齐，在OCR和语音识别中，这种约束是成立的。但是在一些场景中例如机器翻译，这个约束便无效了。
多对一映射：CTC的又一个约束是输入序列 𝑋 的长度大于标签数据 𝑌 的长度，但是对于 𝑌 的长度大于 𝑋 的长度的场景，CTC便失效了。

Practitioner’s Guide

到目前为止，我们已经对 CTC 有了概念性的理解。在这里，我们将为从业者提供一些实现技巧。

软件：即使对 CTC 有深入的了解，实施也很困难。该算法有几个边缘情况，应该用较低级别的编程语言编写快速实现。开源软件工具使入门变得更加容易：

百度研究已经开源了warp-ctc。该软件包是用 C++ 和 CUDA 编写的。CTC 损失函数在 CPU 或 GPU 上运行。绑定可用于 Torch、TensorFlow 和 PyTorch。
TensorFlow 为 CPU 内置了 CTC loss and CTC beam search 束搜索函数。
Nvidia 还在cuDNN 版本 7 及更高版本中提供了 CTC 的 GPU 实现。

Numerical Stability:计算 CTC 损失在数值上是不稳定的。避免这种情况的一种方法是在每个时间步长归一化 α。在实践中，这对于中等长度的序列来说已经足够好了，但对于长序列来说，它仍然会下溢。更好的解决方案是使用 log-sum-exp 技巧计算对数空间中的损失函数。 ⁴在对数空间中计算两个概率之和时，使用恒等式.还应使用 log-sum-exp 技巧在 log-space 中进行推理。

Beam Search:

使用波束搜索解码器时的一个常见问题是要使用的波束的大小。准确性和运行时间之间存在权衡。我们可以检查光束尺寸是否在良好的范围内。为此，首先计算推断输出 ci. 的 CTC 分数，然后计算真值输出 cg. 的 CTC 分数如果两个输出不同，我们应该有cg<ci. Ifci<<cg ，那么真值输出在模型下实际上具有更高的概率，并且光束搜索未能找到它。在这种情况下，可能需要大幅增加光束尺寸。

GPT-4o背后的语音技术

5月14日凌晨，OpenAI推出了最新的生成模型GPT-4o，带来了一系列震撼的功能，用技术彻底颠覆了产品形态。产品最大的亮点在于：以近乎完美的交互方式，为每位用户带来GPT-4级别的智能体验。在语音方面，GPT-4o做到了实时低延迟，平均响应时间与人类反应速度相当，输出的语音能够理解极度贴合对话上下文，能够理解人类的情感情绪，听觉质量上佳，与真人无异。

OpenAI的博客：https://openai.com/index/hello-gpt-4o/

GPT-4o是一个any2any的多模态模型，能够接受文本、音频、图像、视频等多模态输入，也能够生成包含文本、语音、图像和视频等混合内容的多模态输出。限于篇幅，本文主要谈谈语音多模态的实现，并分享一些对于语音研究未来发展的看法。

当我们主要关注文本和语音模态时，GPT-4o其实就是一个语音语言模型(speech language model, SLM)。该SLM同时具备语音理解能力和语音合成能力，输入端和输出端均支持文本和语音的混合多模态。那么，这一SLM应该如何实现呢？在大语言模型(large language model, LLM)滥觞的今日，不难想到这样一种方法：将连续的语音数据离散化成如同单词(或者称token，词元)一样的表示，并入到LLM的词表中，再走一遍训练LLM的老路。

基于上述思想来构建SLM，需要解决以下几个问题：

语音如何离散化？
如何让LLM理解语音的token？加入语音token之后，LLM在语音数据的理解上是否具有涌现性？
LLM如何合成/解码语音？

接下来，我们按图索骥，分别看看上述三个问题应该如何解决。看完现有的方案之后，也会谈谈一些关于工程实现的思考以及新兴语音技术对于游戏业务的影响。最后，我会给出一个完整的roadmap来收束全文。

语音的离散化：向LLM看齐！

在谈及语音离散化之前，我们先来看看语音和文本作为两种不同的模态，有什么区别，有什么联系。这直接关系到后文建模方法的选择以及离散化特征的关注点。

语音和文本的差别主要体现在：文本离散、序列短、信息密度高(几乎每个词都包含语义)；语音则连续、序列长、信息密度低。语音序列长、信息密度低的特点，意味着语音数据有很大的压缩空间，这一点和图像非常类似。因此，一些用于图像的离散化压缩方法也可以用在语音上。

除了差异，语音和文本也有一定的联系：语音是文本的超集，既包含文本内容(说话人说了什么，也就是语义信息)，也包含语音特有的音色、韵律、语速等声学信息(也叫做副语言)。既然语音包含文本，那么在NLP中预训练语言模型也可以用来建模语音中的上下文依赖关系，从而得到语音的离散化token。基于这些方法得到的token主要包含语音的语义信息。

花开两朵，各表一枝。我们先来看看语音的语义token如何获取。

语义token: 用MLM建模语音的上下文依赖

语音的语义建模方法，最常用到的就是BERT的MLM方法，比较经典的工作有三个：wav2vec 2.0[1]、HuBERT[2]和w2v-BERT[3]。

类似于BERT，wav2vec 2.0[1]在隐空间(latent space)随机mask了一定比例的语音输入，然后用基于对比学习的训练目标学习帧的表征。值得注意的一点是，对比学习中目标帧的离散化处理是一个非常巧妙的操作，它将无限的连续特征空间坍缩为有限的离散空间，让帧特征的鲁棒性更强了。这在语音领域上非常有用的trick，允许模型接受带有噪声的语音作为输入。

图1：wav2vec 2.0的模型架构

wav2vec 2.0只是借用了BERT中mask的操作，训练目标大体上是基于对比学习的范式。那么，能直接用BERT的MLM建模目标来得到高质量的语音表征吗？其后的HuBERT[2]做的就是这个事情。HuBERT[2]的核心点在于使用简单的KMeans聚类方法为语音数据抽取离散化的分类标签，也就是文中所说的hidden unit/acoustic unit。有了分类标签，然后就是用BERT的MLM loss来学习语音数据中内在的上下文依赖关系。对于KMeans聚类对初始值和K值高灵敏的特点，作者设计了ensemble和iterative refinement方法予以解决。前者就是多个聚类模型ensemble，后者就是先在基于MFCC的聚类标签上进行学习，学习到一定程度时，在模型学习到的表征重新聚类，再做一次BERT的学习。

图2：HuBERT的模型架构

既然对比学习可以学习语音的语义表征，BERT的MLM也可以，那将二者结合起来，会不会有互补的效果呢？w2v-BERT[3]做的就是这个事情。注意到：HuBERT中语音的离散token不是端到端获得的，需要用KMeans算法对特征进行离线聚类，而wav2vec 2.0又正好提供了音频帧的量化离散表征，HuBERT和wav2vec 2.0很容易就能缝合在一起。缝合的方法也是显然的：前面若干层做类似wav2vec 2.0的对比学习，学习出HuBERT要用的离散表征，然后在后面若干层做类似HuBERT的MLM训练。

图3：w2v-BERT的模型架构

声学token：压缩+离散

上一部分介绍的预训练模型做的是上下文关系的预训练，学习到的表征主要包含与上下文相关的语义信息。要想将语音的token还原成为真正具有真人表现力的信号，还需要有包含音色、韵律、语速等副语言信息的声学特征。声学特征的学习在很大程度上参考了图像领域的工作，用到的主要是类似于VQVAE[4]、VQGAN等的离散化压缩方法，并针对语音数据的特性做了优化。这一部分比较经典的工作就是SoundStream[5]和Encodec[6]，二者的工作高度类似，我们放在一起来看。

说到压缩，最先想到的模型当然就是AutoEncoder(自编码器)。为提升压缩效率，有利于数字传输和存储，以及离散化建模的要求，压缩模型中还需要包含量化(quantization)，将连续的音频信号转换为离散的数值。基于上述考虑，模型大体上应该是VQVAE[4]的结构。为了平衡VQ(Vector Quantization，向量量化)与音频实时高保真传输的矛盾，通常采用多个残差连接的codebook来进行量化，这个就是所谓的RVQ(具体分析过程可以参见知乎文章)。采用RVQ的好处主要有两个：其一，区分不同quantization block的分工，第一个block包含最重要的语义信息，后续的block包含还原语音的副语言信息；第二，模型训练时可随机采样前面若干个block来训练，保持一定精度，实现对比特率的动态适应。

总而言之，SoundStream[5]/Encodec[6]其实就是一个RVQ-VAE，它们所建模的语音离散化token包含了层次化的语义信息和声学信息。

图4：Encodec的模型架构

语音的统一表征？

不难发现，虽然说SoundStream[5]和Encodec[6]这样的基于RVQ-VAE的压缩建模方法包含了语音的声学特征，但其中也不可避免地带入了语义特征。二者提取的实际上更像是一种语义特征和声学特征的混合体。基于此，SpeechTokenizer[7]在二者的基础上，引入了语义引导信息来解耦语义特征和声学特征。语义特征和声学特征的解耦对于最终的语音合成有着相当的重要性。SpeechTokenizer的具体做法是：使用HuBERT[2]的特征对RVQ1的特征做语义蒸馏，其余部分保留声学信息。

图5：SpeechTokenizer的模型架构

语音的其他表征：MEL依旧有用！

上述的语音离散表征，不管是基于HuBERT[2]的语义token，还是基于Encodec[6]的声学token，它们都是直接基于原始的音频波形抽取的。除此之外，也可以基于语音的中间表征来抽取。最典型的语音中间表征就是梅尔谱(MEL spectrogram，下文简称MEL)。梅尔谱本身就对语音进行了压缩，将梅尔谱类比于图像，使用单码本的VQ也可以达到与SoundStream和Encodec那样类似的压缩程度。这种MEL+VQ的做法在各种语音合成模型中也相当常见。我们在语音合成部分会详细介绍。

让LLM理解语音token！

有了上面所说的语义token和声学token之后，其实就可以利用它们来构建语音层面的语言模型了。比较经典的工作有：谷歌的AudioLM[8]和AudioPaLM[9]、字节的SALMONN[10]、复旦的SpeechGPT[11]/SpeechGPT-Gen[12]/SpeechAlign[13]、阿里的LauraGPT[14]和新加坡国立大学的NextGPT[15]。它们的做法其实都大差不差，我们看几个就知道是怎么回事了。

AudioLM：最初的SLM

见名知义，AudioLM[8]构建的是语音层面的语言模型——给定一段语音，模型预测后续的语音。输入侧和输出侧都只有语音模态。这个任务形式和GPT-4o非常类似，不会经历ASR->LM->TTS的过程，而是直接从语音上下文中推理语义信息，再结合声学信息合成贴合上下文的高表现力语音。而上文所述的语义token和声学token正好就能满足这个任务的要求。

AudioLM的具体做法是：用SoundStream[5]提取声学token，用w2v-BERT[3]提取语义token，模型主体就是一个常规的GPT，词表包含所有的声学token和语义token。它的建模过程也相当有意思，有很大的参考意义：先做最重要的语义建模，然后先预测SoundStream的前若干层特征，建模粗糙的声学特征，在预测SoundStream的剩余层特征，建模声音的细节信息，最后基于所有的声学token还原为语音。这种层次化的建模在诸如VALL-E[16]这样的语音合成模型中也非常常见。

图6：AudioLM的tokenizer

图7：AudioLM的建模流程

当然，AudioLM[8]仅仅关注语音模态，LM也很常规，不具备如同GPT-4o一样强悍的指令遵循能力和对话能力，语音对话的连贯性和表现力都相当弱。但这一工作仍然具有相当的启发性和开拓性，证明了：即使是常规的LM，照样也能理解语音token。

AudioPaLM[9]：整合LLM

这个就是AudioLM的后续了，谷歌将常规的LM替换成已经训练好的、具有强大文本理解能力和生成能力的大语言模型——PaLM-2[17]，既继承了AudioLM保留副语言的能力，又融合了PaLM-2强大的语义理解能力和推理能力。而且，该模型的词表同时包含大语言模型的token和语音token，可以同时做语音理解任务和合成生成任务，第一将这些任务整合在一个模型中进行解决。

不过，需要指出地是，文中的语音token embedding是直接输入到Transformer中的，并没有使用音频编码器做一次转换。而且，AudioPaLM的训练更加接近文本多任务的T5，并未用到复杂的、丰富多样的指令来表达任务的意图，还不能算是真正严格的instruction fine-tuning。

图8：AudioPaLM的模型架构

SALMONN[10]：让LLM理解语音

这是字节跳动和清华大学电子系(也是我们实验室)的合作成果。虽然这个工作的目的是让LLM能够理解语音，还不能生成语音，但它的训练方法和LLM比较接近，而且在诸多语音相关的任务上都显示出了涌现性，可以用作universal的特征提取器，这对于构建高质量的、包含语音-文本多模态的指令微调数据集具有相当大的意义。

图9：SALMONN的模型架构

SpeechGPT/SpeechGPT-Gen/SpeechAlign：向LLM的训练方法看齐

这算是复旦大学邱锡鹏组在这个领域一个成系列的工作，我们一个一个来看。

SpeechGPT[11]做的也是兼具语音理解能力和语音生成能力的多模态模型。在模型的训练上，SpeechGPT大幅度向LLM看齐，使用了三段式的训练方法：第一阶段先做模态适应的预训练，其实就是拿ASR的语音数据来做预训练；第二阶段和第三阶段都是指令微调，不过根据指令模态的不同，细分为了跨模态的指令微调和模态链指令微调。指令微调的数据集都是来自ASR数据集。描述任务需求的指令由GPT-4生成。

在我看来，这个工作还是相当偏学术化的作品，文中有不少点都有值得商榷的地方：第一，语音的离散化仅仅用了HuBERT[2]，模型只能看到语音的语义特征，这对模型合成语音的音质和表现力有非常大的影响，demo的语音也验证了我的判断；第二，指令微调数据集的构造上有问题。他们用的是ASR数据集，其实更好的选择应该是TTS数据集，可惜高质量的TTS数据集实在是太少了。ASR数据集中的文本和语音可能并不是严格对齐的，GPT-4产生的meta-prompt和语音本身的特征也有可能是对不上的，比如prompt要求大声朗读，但语音本身可能是特定低沉的。meta-prompt本身就无法做到足够复杂丰富，不能描述到语音的一些细粒度信息。

这一部分，最好要有像诸如SALMONN[10]这样的多模态语音理解模型的介入，像DALLE3一样丰富指令的多样性。至于语音方面，可以考虑引入zero-shot的语音合成模型或者变声模型来做合成数据。第三，文中的训练方法也没有与人类偏好做对齐。

图10：SpeechGPT的模型架构

对于上面的第一个问题，作者在其后的SpeechGPT-Gen[12]中做了解决。解决思路的核心点就是：让模型不仅看到语音的语义token，也要看到语音的声学token。具体做法是：SpeechGPT的HuBERT特征替换成了SpeechTokenizer[7]中的语义特征，用SpeechGPT这一LLM来自回归地建模语义特征，有了语义特征之后，再使用Flow-Matching这样的扩散模型来建模声学特征。这里选用Flow-Matching扩散模型，可能是受了SD3和Voicebox/Audiobox的影响。为了增强两阶段建模的依赖关系，作者将语义特征的先验信息注入到第二阶段扩散模型的先验分布中。可以看到，这里语音的解码其实也是一种层次化渐进式解码。

图11：SpeechGPT-Gen的模型架构

SpeechAlign[13]做的则是SLM与人类偏好的对齐，彻底地向LLM的训练方法看齐。该工作构建了对比gold token和合成token的encodec数据集，然后进行偏好优化来进行改进。使用的偏好优化方法包括RLHF和Chain of Hindsight。

图12：SpeechAlign的流程图

简单总结一下上面这些工作中值得关注的点：

要想让LLM输出上下文连贯的高表现力语音，必须要让LLM看到语义token和声学token，只有语义token，那语音就会显得呆板机械，只有声学token，那语音就不知所云；
LLM的指令微调同样可以迁移到语音-文本多模态领域中，LLM的指令微调同样可以带来如同NLP一样的涌现性；
高质量指令微调数据集的构建应该是最大的瓶颈！一下子让LLM同时做语音理解和语音生成，难度非常大。不如分步进行。
如果要分步进行的话，要先实现一个类似于SALMONN[10]那样的多模态理解模型和一个强大的Zero-shot TTS模型。前者用于给语音数据打上丰富的标签，可以是情感情绪、韵律、音高、语速，也可以是口音、意图和说话环境；后者则用于生成高质量的语音数据。毕竟，高质量的、文本和语音严格对齐的TTS数据实在是太少了，尤其是中文领域。有了这两个模型的加持，我们其实就能够构造出高质量的指令微调数据集。我不知道OpenAI是否有SALMONN这样的模型，但OpenAI的OpenVoice模型应该足够为其提供高质量的语音数据了。

既然我们在上面的篇幅中论述了语音理解多模态模型的构建，那我们在下一部分就重点关注zero-shot TTS模型，它对高质量指令微调数据集的构建同样至关重要。同时，LLM解码语音的方法也能从zero-shot TTS方案中得到不少的启发。

LLM如何合成语音：Zero-shot TTS

前面说到，SLM词表中包含了语音的语义token和声学token。语义token保证生成语音与对话上下文的连贯性，声学token保证了合成语音的质量和表现力。要想做到合成上下文连贯的高自然度语音，有两个问题必须要解决：

语音既有语义token，又有声学token，应该要如何解码成语音？
SLM在合成语音的过程中是否能够遵循多轮对话中的文本指令和语音指令？这个很重要！这允许模型根据用户的即时要求来生成语音回复。比如说，OpenAI演示视频中出现的：“将语速提高两倍”、“采用更加机械化的语气”这样的要求。

对于第一个问题，以VALL-E[16]为代表的诸多zero-shot TTS模型给出了不同的解决方案，这些方案虽有不同，但也有不可忽视的共同点；对于第二个问题，以VoiceLDM[18]和ParlerTTS[19]为代表的text/prompt-guided zero-shot TTS工作给出了肯定的答案。简单解释一下text/prompt-guided zero-shot TTS是怎么回事，通常的语音合成就是将文本(transcription)转换成声音，该任务在transcription之外，又增加了description的输入，来描述合成语音的情感情绪、口音、语气、语速、音高、说话环境、氛围等等信息。我们逐个来看这些工作。

Zero-shot TTS

2023年以来，学术界和工业界出了不少具备in-context learning(zero-shot/few-shot)能力的TTS模型。这些TTS模型通常会将低信息密度、长序列的连续语音数据压缩为高信息密度的tokens或者latents(其实就是码本中具体的token embedding)。这些模型本质上做的事情就是：如何高效实现语音tokens/latents到音频波形的映射。

这些模型给出的解决方案基本上都遵循一个准则：语义token和声学token层次化解码，先语义后声学，或者先解码成MEL再后接声码器，并且非必要不做自回归(毕竟自回归上线虽高，但太吃数据了)！我们一个个来看。

基于声学token或语义token的工作

先是微软的VALL-E[16]。这是zero-shot TTS的开山之作，首次在TTS任务上采用了上万小时的数据。它采用Encodec将语音转换为离散的token，然后用GPT在token上做语言模型的任务。但是，语音毕竟不是文本，如果直接在语音的所有特征上都做自回归的话，那训练的成本会相当高。考虑到Encodec RVQ特征的层次性，低层特征表示语义内容这样的重要特征，高层特征则表征声学细节。前者具有比较强的上下文依赖关系，适合用自回归来建模，后者诸如音色这样的特征，具有全局性，用非自回归特征也可以搞定，所以就有了VALLE中自回归+非自回归的层次建模方式。

图13：VALL-E的模型架构

尽管VALL-E[16]在用GPT建模token的上下文关系的时候，基于token的层次化特性做了分治处理，可能是限于当前语音数据集的规模(几万小时可能不够)，这种GPT自回归的难度还是相当大的，解码过程存在常见的错误传播现象，鲁棒性非常差，极其不稳定。根据Ilya Sutskever此前对于自回归的论述，GPT自回归相比于BERT这种双向结构是非常data-hungry的，万小时的数据可能不够。根据本人以及一些同行的经验，VALL-E模型这一类的自回归模型，也包括tortoise-tts[20]和xtts v2，要想显出威力，至少要有十几万小时的数据才行。

既然GPT自回归的难度这么大，就有不少人想方设法地来降低GPT学习的难度了。他们的解决方案也非常类似：给GPT提供额外的条件信息不就行了。比较典型的工作就是微软的RALL-E[21]和吉利的HAM-TTS[22]。RALL-E先生成了时长信息和音高信息，作为GPT自回归的先验，之所以会补充时长和音高，这大概是受到FastSpeech2[23]这样的非自回归模型的启发，这两个指标的引入，有助于提升合成的鲁棒性；HAM-TTS则是补充了基于HuBERT的语义信息。值得注意地是，HAM-TTS将模型的训练数据扩充到了65万小时，其中有50万小时的数据是合成数据。合成数据也能大幅度提升合成语音的音质。

图14：RALL-E的模型架构，框出来的就是辅助信息

图15：HAM-TTS的模型架构

说到VALL-E的后续改进，VoiceCraft不得不提。我愿意称之为“优雅的VALL-E”。它的优雅主要体现在两个方面：casual masking和delayed stacking。所谓的causal masking，是为了用自回归GPT架构来做语音编辑任务，就是把被mask的部分移动到序列末尾去预测，一套架构同时做合成和编辑任务；所谓的delay stacking，是为了适配自回归和RVQ，通过delay错位让当前码本的token预测正好可以利用前面那些token的预测结果，比起VALL-E那样自回归和非自回归缝合在一起的结构要优雅不少。

图16：VoiceCraft的建模流程

基于声学/语义latents的工作

我们通常所说的语音token是离散的。如果使用对应码本中的embedding来表示语音的话，它也可以是连续的低维度的latent变量。既然是低维度的连续latent变量，那图像合成领域中大火的LDM(latent diffusion model，其实就是stable diffsion 1&2采用的模型)模型[]自然也可以用到语音的合成上。这方面的经典工作有很多，比如说：NaturalSpeech 2&3[25, 26]、AudioLDM 2[27]、VoiceLDM[18]。但这里面只有NaturalSpeech2用到了语音离散化部分提及的声学/语义token，NaturalSpeech3的属性分解形式的VQ更像是另一种形式的RVQ。我们先来看NaturalSpeech 2&3，其他的工作后面再来看。

首先是NaturalSpeech 2[26]，它基本上就是VALL-E的连续版本。它用的latent也是来自Encodec，对其中不同层次的latent做了求和，然后将其作为扩散模型的训练目标。值得注意地是，扩散模型和FastSpeech2一样也用了时长和音高作为合成的先验条件。这一点也被后来的RALL-E采用。该工作中的扩散模型采用WaveNet实现，同时预测不加噪的latent和后验均值，和图像合成领域的扩散模型在实现方式上还是有所不同的。

图17：NaturalSpeech2的模型架构

然后是NaturalSpeech 3[26]，还是非自回归的，而且非自回归的正统性味道更加浓厚，借用了不少FastSpeech2和megatts1&2(后面会讲)[27, 28]的设计思想。像megatts 1&2一样，同样采用(自)监督信号对语音token编码的内容做了限制，而不再像是VALL-E/NaturalSpeech2那样一把抓。相应地，语音token化的方法也用VQ就行。具体而言，文章将语音信号分解为时长、内容、韵律和细节四个部分，然后每个部分用离散化的扩散模型来建模。不过，原文使用GRL来促进语音属性的分解，这一点的靠谱程度存疑。我也尝试过文章的FACodec，但效果很差。三级扩散模型级联的结构，预测起来似乎也非常麻烦。

图18：NaturalSpeech3的模型架构

基于MEL谱+VQ的TOKEN的工作

当然，也有不少工作用了MEL谱作为中间特征，然后在梅尔谱的基础上，或是用VQ提供离散token，或是用CNN来提取连续latent。对于MEL+VQ的工作，有tortoise-tts[20]、xtts 1&2、megatts1&2[28, 29]、base TTS[30]。对于MEL+latents的工作，有：AudioLDM 1&2[27]、StyleTTS 1&2[31, 32]。我们来简单看看是它们是怎么做的。

Tortoise-tts[20]。该工作是著名的开源英文TTS模型。其作者目前在OpenAI就职，同时也是GPT-4o的重要Contributor(他自个儿在博客中说的)。Tortoise-tts使用MEL+VQVAE的方法得到语音的MEL token，然后对MEL token以及text token做GPT自回归建模。对于语音的解码，自然也是分为两步：先是用扩散模型将MEL token转换为MEL谱，这一步和文生图很像，用扩散模型是很自然的选择；然后用声码器将MEL谱转换为音频波形。tortoise-tts和VALL-E的主体都是自回归建模，二者的不同主要在于token的不同。

图19：tortoise-tts的模型架构

MegaTTS 1&2[28, 29]。字节跳动的MegaTTS系列对语音token编码信息做了显式的信息压缩处理，让语音token仅编码上下文依赖强的韵律信息，然后用GPT自回归来建模语音的韵律。对于其他方面的信息，模型的处理显得较为常规：音色一般具有全局性，使用单一的音色编码器从参考音频中提取就性；对于文本语义内容的处理，模型在很大程度上参考了非自回归的FastSpeech 2。

对于语音的解码，也是分为两步：先通过MEL decoder还原为MEL谱，然后通过声码器解码为音频波形。MegaTTS 2和1总体上类似，在音色编码(音素级编码、多条参考音频)、语音提示长度(扩展同speaker语音上下文长度硬train，音频prompt长度更长)和时长建模(也用GPT自回归)上做了改进，同时堆了更大规模的数据。剪映的后端TTS模型用的就是megatts2。该工作在各论文的评测中表现也都不错。

图20：megatts1的模型架构

基于MEL谱+VAE的latents的工作

AudioLDM 1&2[27]。AudioLDM 1&2使用的语音latents是一致的，均通过MEL+VAE获得。既然是连续的latents，使用扩散模型来建模也合情合理。解码过程也相当简单：VAE decoder获得梅尔谱，然后用声码器转换为音频波形。该系列工作的核心创新点是利用多模态模型统一了扩散模型条件输入侧的信息：AudioLDM 1用CLAP统一了文本模态和音频模态，用单模态的音频数据就能完成模型的训练；AudioLDM 2则包含了图像、文本、转录文本等更多模态，模型泛用性也更强，既能做语音合成，也能做音乐生成、音频事件生成。

图21：AudioLDM 1的模型架构

图22：AudioLDM2的模型架构

StyleTTS 1&2[31, 32]。StyleTTS系列的模型一众zero-shot TTS模型显得比较老派，整体结构基本上沿袭了非自回归的FastSpeech 2，不同之处在于增加了基于参考音频抽取的风格信息。说是风格，其实跟megatts的音色很像。StyleTTS 2的工作则将风格进一步拆分成声学风格和韵律风格。训练时的风格信息由音频提供，推断时的风格信息则由扩散模型提供。StyleTTS 2通过一个扩散模型桥接了文本韵律和语音风格之间的联系，摆脱推断时对参考音频的依赖。不用参考音频其实对产品的意义还挺大的，要都用现实世界中真人尤其是名人的声音作为参考音频，那这势必会引起版权纠纷。这种纠纷在国内国外都有相关的事件。最近寡姐投诉OpenAI的事件就是一例。

图23：StyleTTS 1的模型架构

图24：StyleTTS 2的模型架构

TTS对指令的遵循

SLM不仅要合成合乎上下文语义的高表现力语音，合成的语音还要符合用户的即时要求。一些text-guided zero-shot TTS的工作值得参考。这些工作一般都是在已有的zero-shot TTS模型或者text-to-audio模型上改造而来，同时吸收transcription和description两路条件。其中的重点还是在于数据集的构建。这方面的工作有：PromptTTS[33]、InstructTTS[34]、ParlerTTS[19]、VoiceLDM[18]和Audiobox[35]。我们主要谈谈ParlerTTS和VoiceLDM。

ParlerTTS[19]。VALL-E/VoiceCraft的增强版，通过T5编码器和cross-attention旁路引入了描述性文本的信息。该工作的目的是想使用自然语言prompt来指定说话风格和环境信息，摆脱对参考音频的依赖。描述性标签文本的收集过程也显得相当朴素：通过定制化的监督式模型获取语音数据的口音特征、录音质量特征、音高语速特征。然后用LLM将这些特征转换为自然语言的描述。在我看来，这个工作有这么几点局限性吧：其一，缺乏情绪标签；其二，语音描述性标签的收集并不具备通用性，较为繁琐，远不如一个强大的多模态语音理解模型来得实在。文章demo虽然达到了预期的效果，但场景似乎局限在朗读的情景中。

图25：ParlerTTS的模型架构

VoiceLDM[18]。在VoiceLDM1的基础上增加了转录文本的输入。这个工作和AudioLDM 1很像，同样使用CLAP注入语音的描述性信息。不同地是，为了做TTS任务，该工作通过cross-attention旁路增加了transcription的信息。

图26：VoiceLDM的模型架构

TTS总结

林林总总说了这么多zero-shot的TTS方法，我想说明的结论有这么几点：

在LLM大行其道、scaling law大显神威的时代，TTS模型的训练数据规模已经突破了万小时，甚至达到了数十万小时的级别。在大数据的加持下，TTS任务上也涌现出了in-context learning能力。
语音信息的解码通常都要层次化或者多步进行，不能一步到位。自回归、扩散模型和流匹配都能在TTS中发挥作用；
借鉴NLP instruction fine-tuning和文生图的经验，TTS模型同样可以遵循文本指令或者语音指令，合成符合用户即时要求的语音，摆脱对参考音频的依赖，这或许也能规避一些知识产权的困扰(比如最近有名的寡姐投诉OpenAI事件)。同时，用户也能在对话过程中随时切换语音回复的风格，这一点在OpenAI的demo中有很明确的体现。另外，不知道大家有没有注意，GPT-4o合成的语音是可以是放映所处的声学环境的：有一段语音背后似乎是有钢琴声的。
text-guided zero-shot TTS在模型架构上和zero-shot TTS有非常大的相似性。但训练数据可能较为缺乏。先开发zero-shot TTS，再用类似SALMONN那样的多模态理解模型来打标签(类似DALLE3的做法)，这样数据集构造方式，可能会是更好的选择。

另外，对于语音的解码方案，我倾向于是这样的：

如果要做流式推理，外接类似HIFIGAN这样的声码器的方式可能不是好的选择。HIFIGAN并不天然支持流式解码。相反地，诸如SoundStream和Encodec这样的方法，同时有流式变体和非流式变体；
先做语义token的解码，这个解码大概率是自回归解码。语义token毕竟是建模上下文依赖关系，自回归方法已经在NLP上证明了这一点；
然后做声学token的解码，扩散或者flow-matching可能是更好的选择。扩散模型或者流匹配可以很好地修补语音的细节；

当然，除了上面讲到的，zero-shot TTS还有很多值得研究的方法。限于篇幅，仅列举于此，不再详述：HierSpeech++[36]、base TTS[30]、Voicebox/Audiobox[35]、UniAudio[37]、Make-a-Voice[38]等等。

其他问题

对于GPT-4o模型，如果仅仅聚焦于语音多模态，还有下面的问题值得关注：

语音交互如何做到低延迟？大概率要求流式切片处理，主要工作在于工程优化，用C++重写算子。推理框架的话，用tensorrt、mnn这些都行。上下文所述的音频离散化方法，诸如SoundStream和Encodec，其实也支持流式处理。
语音对话中的打断如何实现？个人认为有两种可能的方案：turn-based和流式处理。所谓的turn-based方案，是比较工程化的，简答概括一下就是：检测是否有停顿，如果一段时间内没有声音，模型就开始返回语音回复。另一种流式方案，则是：模型一直在接受用户的流式语音输入，判断是否应该输出语音回复，一个充分训练的模型应该是能够准确预测出语音词表中的[START]和[END]的。

对游戏配音业务的思考

text/prompt-guided zero-shot TTS方法对游戏的AI配音意义重大。主要体现在：

用自然语言提示去合成音色稳定的语音，摆脱对参考音频的依赖，在业务中能够更加灵活，至少比克隆已有人物/角色的语音的方式更加方便，更不容易出戏。举个例子，在开放世界剧情类游戏的研发阶段，我们会设定一些profile赋予NPC，让玩家跟NPC聊天。我们曾经用克隆《原神》、《崩坏：星穹铁道》已有角色的方式赋予这些NPC角色语音，但放在那些欧美背景的NPC中，就是很有违和感，没有现实世界中的accent，不够decent。
剧情任务中的配音会更加真人化、更有沉浸感。过年期间过《崩坏：星穹铁道》花火和黑天鹅的同行任务的时候，部分NPC角色会有六公主的翻译腔，这是花火行于欢愉命途的恶趣味，空气中顿时充满了快活的味道。如果走bv2、gsv的语音克隆方案，应该是很难有这种效果的。而且，玩家在剧情任务中势必会经过不同的地势地貌，至少室内、室外的声音听起来是有不同的。室内的声音至少会有回响、混响的吧。这种感觉语音克隆方案也是无法做到的。

全文总结

总结一下本文说谈的内容，我认为GPT-4o语音多模态的实现可能是走了以下的技术路线：

audio & text tokenizer的实现应该是语音离散化部分所用的技术，例如SoundStream、Encodec、SpeechTokenizer，或者是MEL+VQ最后配合声码器来解码；参考zero-shot TTS、AudioLM/AudioPaLM、SpeechGPT-Gen等工作的结果，LLM中语音token的解码应该是要走层次化或者多步的方法，先解码语义特征，再解码声学特征，或者是先解码MEL，再加一个HIFIGAN这样的声码器。另外，如果做audio/speech/music这样的通用声合成的话，可能也能通过prompt来控制。AudioLDM2虽然做了这方面的工作，但audio/music和speech的参数其实是不一样的，说到底还不是同一个模型。
对于指令微调，数据集的构造非常重要，大概率要用到合成数据。其一，网络上高质量语音数据的量级远远不及文本，直接拿ASR数据来做肯定会影响模型合成语音的音质；其二，大语言模型合成的instruction往往触及不到语音的细粒度特征，这样的instruction其实无法准确详尽地描述text和speech之间的关系。因而，需要引入强大的zero-shot TTS模型合成高质量语音，然后用多模态语音理解模型来为合成语音打标签，当然也可以评分做筛选什么的。
最后是要让大模型的输出对齐人类的偏好。这方面的方法有很多，有DPO、PPO什么的，都可以用。

图27：全文总结，可能的roadmap

参考文献

[1] Baevski A, Zhou Y, Mohamed A, et al. wav2vec 2.0: A framework for self-supervised learning of speech representations[J]. Advances in neural information processing systems, 2020, 33: 12449-12460.

[2] Hsu W N, Bolte B, Tsai Y H H, et al. Hubert: Self-supervised speech representation learning by masked prediction of hidden units[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 3451-3460.

[3] Chung Y A, Zhang Y, Han W, et al. W2v-bert: Combining contrastive learning and masked language modeling for self-supervised speech pre-training[C]//2021 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2021: 244-250.

[4] Van Den Oord A, Vinyals O. Neural discrete representation learning[J]. Advances in neural information processing systems, 2017, 30.

[5] Zeghidour N, Luebs A, Omran A, et al. Soundstream: An end-to-end neural audio codec[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 30: 495-507.

[6] Défossez A, Copet J, Synnaeve G, et al. High fidelity neural audio compression[J]. arXiv preprint arXiv:2210.13438, 2022.

[7] Zhang X, Zhang D, Li S, et al. Speechtokenizer: Unified speech tokenizer for speech large language models[J]. arXiv preprint arXiv:2308.16692, 2023.

[8] Borsos Z, Marinier R, Vincent D, et al. Audiolm: a language modeling approach to audio generation[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2023.

[9] Rubenstein P K, Asawaroengchai C, Nguyen D D, et al. Audiopalm: A large language model that can speak and listen[J]. arXiv preprint arXiv:2306.12925, 2023.

[10] Changli Tang, Wenyi Yu, Guangzhi Sun, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Chao Zhang. SALMONN: Towards Generic Hearing Abilities for Large Language Models

[11] Zhang D, Li S, Zhang X, et al. Speechgpt: Empowering large language models with intrinsic cross-modal conversational abilities[J]. arXiv preprint arXiv:2305.11000, 2023.

[12] Zhang D, Zhang X, Zhan J, et al. SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation[J]. arXiv preprint arXiv:2401.13527, 2024.

[13] Zhang D, Li Z, Li S, et al. SpeechAlign: Aligning Speech Generation to Human Preferences[J]. arXiv preprint arXiv:2404.05600, 2024.

[14] Chen Q, Chu Y, Gao Z, et al. Lauragpt: Listen, attend, understand, and regenerate audio with gpt[J]. arXiv preprint arXiv:2310.04673, 2023.

[15] Wu S, Fei H, Qu L, et al. Next-gpt: Any-to-any multimodal llm[J]. arXiv preprint arXiv:2309.05519, 2023.

[16] Wang C, Chen S, Wu Y, et al. Neural codec language models are zero-shot text to speech synthesizers[J]. arXiv preprint arXiv:2301.02111, 2023.

[17] Anil R, Dai A M, Firat O, et al. Palm 2 technical report[J]. arXiv preprint arXiv:2305.10403, 2023.

[18] Lee Y, Yeon I, Nam J, et al. VoiceLDM: Text-to-Speech with Environmental Context[C]//ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2024: 12566-12571.

[19] Lyth D, King S. Natural language guidance of high-fidelity text-to-speech with synthetic annotations[J]. arXiv preprint arXiv:2402.01912, 2024.

[20] Betker J. Better speech synthesis through scaling[J]. arXiv preprint arXiv:2305.07243, 2023.

[21] Xin D, Tan X, Shen K, et al. RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis[J]. arXiv preprint arXiv:2404.03204, 2024.

[22] Wang C, Zeng C, Zhang B, et al. HAM-TTS: Hierarchical Acoustic Modeling for Token-Based Zero-Shot Text-to-Speech with Model and Data Scaling[J]. arXiv preprint arXiv:2403.05989, 2024.

[23] Ren Y, Hu C, Tan X, et al. Fastspeech 2: Fast and high-quality end-to-end text to speech[J]. arXiv preprint arXiv:2006.04558, 2020.

[24] Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 10684-10695.

[25] Shen K, Ju Z, Tan X, et al. Naturalspeech 2: Latent diffusion models are natural and zero-shot speech and singing synthesizers[J]. arXiv preprint arXiv:2304.09116, 2023.

[26] Ju Z, Wang Y, Shen K, et al. NaturalSpeech 3: Zero-shot speech synthesis with factorized codec and diffusion models[J]. arXiv preprint arXiv:2403.03100, 2024.

[27] Liu H, Tian Q, Yuan Y, et al. AudioLDM 2: Learning holistic audio generation with self-supervised pretraining[J]. arXiv preprint arXiv:2308.05734, 2023.

[28] Jiang Z, Ren Y, Ye Z, et al. Mega-tts: Zero-shot text-to-speech at scale with intrinsic inductive bias[J]. arXiv preprint arXiv:2306.03509, 2023.

[29] Jiang Z, Liu J, Ren Y, et al. Mega-tts 2: Zero-shot text-to-speech with arbitrary length speech prompts[J]. arXiv preprint arXiv:2307.07218, 2023.

[30] Łajszczak M, Cámbara G, Li Y, et al. BASE TTS: Lessons from building a billion-parameter text-to-speech model on 100K hours of data[J]. arXiv preprint arXiv:2402.08093, 2024.

[31] Li Y A, Han C, Mesgarani N. Styletts: A style-based generative model for natural and diverse text-to-speech synthesis[J]. arXiv preprint arXiv:2205.15439, 2022.

[32] Li Y A, Han C, Raghavan V, et al. Styletts 2: Towards human-level text-to-speech through style diffusion and adversarial training with large speech language models[J]. Advances in Neural Information Processing Systems, 2024, 36.

[33] Guo Z, Leng Y, Wu Y, et al. Prompttts: Controllable text-to-speech with text descriptions[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023: 1-5.

[34] Yang D, Liu S, Huang R, et al. Instructtts: Modelling expressive TTS in discrete latent space with natural language style prompt[J]. arXiv preprint arXiv:2301.13662, 2023.

[35] Vyas A, Shi B, Le M, et al. Audiobox: Unified audio generation with natural language prompts[J]. arXiv preprint arXiv:2312.15821, 2023.

[36] Lee S H, Choi H Y, Kim S B, et al. HierSpeech++: Bridging the Gap between Semantic and Acoustic Representation of Speech by Hierarchical Variational Inference for Zero-shot Speech Synthesis[J]. arXiv preprint arXiv:2311.12454, 2023.

[37] Yang D, Tian J, Tan X, et al. Uniaudio: An audio foundation model toward universal audio generation[J]. arXiv preprint arXiv:2310.00704, 2023.

[38] Huang R, Zhang C, Wang Y, et al. Make-a-voice: Unified voice synthesis with discrete representation[J]. arXiv preprint arXiv:2305.19269, 2023.

FunAudioLLM –阿里通义音频生成大模型

FunAudioLLM：https://github.com/FunAudioLLM
CosyVoice开源仓库：https://github.com/FunAudioLLM/CosyVoice
CosyVoice在线体验：https://www.modelscope.cn/studios/iic/CosyVoice-300M
SenseVoice开源仓库：https://github.com/FunAudioLLM/SenseVoice
SenseVoice在线体验：https://www.modelscope.cn/studios/iic/SenseVoice

人类对自身的研究和模仿由来已久，在我国2000多年前的《列子·汤问》里就描述了有能工巧匠制作出会说话会舞动的类人机器人的故事。声音包含丰富的个体特征及情感情绪信息，对话作为人类最常使用亲切自然的交互模式，是连接人与智能世界至关重要的环节。近日，阿里通义实验室发布并开源了语音大模型项目FunAudioLLM，旨在深化人类与大型语言模型（LLMs）之间的自然语音交互体验。这一框架的核心是两个创新模型：SenseVoice和CosyVoice。

CosyVoice【TTS】 致力于自然语音生成，支持多语言、音色和情感控制，在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。

多语言合成：采用了总共超15万小时的数据训练，支持中英日粤韩5种语言的合成，合成效果显著优于传统语音合成模型。
极速音色模拟：仅需要3~10s的原始音频，即可生成模拟音色，甚至包括韵律、情感等细节。在跨语种的语音合成中，也有不俗的表现。
富文本或自然语言的细粒度控制：支持以富文本或自然语言的形式，对合成语音的情感、韵律进行细粒度的控制，合成音频在情感表现力上得到明显提升。

SenseVoice 则专注于高精度多语言语音识别ASR、情感辨识和音频事件检测。

多语言识别：采用超过40万小时数据训练，支持超过50种语言，识别效果上优于Whisper模型，中文与粤语上提升50%以上。
富文本识别：
- 具备优秀的情感识别，能够在测试数据上达到和超过目前最佳情感识别模型的效果。
- 支持声音事件检测能力，支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。
推理速度：SenseVoice-Small模型采用非自回归端到端框架，推理延迟极低，10s音频推理仅耗时70ms，15倍优于Whisper-large。

应用场景

基于SenseVoice和CosyVoice模型，FunAudioLLM可支持较多的人机交互应用场景，例如音色情感生成的多语言语音翻译、情绪语音对话、互动播客、有声读物等。

同音交传：模拟音色与情感的多语言翻译

通过结合SenseVoice、LLMs以及CosyVoice，我们可以无缝地进行语音到语音的翻译（S2ST）。需要注意的是，原始录音在文本中会以粗体显示。这种集成化的方法不仅提升了翻译的效率和流畅性，而且通过感知语音中的情感和语调，它能够在译文中复现原始语音的情感色彩，让对话的交流更加真实和动人。

无论是多语种的会议通译、跨文化的交流沟通，还是为非母语者提供即时语音翻译服务，这一技术都将大大缩小语言差距和沟通中的信息减损。

强情感交互的语音对话

通过融合SenseVoice、大型语言模型（LLMs）和CosyVoice，能够支持开发一款情感语音聊天应用程序。

当SenseVoice解析出情绪/情感/咳嗽等副语言信息后，大模型输出相对应的反馈情绪，并由CosyVoice合成出适当的声音情绪，从而完成舒适自然的对话交互过程。在以下示例中，用户和助手的所有对话内容均由CosyVoice合成。

专属AI博客电台

通过将SenseVoice、基于LLM的具有实时世界知识的多代理系统和CosyVoice整合，我们能够创造一个互动式播客电台。

在这样的播客中，SenseVoice利用其高精度多语言语音识别功能，实时捕捉AI播客和用户的对话，甚至能够辨识环境音效和情感。LLM多代理系统则能够处理SenseVoice提供的语音数据，实时更新世界知识库，确保话题和信息的及时性和准确性。

在交互中，用户可以随时打断AI播客的对话，引导主题方向等，CosyVoice将用于生成AI播客的语音，具备多种语言、音色和情感的控制能力，为听众带来丰富多彩的听觉体验。

有声读物

借助LLMs出色的分析能力，可对书籍内容进行结构化并识别其中的情感，再与CosyVoice的语音合成技术结合，我们能够实现具有更高表现力的有声读物。

LLMs深入理解文本，捕捉每一个情感波动和故事弧线，而CosyVoice则将这些情感细腻地转化为语音，带有特定的情绪色彩和强调，为听众提供一个不仅丰富多彩而且情感充沛的听觉体验。

这样的有声读物不再是单一无变化的朗读，而是一场充满情感与生动表达的听觉盛宴，让每个故事和角色都栩栩如生。

技术原理解析

CosyVoice

CosyVoice是一款基于语音量化编码的语音生成大模型。它对语音进行离散化编码，并依托大模型技术，实现自然流畅的语音生成体验。与传统语音生成技术相比，CosyVoice具有韵律自然、音色逼真等特点。CosyVoice支持多达5种语言，同时还支持以自然语言或富文本形式对生成语音进行情感等维度的细粒度控制。研究团队提供了基模型CosyVoice-300M、经过SFT微调后的模型CosyVoice-300M-SFT、以及支持细粒度控制的模型CosyVoice-300M-Instruct，可满足不同场景下的使用需求。

生成语音客观指标:

研究团队分别在开源中文数据集Aishell3以及英文数据集LibriTTS上，通过语音识别测试了合成音频的内容一致性。通过与原始音频以及最近大火的ChatTTS对比，可以发现CosyVoice的合成音频在内容一致性上更高，并且没有很少存在幻觉额外多字的现象。CosyVoice很好地建模了合成文本中的语义信息，达到了与人类发音人相当的水平。此外，通过对合成音频进行重打分，能够进一步降低识别的错误率，甚至在内容一致性和说话人相似度上超越人类。

情感控制能力:

研究团队还使用预训练的情感分类模型评价了CosyVoice的情感控制能力，主要包括高兴/悲伤/生气/害怕/反感等5种高表现力的语音情感。
测试结果表明，CosyVoice-300M本身具备一定从文本内容中推断情感的能力，经过细粒度控制训练的模型CosyVoice-300M-Instruct在情感分类中的得分更高，具备更强的情感控制能力。

SenseVoice

SenseVoice是一个基础语音理解模型，具备多种语音理解能力，涵盖了自动语音识别（ASR）、语言识别（LID）、情感识别（SER）以及音频事件检测（AED）。

该模型旨在提供全面的语音处理功能，从而支持构建更复杂的语音交互系统。

SenseVoice-Small是一款仅含编码器的轻量级基础语音模型，设计用于快速语音理解。

它可以快速处理语音数据，并在有需要时迅速做出响应，适用于对延迟敏感的应用场合，如实时语音交互系统。SenseVoice-Large则是一个包含编码器和解码器的大型基础语音模型。这个版本的SenseVoice专注于更精确的语音理解，拥有对更多语言的支持能力。它适合于对识别精度有更高要求的场景，可以处理更复杂的语音输入，并生成更为准确的结果。

多语言语音识别性能

研究团队在开放源数据集上比较了SenseVoice和Whisper的多语言识别性能和推理效率，包括AISHELL-1、AISHELL-2、Wenetspeech、Librispeech和Common Voice。

推理效率评估是在A800机器上进行的。SenseVoice-Small采用非自回归端到端架构，由此带来的推理延迟极低——相比之下，它比Whisper-Small快7倍，比Whisper-Large快17倍。

语音情感识别性能

SenseVoice也可以用于离散情绪识别，目前支持的情绪类型包括高兴、悲伤、愤怒和中性。团队在7个流行的情绪识别数据集上对其进行了评估。即使没有对目标语料库进行微调，SenseVoice-Large都能在大多数数据集上达到或超越最新的最佳结果（SOTA）。

音频事件检测性能

SenseVoice-Small与SenseVoice-Large模型都能在语音中检测音频事件，包括音乐、掌声和笑声。

SenseVoice-Large模型除了能够预测音频事件的类型，还能精准识别事件发生的起始和结束位置。

与之相比，SenseVoice-Small模型虽然仅能预测音频中发生的事件类型（仅限于一个事件），但它能够检测到更多种类的事件，诸如在人机互动过程中可能出现的咳嗽、打喷嚏、呼吸和哭泣等。

目前，与SenseVoice和CosyVoice相关的模型已在ModelScope和Huggingface上开源，同时在GitHub上发布了相应的训练、推理和微调代码。

OpenAI 开源语音识别模型 Whisper & 相关应用

Robust Speech Recognition via Large-Scale Weak Supervision
https://github.com/openai/whisper

Blog：https://openai.com/blog/whisper/

论文精度

OpenAI Whisper

拥有 GTP-3 语言模型，并为 GitHub Copilot 提供技术支持的人工智能公司 OpenAI 近日开源了 Whisper 自动语音识别系统，Open AI 强调 Whisper 的语音识别能力已达到人类水准。

Whisper 是一个自动语音识别（ASR，Automatic Speech Recognition）系统（transformer模型），OpenAI 通过从网络上收集了 68 万小时的多语言（98 种语言）和多任务（multitask）监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集，可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别，Whisper 还能实现多种语言的转录，以及将这些语言翻译成英语。OpenAI 开放模型和推理代码，希望开发者可以将 Whisper 作为建立有用的应用程序和进一步研究语音处理技术的基础。

Overview of our approach. A sequence-to-sequence Transformer model is trained on many different speech processing tasks,
including multilingual speech recognition, speech translation, spoken language identification, and voice activity detection

Whisper 执行操作的大致过程：

输入的音频被分割成 30 秒的小段、转换为 log-Mel 频谱图，然后传递到编码器。解码器经过训练以预测相应的文字说明，并与特殊的标记进行混合，这些标记指导单一模型执行诸如语言识别、短语级别的时间戳、多语言语音转录和语音翻译等任务。

相比目前市面上的其他现有方法，它们通常使用较小的、更紧密配对的「音频 – 文本」训练数据集，或使用广泛但无监督的音频预训练集。因为 Whisper 是在一个大型和多样化的数据集上训练的，而没有针对任何特定的数据集进行微调，虽然它没有击败专攻 LibriSpeech 性能的模型（著名的语音识别基准测试），然而在许多不同的数据集上测量 Whisper 的 Zero-shot（不需要对新数据集重新训练，就能得到很好的结果）性能时，研究人员发现它比那些模型要稳健得多，犯的错误要少 50%。

目前 Whisper 有 9 种模型（分为纯英文和多语言），其中四种只有英文版本，开发者可以根据需求在速度和准确性之间进行权衡，以下是现有模型的大小，及其内存要求和相对速度：

Whisper的表现因语言而异。下图显示了使用largeV2模型使用Fleurs数据集的语言进行细分。

论文：稳健的语音识别通过大规模的弱监督

弱监督的意思是指我们的语音数据是有标号的，但是标号的可行度不是那么高，质量一般这也是，这也是作者能够采集到近70万h的数据的原因。(在样本数量和质量之间做权衡)

摘要

我们研究了互联网上的大量的训练好的的语音处理系统的功能。当把我们的数据集扩大到680,000小时，且是一个多语言和多任务监督训练时，最终的模型可以与在标准数据集训练好的其他模型相比具有相同的效果，但whisper无需进行任何微调，在面对新数据集时候无需微调。与人类相比，模型具有准确性和鲁棒性。我们正在发布模型和推理代码，以作为在强大语音处理上进一步工作的基础。

引言

目前主流的语音识别方法是先进行大规模的无监督预训练（Wav2Vec 2.0），比如， Wav2Vec 采集了1000000h的无标签训练数据，先用这些数据进行预训练一个编码器（使用对比学习 or 字训练），encoder能够对语音数据做一个很好的编码，然后在面向下游任务时，可以在标准训练集中做微调（只需要几十小时的数据就可），这样比只在标准数据集上训练的结果好很多。

这些预训练好的语音编码器能够学习到语音的一个高质量表示，但是用无监督方法训练的编码器仍然需要训练一个解码器，需要用带标签的数据来微调，微调是一个很复杂的过程，如果不需要微调就好了，这也是本文要做的工作。此外，过去的工作缺乏一个很好的解码器，这是一个巨大的缺陷，而语音识别系统就是应该是“out of box”，也就是拿来即用。

有监督学习很多方法是把多个有监督的数据集合并成一个大的数据集，这样确实保证比在单个数据集上的准确性和泛化性都要好，但是之前的工作最多也就是5000h的数据集，跟之前的100万h的无监督数据集相比差的太多。

顺着这个思路，如果我们把数据集的标号放松一下，就会获得个更多的数据集。在数量和质量之间做权衡是一个不错的选择，比如在yutube上采集视频和字幕作为数据集，为了追求样本的多样性和数量，稍微降低一点质量也是可以的。因此本文就是把弱监督数据集扩展到了68万h，并将模型取名whisper.

方法

数据处理：不需要对标号做任何后处理。从互联网中采集到的数据多种多样，比如声音的环境、录制的设备、说话的人、语言。这样让模型更加稳健，但是对应的我们希望标号质量应该要一致，因此需要做一个过滤系统，把一些质量差的文本删除（一般是一些机器自动生成的文本，如果使用其作为标号，那训练出来的模型效果也不会很好）、去重等等。训练数据30s以及对应的标号作为一个样本。

数据部分是本文最核心的贡献。由于数据够多，模型够强，本文模型直接预测原始文本，而不经过任何标准化（standardization）。从而模型的输出就是最终识别结果，而无需经过反向的文本归一化（inverse text normalization）后处理。所谓文本归一化包括如将所有单词变小写，所有简写展开，所有标点去掉等操作，而反向文本归一化就是上述操作的反过程。在 Whisper 中，这些操作统统不用，因为数据足够多，可以覆盖所有的情况。

在本文收集的语音数据中，包含了不同环境、不同语言、不同说话人等多样的数据，这有助于训练出文件的语音识别系统。然而，文本标签的多样性对模型的学习是一种阻碍。为了解决这个问题，本文使用了几种自动过滤方法，来提高文本标签的质量。

首先，收集自互联网的语音识别数据，很有可能文本标签就是来自现有的语音识别系统的识别结果。之前有研究工作表明，在训练数据中混有机器生成的标签数据会损害模型的性能。为此，本文根据机器识别结果的一些特点，过滤掉了这些数据。
另外，本文对数据中语音所属语言和文本所属语言进行检测。如果文本是非英语的其他语言，则要求语音也必须是同种语言；如果文本是英语，则语音可以是任何语言（因为本文方法中有一个其他语言到英语的翻译任务）。
本文用一个语音识别模型在收集的数据上进行测试，发现在一些错误率极高的数据中，存在音频信息不完整、字幕声音不匹配等低质量数据，这些数据同样会被过滤掉。

另外，可能在收集的数据中含有标准语音识别数据集中的内容，为了避免对测试结果产生影响，这部分数据同样需要去掉。

最后，将音频切分为 30s 的片段，配上对应文本，得到训练数据。

2、模型

由于我们的工作重点是研究大规模监督预训练的语音识别能力，因此我们使用现成的架构来避免将我们的发现与模型改进混淆。具体来说就是使用最原始的encoder-decoder Transformer (Vaswani et al., 2017)模型作为网络。将所有音频重新采样至16,000 Hz，80通道的Mel频谱图表示，其步幅为10毫秒。对于特征归一化，我们将输入归一化到-1和1之间，整个训练数据集的平均值约为零。

输入（80*3000）在送入transformer之前先经过卷积层（kernel=3），主要是考虑卷积具有局部相关性，输出80*1500，降低维度。剩下的部分就是一个经典 transformer 架构。

Whisper 使用的模型改动不大，就是 Transformer 第一次提出时的 encoder-decoder 架构。Whisper 的入出侧是声音信号，声音信号的预处理是将音频文件重采样到 16000 Hz，并计算出 80 通道的梅尔频谱，计算时窗口大小为 25ms，步长为 10ms。然后将数值归一化到 -1 到 1 之间，作为输入数据。可以认为是对于每一个时间点，提取了一个 80 维的特征。之前数据处理部分提到每个音频悲切氛围 30s 的片段，这里步长为 10，所以每 30 秒有 3000 个时间点。综上，对于一个 30 秒的音频数据，我们提取到形状为 3000×80 的特征。对应到 NLP 中，可以理解为句子长度为 3000，每个词的词嵌入维度为 80。

3000×80 的输入数据首先通过两个 1D 卷积层，得到 1500×80 的特征。后面的处理就是标准的 Transformer encoder-decoder结构了。将这个特征送入到 Transformer encoder 中，提取处的特征作为交叉注意力输入送给 decoder。decoder 每次预测下一个 token，其输入是对应多任务学习的一些预设 token 和 prompt。

3、核心：多任务训练

虽然语音系统主要的任务是给一段话，把里面说的词识别出来，但是实际上大部分语言识别系统来说，还需要进行其他的后处理：检测是否有人说话（VAD）、谁在说话、识别的语音文本添加标点等等。作者希望一个模型可以同时做转录、VAD、时间戳、检测等等任务。

all in one的方法会带来两个问题：比如要做VAD，可能我只需要一个小模型就可以完成，但现在必须要用这个超大模型。另外，假如我这个模型在某个任务表现不好，那么我需要多添加该任务数据继续训练，但继续训练，其他任务的效果是否会受影响。

具体任务如下：

一是给定英文语音，转录成英文文本；二是给定其他语言语音，转录并翻译成英文文本；三是给定其他语言语音，转录成该语言文本；四是给定只有背景音乐的音频，识别出无人说话。

所有这些任务都由解码器预测的 token 序列表示，从而使得一个模型能够处理多个任务。这几个任务及模型输出 token 的关系可以从图中下方的图示中的 token 序列看出：在 START OF TRANSCRIPT token 之后，如果当前无人说话，则识别为 NO SPEECH 。如果有人说话，则识别出当前语音所属的语言 LANGUAGE TAG 。然后有两种可能的任务 TRANSCRIBE 还是翻译任务 TRANSLATE ，这两种任务又分为两种形式：带时间戳的和不带时间戳的，分别穿插或不穿插时间戳 token ，预测出文本 token。最后到达 EOT token，整个流程结束。

那么如何训练这些任务呢？使用的是一个prompt格式，不同的任务通过不同的tokens组合来区别的，三种：特殊控制token、文本token、时间戳token。

从起点开始，有一定概率走prev这个，表示前面一段我已经转录的内容（包括文本和时间戳），也有一定概率直接走到start token，然后学习语言类别token（包括99种语言+空白），接下来分两个token（转录还是翻译），然后有分两中（是否预测时间戳），有时间戳token则需要预测这句话的开始结束时间+内容，没有时间戳的话，直接预测这三十秒的文字，最后EOT结束。这样相比bert使用不同的输出头，对应不同的损失来说。whisper多任务只需要一个输出头，一个损失函数就可以，通过控制输入的流来控制不同的任务。但这样设计也有缺陷：某个任务表现不好，需要模型完全训练，这样对其他任务来说也会有影响，牵一发动全身。

实验

作者实验的数据集是模型训练集没有使用过的，认为是zero-shot。验证标准：WER

结论

Whisper 说明在语音识别领域，对于把大规模的弱监督训练的认识还是不够，我们的模型结果说明不需要做自监督或者自训练，只要在大规模数据集上训练好模型，推理时无需任何微调，只需要zero-shot就可以。

基于Whisper开发应用工具：

AutoCut: 通过字幕来剪切视频

github: https://github.com/mli/autocut

AutoCut 使用 Whisper 来对你的视频自动生成字幕。然后在字幕文件中你选择需要保留的句子，AutoCut 将对你视频中对应的片段裁切并保存。你无需使用视频编辑软件，只需要编辑文本文件即可完成视频剪切。

假如你录制的视频放在 2022-11-04/ 这个文件夹里。那么运行

autocut -d 2022-11-04

提示：如果你使用 OBS 录屏，可以在 设置->高级->录像->文件名格式 中将空格改成 /，即 %CCYY-%MM-%DD/%hh-%mm-%ss。那么视频文件将放在日期命名的文件夹里。

AutoCut 将持续对这个文件夹里视频进行字幕抽取和剪切。例如，你刚完成一个视频录制，保存在 11-28-18.mp4。AutoCut 将生成 11-28-18.md。你在里面选择需要保留的句子后，AutoCut 将剪切出 11-28-18_cut.mp4，并生成 11-28-18_cut.md 来预览结果。

你可以使用任何的 Markdown 编辑器。例如我常用 VS Code 和 Typora。下图是通过 Typora 来对 11-28-18.md 编辑。

全部完成后在 autocut.md 里选择需要拼接的视频后，AutoCut 将输出 autocut_merged.mp4 和对应的字幕文件。

转录某个视频生成 `.srt` 和 `.md` 结果。

autocut -t 22-52-00.mp4

如果对转录质量不满意，可以使用更大的模型，例如autocut -t 22-52-00.mp4 –whisper-model large默认是 small。更好的模型是 medium 和 large，但推荐使用 GPU 获得更好的速度。也可以使用更快的 tiny 和 base，但转录质量会下降。

剪切某个视频

autocut -c 22-52-00.mp4 22-52-00.srt 22-52-00.md

默认视频比特率是 --bitrate 10m，你可以根据需要调大调小。
如果不习惯 Markdown 格式文件，你也可以直接在 srt 文件里删除不要的句子，在剪切时不传入 md 文件名即可。就是 autocut -c 22-52-00.mp4 22-52-00.srt
如果仅有 srt 文件，编辑不方便可以使用如下命令生成 md 文件，然后编辑 md 文件即可，但此时会完全对照 srt 生成，不会出现 no speech 等提示文本。autocut -m test.srt test.mp4 autocut -m test.mp4 test.srt # 支持视频和字幕乱序传入 autocut -m test.srt # 也可以只传入字幕文件

一些小提示

讲得流利的视频的转录质量会高一些，这因为是 Whisper 训练数据分布的缘故。对一个视频，你可以先粗选一下句子，然后在剪出来的视频上再剪一次。
最终视频生成的字幕通常还需要做一些小编辑。你可以直接编辑md文件（比srt文件更紧凑，且嵌入了视频）。然后使用 autocut -s 22-52-00.md 22-52-00.srt 来生成更新的字幕 22-52-00_edited.srt。注意这里会无视句子是不是被选中，而是全部转换成 srt。
最终视频生成的字幕通常还需要做一些小编辑。但 srt 里面空行太多。你可以使用 autocut -s 22-52-00.srt 来生成一个紧凑些的版本 22-52-00_compact.srt 方便编辑（这个格式不合法，但编辑器，例如 VS Code，还是会进行语法高亮）。编辑完成后，autocut -s 22-52-00_compact.srt 转回正常格式。
用 Typora 和 VS Code 编辑 Markdown 都很方便。他们都有对应的快捷键 mark 一行或者多行。但 VS Code 视频预览似乎有点问题。
视频是通过 ffmpeg 导出。在 Apple M1 芯片上它用不了 GPU，导致导出速度不如专业视频软件。