Qwen2.5-Omni -多模态端到端大模型

这是 Qwen 系列中全新的旗舰级多模态大模型,专为全面的多模式感知设计,可以无缝处理包括文本、图像、音频和视频的各种输入,同时支持流式的文本生成和自然语音合成输出

主要特点

  • 全能创新架构:我们提出了一种全新的Thinker-Talker架构,这是一种端到端的多模态模型,旨在支持文本/图像/音频/视频的跨模态理解,同时以流式方式生成文本和自然语音响应。我们提出了一种新的位置编码技术,称为TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。
  • 实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出
  • 自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。Qwen2.5-Omni 支持修改输出语音的音色类型,目前支持2种音色类型。
  • 全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni在音频能力上优于类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持同等水平。
  • 卓越的端到端语音指令跟随能力:Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。

摘要:

Qwen2.5-Omni,这是一种端到端的多模态模型,能够感知多种模态信息,包括文本、图像、音频和视频,同时以流式方式生成文本和自然语音响应。为了实现多模态信息输入的流式处理,Qwen2.5-Omni 的音频和视觉编码器采用了 分块处理(block-wise processing) 方法。该策略有效地解耦了长序列多模态数据的处理,将感知任务交由多模态编码器,而将长序列建模任务交由大语言模型(LLM),这种分工机制通过共享注意力机制增强了不同模态的融合。

为同步视频输入的时间戳与音频,我们采用 交错(interleaved) 方式对音视频数据进行序列化,并提出了一种新颖的位置编码方法——TMRoPE(Time-aligned Multimodal RoPE,时间对齐多模态旋转位置编码)ps:关于旋转位置编码

在同时生成文本和语音的过程中,为了避免两种模态之间的相互干扰,我们提出了 Thinker-Talker 架构。在该框架下:

  • Thinker 作为大语言模型,负责文本生成;
  • Talker 是一个 双轨自回归模型(dual-track autoregressive model),它直接利用 Thinker隐藏表示来生成音频标记(audio tokens)作为输出

ThinkerTalker 均以端到端方式进行训练和推理。此外,为了实现流式音频标记解码,我们引入了 滑动窗口 DiT(sliding-window DiT),通过限制感受野来减少初始数据包延迟。

Qwen2.5-Omni 的关键特性可总结如下:

  • Qwen2.5-Omni 是一个 统一多模态模型,能够感知所有模态信息,并以流式方式同时生成文本和自然语音响应。
  • 我们提出了一种新颖的位置编码算法 TMRoPE(Time-aligned Multimodal RoPE),该方法显式融入时间信息,以实现音视频的同步。
  • 我们设计了 Thinker-Talker 架构,以支持 实时理解语音生成
  • 在多模态基准测试中,Qwen2.5-Omni 展示了卓越的性能,相较于类似规模的单模态模型表现更优,尤其在语音指令跟随任务上,其能力可与纯文本输入任务相媲美。
  • 在需要整合多种模态的信息处理任务中(如 OmniBench 评测),Qwen2.5-Omni 达到了 最先进(state-of-the-art) 的性能。
  • 在语音生成方面,Qwen2.5-Omniseed-tts-eval 评测中表现出色,展现出强大的语音生成能力和稳健性。
Thinker 负责 文本生成
Talker 通过直接接收 Thinker 提供的高级表示,专注于 流式语音标记生成

Architecture:

图 2 所示,Qwen2.5-Omni 采用 Thinker-Talker 架构,其中:

  • Thinker 类似于大脑,负责处理和理解 文本、音频、视频 等模态输入,生成高级表示和对应的文本输出。
  • Talker 类似于人类的嘴巴,以流式方式接收 Thinker 生成的高级表示和文本,并顺畅地输出离散语音标记。

架构细节

  • Thinker 采用 Transformer 解码器,并配备 音频编码器图像编码器,以增强信息提取能力。
  • Talker 采用 双轨【同时接收文本token和语音token】自回归 Transformer 解码器 结构(受 Mini-Omni [Xie & Wu, 2024] 启发)。
  • 训练和推理 过程中,Talker 直接接收 Thinker 的高维表示,并共享其全部历史上下文信息,使整个架构作为一个统一模型进行 端到端训练和推理
  • Mini-Omni
  • 感知:

    Qwen2.5-Omni 通过 Thinker文本、音频、图像和视频(无音频) 进行处理,将它们转化为一系列隐藏表示作为输入。具体步骤如下:

    1. 文本输入
      • 对于文本输入,我们采用 Qwen 的分词器(Byte-level Byte-pair Encoding),词汇表包含 151,643 个常规标记。
    2. 音频输入和视频中的音频
      • 音频输入(包括视频中的音频部分)首先被重采样至 16kHz 的频率,然后将原始波形转化为 128 通道的梅尔频谱图(mel-spectrogram),窗口大小为 25ms,步幅为 10ms
      • 音频编码器采用 Qwen2-Audio 的音频编码器(Chu et al., 2024b),每一帧音频表示大约对应于 原始音频信号的 40ms 时长。
    3. 图像和视频输入
      • 对于图像输入,我们采用 Qwen2.5-VL 的视觉编码器(基于 Vision Transformer(ViT) 模型,约 6.75 亿个参数),能够有效处理图像和视频输入。
      • 视觉编码器使用混合训练方法,结合图像和视频数据,确保其在图像理解和视频理解上的高效表现。
      • 为了最大程度地保留视频信息并适应音频采样率,我们采用 动态帧率(dynamic frame rate)进行视频采样。此外,为保持一致性,每个图像都被视为两个相同的帧。

    视频与TMRoPE

    TMRoPE

    我们提出了一种 音视频时间交错算法(time-interleaving),并引入了新的 位置编码方法 —— TMRoPE(Time-aligned Multimodal RoPE)。如 图 3 所示,TMRoPE 编码了多模态输入的三维位置,采用 多模态旋转位置编码(M-RoPE)ps: Qwen2-VL多模态旋转位置编码 多模位置编码】,并结合绝对时间位置。具体方法是将原始的旋转位置编码分解为三个组件:时间、图像高度和宽度。

    • 文本输入 使用相同的位置信息(位置 ID)来处理各组件,使得 M-RoPE 在文本输入中与 1D-RoPE 等效。
    • 音频输入 也使用相同的位置信息,并引入绝对时间位置编码,每 40ms 对应一个时间 ID
    • 图像输入,每个视觉标记的时间 ID 保持不变,而高度和宽度组件则根据标记在图像中的位置分配不同的 ID。
    • 音视频输入 情况下,音频依然使用相同的时间位置 ID 编码,每帧 40ms。视频则作为一系列图像处理,每帧对应的时间 ID 增量,同时高度和宽度组件的 ID 分配与图像一致。由于视频的帧率不是固定的,我们根据每帧实际时间动态调整时间 ID,以确保每个时间 ID 对应 40ms。

    在多模态输入场景下,每种模态的位置信息初始化时会将前一模态的最大位置 ID 增加 1。

    视频与音频时间交错方法

    为了使模型能够同时接收视觉和听觉信息,我们采用 时间交错方法(time-interleaving) 对带有音频的视频进行特殊设计。具体做法是:

    • 将视频的音频表示按 实际时间2 秒 切分为块。
    • 在每个 2 秒块中,先安排视频的视觉表示,再安排音频表示,从而将视频和音频的表示交错排列。

    生成:

    文本生成由 Thinker 直接生成,其逻辑与广泛使用的大型语言模型(LLM)相同,文本通过基于词汇表的概率分布进行自回归采样生成。生成过程中可能会采用一些技术,如 重复惩罚(repetition penalty)top-p 采样以提高文本生成的多样性

    语音生成中,Talker 接收 Thinker 生成的高维表示和采样的文本标记高维表示和离散采样标记的结合是这个过程中的关键。作为流式算法,语音生成需要在整个文本完全生成之前预测文本的语气和态度。Thinker 提供的高维表示隐含了这些信息,使得语音生成过程更自然。此外,Thinker 的表示主要体现语义相似性而非语音相似性,因此,即使是发音上差异较大的词,其高维表示可能非常相似,这就需要输入离散的采样标记来消除这种不确定性。

    我们设计了一个高效的语音编解码器 qwen-tts-tokenizer,它能够高效地表示语音的关键信息,并通过因果音频解码器流式解码成语音。接收到信息后,Talker 开始自回归地生成音频标记和文本标记语音生成过程中不需要与文本进行逐字和逐时间戳的对齐,这大大简化了训练数据的要求和推理过程。

    流式设计:

    在音频和视频流式交互的背景下,初始包延迟是衡量系统流式性能的关键指标。这个延迟受到多个因素的影响:1)多模态信息输入处理引起的延迟;2)从接收到第一个文本输入到输出第一个语音标记之间的延迟;3)将第一个语音段转换为音频的延迟;4)架构本身的固有延迟,这与模型大小、计算 FLOP 数以及其他因素相关。本文将随后讨论在这四个维度上减少这些延迟的算法和架构改进。

    支持预填充(Support Prefilling)

    块状预填充(Chunked-prefills) 是现代推理框架中广泛使用的一种机制。为了支持模态交互中的预填充机制,我们修改了音频和视觉编码器,以支持沿时间维度的 块状注意力(block-wise attention)。具体而言,音频编码器从对整个音频的全局注意力改为对每个 2 秒 的音频块进行注意力计算。视觉编码器则使用 Flash Attention 来实现高效的训练和推理,并通过一个简单的 MLP 层 将相邻的 2×2 标记合并为一个标记。补丁大小设置为 14,允许不同分辨率的图像被打包成一个序列。

    流式编解码器生成(Streaming Codec Generation)

    为了促进音频的流式传输,特别是对于长序列的流式处理,我们提出了一种 滑动窗口块注意力机制(sliding window block attention),该机制限制了当前标记访问的上下文范围。具体来说,我们采用了 Flow-MatchingDiT 模型。输入的code通过 Flow-Matching 转换为 梅尔频谱图(mel-spectrogram),然后通过修改后的 BigVGAN 将生成的梅尔频谱图重建回波形。

    DiT中用于编解码到波形生成的滑动窗口块注意力机制的示意图

    预训练

    Qwen2.5-Omni 由三个训练阶段组成。在第一阶段,我们锁定大型语言模型(LLM)的参数,专注于训练视觉编码器和音频编码器,利用大量的音频-文本和图像-文本对来增强 LLM 的语义理解能力。在第二阶段,我们解冻所有参数,并使用更广泛的多模态数据进行训练,以实现更全面的学习。在最后阶段,我们使用长度为 32k 的数据来提升模型理解复杂长序列数据的能力。

    该模型在一个多样化的数据集上进行预训练,数据类型包括图像-文本、视频-文本、视频-音频、音频-文本和文本语料库。我们将层次标签替换为自然语言提示,遵循 Qwen2-Audio(Chu et al., 2024a)的方法,这可以提高模型的泛化能力和指令跟随能力。

    在初始预训练阶段,Qwen2.5-Omni 的 LLM 组件使用 Qwen2.5(Yang et al., 2024b)中的参数初始化,视觉编码器与 Qwen2.5-VL 相同,音频编码器则使用 Whisper-large-v3(Radford et al., 2023)初始化。两个编码器分别在固定的 LLM 上进行训练,最初都专注于训练各自的适配器,然后再训练编码器。这个基础训练对装备模型具有坚实的视觉-文本和音频-文本关系和对齐的理解至关重要。

    预训练的第二阶段标志着一个重要的进展,它增加了 8000 亿个图像和视频相关的数据标记,3000 亿个音频相关的数据标记,以及 1000 亿个视频带音频相关的数据标记。这一阶段引入了更多的混合多模态数据和更广泛的任务,增强了听觉、视觉和文本信息之间的互动,并加深了理解。加入多模态、多任务数据集对于培养模型同时处理多任务和多模态的能力至关重要,这是一项处理复杂现实世界数据集的关键能力。此外,纯文本数据在保持和提高语言能力方面也起着重要作用。

    为了提高训练效率,我们在之前的阶段将最大标记长度限制为 8192 个标记。随后,我们引入了长音频和长视频数据,并将原始文本、音频、图像和视频数据扩展到 32,768 个标记进行训练。实验结果表明,我们的数据在支持长序列数据方面取得了显著的改进。

    Post-training

    数据格式:

    Thinker

    在后训练阶段,我们采用 ChatML 格式(OpenAI, 2022)进行指令跟随数据的微调。我们的数据集包括纯文本对话数据、视觉模态对话数据、音频模态对话数据以及混合模态对话数据。

    Talker

    我们为 Talker 引入了一个三阶段训练过程,使 Qwen2.5-Omni 能够同时生成文本和语音响应。在第一阶段,我们训练 Talker 学习上下文延续。在第二阶段,利用 DPO(Rafailov et al., 2023)增强语音生成的稳定性。在第三阶段,我们应用了多语者指令微调,以提高语音响应的自然性和可控性。

    上下文学习(ICL) 训练阶段,除了像 Thinker 那样使用文本监督外,我们还通过下一标记预测执行语音延续任务,利用包含多模态上下文和语音响应的广泛对话数据集。Talker 学会了从语义表示到语音的单调映射,同时获得了根据上下文生成具有多样化属性(如韵律、情感和口音)的语音的能力。此外,我们还实施了音色解耦技术,以防止模型将特定的声音与不常见的文本模式关联。

    为了扩大语者和场景的覆盖范围,预训练数据不可避免地包含标签噪声和发音错误,这可能导致模型产生幻觉。为了解决这个问题,我们引入了强化学习阶段来提高语音生成的稳定性。具体来说,对于每个请求和响应文本与参考语音配对的情况,我们构建了一个数据集 D,其中包含三元组数据 (x, yw, yl),其中 x 是输入序列的输入文本,ywyl 分别是良好和不良生成的语音序列。我们根据这些样本的奖励分数进行排名,奖励分数与 词错误率(WER)标点停顿错误率 相关。

    最后,我们对上述基础模型进行了语者微调,使 Talker 能够采用特定的声音并提高其自然性。

    Performance  

    我们对 Qwen2.5-Omni 进行了全面评估,与类似大小的单模态模型和 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro 等闭源模型相比,该模型在所有模态中均表现出色。在需要集成多种模态的任务(例如 OmniBench)中,Qwen2.5-Omni 实现了最佳性能。此外,在单模态任务中,它在语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)和语音生成(Seed-tts-eval 和主观自然度)等领域表现出色。

    Paraformer-时间戳模型

    参考论文:

  • FunASR: A Fundamental End-to-End Speech Recognition Toolkit   
  • 如图2(a)所示。Paraformer是一个单步非自回归(NAR)模型,结合了基于语言模型的快速采样模块,以增强NAR解码器捕捉标记之间依赖关系的能力。

    Paraformer由两个核心模块组成:预测器和采样器。预测器模块用于生成声学嵌入,捕捉输入语音信号中的信息。在训练过程中,采样器模块通过随机替换标记到声学嵌入中,结合目标嵌入生成语义嵌入。这种方法使得模型能够捕捉不同标记之间的相互依赖关系,并提高模型的整体性能。然而,在推理过程中,采样器模块处于非激活状态,声学嵌入仅通过单次传递输出最终预测结果。这种方法确保了更快的推理时间和更低的延迟。

    Timestamp Predictor:

    准确的时间戳预测是 ASR 系统的关键功能。然而,传统的工业 ASR 系统需要额外的混合模型来进行力对齐 (FA) 以实现时间戳预测 (TP),从而增加计算量和时间成本。FunASR 提供​​了一个端到端的 ASR 模型,通过重新设计 Paraformer 预测器的结构来实现准确的时间戳预测,如图2 (b) 所示。我们引入了一个转置卷积层和 LSTM 层来对编码器输出进行上采样,并通过后处理 CIF 权重 α2 来生成时间戳。我们将两个fireplaces 之间的帧视为前一个标记的持续时间,并根据α₂标出静音部分。此外,FunASR还发布了一个类似强制对齐的模型TP-Aligner,该模型包括一个较小的编码器和一个时间戳预测器。它接受语音和相应的转录作为输入,以生成时间戳。

    我们在AISHELL和60,000小时工业数据上进行了实验,以评估时间戳预测的质量。用于衡量时间戳质量的评估指标是累积平均偏移(AAS)。我们使用了一个包含5,549个手动标记时间戳的测试集,将提供的模型与使用Kaldi训练的FA系统进行时间戳预测性能比较。结果显示,Paraformer-TP在AISHELL上优于FA系统。在工业实验中,我们发现提出的时间戳预测方法在时间戳准确性方面与混合FA系统相当(差距小于10毫秒)。此外,这种单次解决方案对于商业使用非常有价值,因为它有助于减少计算和时间开销。

    DPO为什么会让大语言模型输出变长

    摘自:https://zhuanlan.zhihu.com/p/5830338806

    总的来说,DPO让模型输出变长主要可以分为以下几个原因:

    1. RM和模型评测的长度偏好。不管是Reward Model还是当前用与评测的模型(即便是GPT4)都会存在比较明显的长度偏好,即倾向于给更长的回答一个更高的分数。这一点已经有非常多工作给出过分析了。
    2. 训练数据本身长度分布不均衡。实战过程中往往就是用RM进行排序构造训练数据,RM的长度偏好就是会导致训练数据中容易出现chosen比rejected更长的情况。训练数据的长度差异(chosen比rejected长)就会导致训练后模型输出变长。
    3. 数据长度差异导致的reward被高估或低估。《Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence》中发现,DPO的算法本身也存在对response长度的依赖,chosen和rejected之间的长度差异可能会导致reward被高估/低估(overestimated or underestimated rewards)。即,当chosen过短时,reward会被低估,而当chosen过长时,reward会被高估
    4. DPO算法本身的长度敏感性。《Length Desensitization in Direct Preference Optimization》中提到,response长度会影响到似然概率的大小,并且进一步影响到训练优化方向:当chosen更长时,DPO会往chosen的方向进行优化(增大chosen概率),从而使输出变长;而rejected更长时,DPO会往远离rejected的方向优化(降低rejected概率),但却未必会让输出变短。

    如何解决:

    1. RM的优化:前面讲的都是对DPO进行长度控制的工作,但对RM本身的长度偏好进行优化的工作没有看到太多,如果大家有看到相关的也可以在评论区提供一下。如果将RM本身的长度偏好问题解决的话,那就可以极大程度上解决训练数据的长度分布均衡问题了。
    2. 数据的优化:有些工作会在数据构造时对长度进行综合考虑,如对RM打分进行长度归一后再排序、采样多个答案进行排序时根据均值方差限制chosen的长度等,通过这些方式可以减少长度差距过大的情况。如果数据本身的长度分布均衡了,也能一定程度上减缓这种问题。
    3. 训练算法上的优化:如果从LD-DPO的分析上看,即便数据分布比较均衡,只要存在长度差异,DPO本身的长度敏感性就是会导致模型输出变长,因此可能还是需要一些算法层面的优化,比如在DPO阶段加入SFTloss就是一种简单有效的方法,在很多公开的大模型技术报告中也都有用到该方法。另外R-DPO、SamPO和LD-DPO的长度控制效果都算是比较好的方法。

    DPO面临的一个问题(准确来讲是一种现象)就是会让大模型的输出变长,且多轮DPO的话会让模型输出越来越长。本篇文章我们将结合搜集到的一些相关工作,探讨一下业界对该现象的一些分析,探究这一现象产生的根本原因,以及如何有效地解决。

    首先我们需要思考一个问题,模型输出变长到底是不是一件坏事?一般来说,输出变长可能会使内容更加详细,信息量更丰富,回复质量更高,用户体验更好。但如果过度长,输出了很多冗余信息,回复质量没有明显改善,反而带来了推理成本的增加,回复变得啰嗦,用户体验反而变差了。

    因此,无论是从用户体验的角度还是多轮DPO能否run下去的角度,做好长度控制都是有必要的。

    相关工作

    先简要介绍一些相关工作,然后后面详细总结。

    1.《Disentangling Length from Quality in Direct Preference Optimization》(简称R-DPO)

    在这之前的一些RL的工作也有分析过长度爆炸问题,但该文章可能是第一个提出DPO的长度爆炸问题的。

    文章中发现,无论是RL训练中使用的Reward Model还是用来评测模型效果的打分模型(如GPT-4)都表现出明显的长度偏好,即会给更长的答案一个更高的分数(如下图)。且在一些公开的DPO训练数据集中,chosen的长度往往会比rejected更长,而这可能就是DPO后的模型输出长度明显比SFT模型更长的原因

    为了解决这个问题,该文章提出了一种长度正则化的策略,即在计算loss的时候添加一个长度正则项,从而避免模型对长度的过度拟合,公式如下:

    其中 |yw| 表示chosen的长度, |yl| 表示rejected的长度,从公式中可以看出,当chosen与rejected的长度差距越大,正则项的值越大,从而实现对长度的“惩罚”效果。

    从文章中的实验结果可以看出,该方法确实可以在尽可能减少性能损失的前提下有效解决长度增长问题。(有时还是会损失一定的性能。)

    2.《SimPO: Simple Preference Optimization with a Reference-Free Reward》(简称SimPO)

    陈丹琦团队的工作,直接去掉了reference model,用长度归一的方式实现长度控制。其loss如下:

    文章中提到了很多输出长度相关的内容,但核心贡献并不是做长度控制,而是用一种更简单高效的方法实现偏好训练。从公式上看,和原始DPOloss相比主要有两处不同,一个是分母从reference model的logp替换成了长度,另外就是增加了一个 γ ,类似一个offset的作用。不过其中对chosen和rejected的reward做长度归一的部分,直觉上看起来应该是能起到一定的长度控制效果的。

    不过从论文中的实验结果看,该方法的效果还是比较好的(当时声称训出最强8B大模型),但与标准DPO相比似乎并没有实现长度控制的效果。

    3.《Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence》(简称SamPO

    这篇论文对DPO后长度变长的问题进行了一定的分析,提出的一个核心观点是:DPO的算法本身也存在对response长度的依赖,chosen和rejected之间的长度差异可能会导致reward被高估/低估(overestimated or underestimated rewards)。即,当chosen过短时,reward会被低估,而当chosen过长时,reward会被高估。

    这篇工作中提出的一种方式就是在token级别下采样的概率特征,以计算正则化的KL散度,从而减少因pair长度不同而导致的奖励偏差。其loss的计算如下:

    从公式可以看出,该方法的核心就是在计算reward的时候不再是全部token的条件概率的累乘(取log后就是累加),而是随机采样公共数量的token进行累乘。这样即便chosen和rejected长度不同,参与reward计算的token数是一样的。也就是说,在SamPO训练过程中,魔都看到的chosen和rejected相当于是完全等长的。

    从文章中的实验结果看,该方法确实能有效控制模型输出长度的增长,甚至在多轮DPO依然能有效控制长度。但是在性能上看依然做不到碾压标准DPO的效果。

    但该方法有两个风险便是:

    1. 本身DPO就存在一定的波动,随机下采样可能会导致训练的稳定性不强;
    2. 随机采样必然会导致一些信息缺失,如果采样时舍弃掉了一些非常重要的token可能会影响到训练效果。

    4.《Length Desensitization in Direct Preference Optimization》(简称LD-DPO)

    该论文可能是第一个从理论层面分析DPO后模型输出变长的原因的,其核心分析主要包括两方面:

    1. DPO的梯度优化方向和chosen/rejected的似然概率成反比。
    2. Response长度对似然概率的影响极大,因此长度会直接影响reward的计算,并影响到DPO的优化方向。

    上图是一个对训练数据的统计热力图,图中,横坐标为chosen的长度,纵坐标为rejected的长度,颜色深度表示 log⁡πθ(yl|x)−log⁡πθ(yw|x) 值的大小。第一张图(a)是标准DPO,可以看出长度差距越大时,颜色越深,也就说明长度差距可能会导致reward计算产生bias,且长度差距越大这种bias越大。而这种bias会进一步影响到DPO的优化方向,使其往输出更长的方向进行优化。

    该文章提出的解决方案是在计算似然概率时对长度进行解耦,将更长的答案拆成“公共长度部分”和“额外部分”,并进一步将后者拆分为真实偏好和冗余偏好,并对其中的冗余部分进行降权操作,通过一系列推导后将 πθ(y|x) 转化为如下的形式(可近似理解为完整似然概率部分与公共长度部分似然概率的加权和):

    从公式上看,这种方式可以让长度更长的那个response(不管是chosen还是rejected)实现一定的缩放(),减少长度带来的似然概率的断崖式下滑,使其与另一个短response(不受影响)之间更具可比性,同时又不会像SamPO那样完全舍弃掉额外部分的信息。

    从论文中的实验结果看,这种方法能够实现比较好的长度控制,且模型性能还能有一定提升,并且可以通过调整参数 α 可以实现不同程度的控制效果。另外文章还提出一个比较有意思的发现,就是过度冗余的回答可能反而会损害模型的推理能力,他们通过这种方法控制长度后,模型的推理能力也有明显提升。

    其他工作

    除此之外,还有一些工作直接在数据上做文章,通过控制chosen和rejected的长度差距来实现长度控制,如《Following Length Constraints in Instructions》(简称LIFT-DPO)。以及在一些开源模型的技术报告中我们也能看到一些相关的长度控制方法,如在利用RM打分排序时就综合考虑长度问题等,这些数据工作就不再详细展开了。

    如何实现有效的长度控制?

    1. RM的优化:前面讲的都是对DPO进行长度控制的工作,但对RM本身的长度偏好进行优化的工作没有看到太多,如果大家有看到相关的也可以在评论区提供一下。如果将RM本身的长度偏好问题解决的话,那就可以极大程度上解决训练数据的长度分布均衡问题了。
    2. 数据的优化:有些工作会在数据构造时对长度进行综合考虑,如对RM打分进行长度归一后再排序、采样多个答案进行排序时根据均值方差限制chosen的长度等,通过这些方式可以减少长度差距过大的情况。如果数据本身的长度分布均衡了,也能一定程度上减缓这种问题。
    3. 训练算法上的优化:如果从LD-DPO的分析上看,即便数据分布比较均衡,只要存在长度差异,DPO本身的长度敏感性就是会导致模型输出变长,因此可能还是需要一些算法层面的优化,比如在DPO阶段加入SFTloss就是一种简单有效的方法,在很多公开的大模型技术报告中也都有用到该方法。另外R-DPO、SamPO和LD-DPO的长度控制效果都算是比较好的方法。

    最后结合我自己的一些尝试来直接对比一下上面的四种方法:

    1. R-DPO是通过加正则项的方式实现长度控制,说是正则项,但其实只是一个常数,其原理相当于是对每条数据加上一个权重(文章中也提到了这点),即当chosen和rejected长度差距大时降低该数据的权重。也就是说,该方法其实是让模型减少对长度差距大的数据的学习权重。这种方法确实可以实现一定的长度控制效果,但必然会减少一些数据的利用率,这可能也是训练效果会有一定损失的原因。我自己尝试了一下该方案,实验下来确实可以做到长度控制效果,但大部分情况下性能都会比标准DPO差一些。
    2. SimPO是用长度归一来替换Reference Model的KL约束,理论上和长度控制其实没有太大关系,更多的是简化训练和提升性能。实验结果确实也体现了并不会比标准DPO更短。(该方法热度很高,但网络上褒贬不一,很多人表示无法复现结果。)根据我自己实验经验来看,跑出好的结果需要仔细调参,论文推荐的超参不一定适合所有情况。
    3. SamPO是直接用下采样的方式,强行将模型视角下的长答案变得和短答案一样长,该方法给人的直观感受就是长度控制效果肯定很好,但是很可能会有性能损失。但我自己实验下来,长度控制效果和R-DPO差不多,但是性能也比较不稳定,更换随机种子就会导致性能产生波动。我也尝试过将随机下采样改为top-k采样,即保留概率最大的top-k个token,但效果并不会比随机更好(这么直觉的方法可能论文作者也尝试过了)。
    4. LD-DPO的方法是只对答案过长的部分做了解耦和降权处理,通过降低过长部分的权重来实现整个条件概率的缩放,看起来是四种方法中实现最优雅的一种,既降低了长度差异带来的reward bias问题,又不会丢弃信息,相当于是用极小的代价实现了概率缩放目的。从论文中贴出的结果看,确实也是性能最强的一个,长度控制效果也是最好的。但论文代码没有开源,所以没有实验验证。但从公式上看复现难度应该不是很大,有能力的可以尝试复现一下看看效果。

    transformers 的 generate() 方法实现多样化文本生成:参数含义和算法原理解读

    这个类对外提供的方法是 generate(),通过调参能完成以下事情:

    • greedy decoding:当 num_beams=1 而且 do_sample=False 时,调用 greedy_search()方法,每个step生成条件概率最高的词,因此生成单条文本。
    • multinomial sampling:当 num_beams=1 且 do_sample=True 时,调用 sample() 方法,对词表做一个采样,而不是选条件概率最高的词,增加多样性。
    • beam-search decoding:当 num_beams>1 且 do_sample=False 时,调用 beam_search() 方法,做一个 num_beams 的柱搜索,每次都是贪婪选择top N个柱。
    • beam-search multinomial sampling:当 num_beams>1 且 do_sample=True 时,调用 beam_sample() 方法,相当于每次不再是贪婪选择top N个柱,而是加了一些采样。
    • diverse beam-search decoding:当 num_beams>1 且 num_beam_groups>1 时,调用 group_beam_search() 方法。
    • constrained beam-search decoding:当 constraints!=None 或者 force_words_ids!=None,实现可控文本生成。

    参数列表

    核心代码详见:generate()入口函数定义, GenerationConfig类

    1.控制生成长度的参数

    参数类型缺省值含义
    max_lengthint20表示 prompt + max_new_tokens 累加的最大长度,如果max_new_tokens也设置了,会覆盖这个参数
    max_new_tokensint生成部分的tokens的最大长度 (忽略prompt部分的长度)
    min_length0表示 prompt + min_new_tokens 累加的最小长度,如果min_new_tokens也设置了,会覆盖这个参数
    min_new_tokensint生成部分的tokens的最小长度 (忽略prompt部分的长度)
    early_stoppingbool, strFalse对于beam search方法的控制终止的配置。
    False: 当有’num_beams’个候选生成,则终止
    True: 应用一些启发式规则判断不能找到更好的生成候选,来提前终止生成
    “never”: 当判断没有更好的可生成的candidate, beam search 过程终止
    max_timefloat执行生成的最大时间(s秒数)
    stop_stringsstr, array[str]配置模型生成的终止字符串,当模型生成参数配置的字符串,则终止生成。

    2. 控制生成策略的参数

    参数类型缺省值含义
    do_sampleboolFalseTrue: 生成过程使用采样逻辑
    False: 使用greedy做生成
    num_beamsint1设置beam search 束的数量。如果是1不做beam search 搜索
    num_beam_groupsint1为了保证生成的多样性,将num_beams 设置成多组。参考文献: https://arxiv.org/pdf/1610.02424.pdf
    penalty_alphafloatcontrastive search decoding的配置项,用于平衡生成置信度和衰减的惩罚
    dola_layersstr, List[int]str :
    “None”: 不使用dola
    “low” : 较低的一半layers, 最多20层使用dola
    “high”: 较高的一半layers, 最多20层使用dola
    List[int] : 通过指定一个index数组,指定dola 层
    “low”: 提升长答案的task,
    “high”:提升短答案的task

    3.cache配置参数

    参数类型缺省值含义
    use_cacheboolTrue是否使用KV cache 加速推理速度
    cache_implementationstr指定cache实现的name,在调用generate()时,实例化cache。
    ”static”: [StaticCache]
    “offloaded_static”: [OffloadedStaticCache]
    ”sliding_window”: [SlidingWindowCache]
    “hybrid”: [HybridCache]
    “mamba”: [MambaCache]
    ”quantized”:[QuantizedCache]
    cache_configCacheConfig , dictNonecache类使用的参数
    return_legacy_cacheboolTrue当DynamicCache 被使用时,是否返回历史的和新格式的cache

    4.操作模型输出logit的配置参数

    参数类型缺省值含义
    temperaturefloat1.0这个值用于建模下一个token的概率, 这个值被设置在generation_config.json文件中
    top_kint50筛选最高概率的top k个词, 这个值被设置在generation_config.json文件中
    top_pfloat1.0当设置<1时,筛选概率最高的token,累加概率不超过top_p的token
    min_pfloat配置筛选概率最低的一批token, 累加概率不超过min_p,裁剪掉,该配置相当于top_p的反向操作
    typical_pfloat1.0测量两个分布的相似性: 预测下一个目标token的概率 and 预测下一个随机Token的条件概率期望。如果设置<1,则筛选最典型的token。
    epsilon_cutofffloat0.0按设置的值,卡掉低概率值的token,一般设置为:3e-4 to 9e-4
    eta_cutofffloat0.0混合局部典型性采样和epsilon采样方法
    diversity_penaltyfloat0.0只对group beam search方法生效,如果在某个特定时间生成的token与任何beam 组生成的token一致,则beam的score减去这个值
    repetition_penaltyfloat1.01.0 默认不惩罚
    encoder_repetition_penaltyfloat1.0对于不在原始输入的token,指数级的惩罚
    length_penaltyfloat1.0对于beam 类的生成方法的长度惩罚,由于序列score是 log likelihood , > 0 倾向于更长的 <0 倾向于更短的
    no_repeat_ngram_sizeint0如果大于0, 则对应的size的ngram只能出现1次
    bad_words_idsList[List[int]]列出不允许生成的tokens_id
    force_words_idsList[List[int]] or List[List[List[int]]]必须被生成的words_ids。 如果配置List[List[List[int]]] 设置对于每个token的约束
    renormalize_logitsboolFalse对于所有的logits做后处理后,是否要再做下normalize
    constraintsList[Constraint]通过定义一个List[Constraint] 对象数组,来确保输出是在某些限制的场景下。一般用于安全的场景
    forced_bos_token_idintmodel.config.forced_bos_token_id强制跟在decoder_start_token_id之后的第一个token,对多语言模型是有用的
    forced_eos_token_idint or List[int]model.config.forced_eos_token_id当生成的token达到max_length上限时,最后一位输出的token
    remove_invalid_valuesboolmodel.config.remove_invalid_values是否移出可能生成的nan and inf 值,配置这个会减慢生成速度
    exponential_decay_length_penaltytuple(int, float)指数级增加长度的惩罚,tuple(start_index, decay_factor) start index 指示惩罚的开始i,decay_factor 指数衰减的惩罚因子
    suppress_tokensList[int]通过设置禁止的token的logit为-inf,来禁止token被sample
    begin_suppress_tokensList[int]通过设置首位禁止的token的logit为-inf,来禁止首位这部分token被采样到,进而导致被生成
    forced_decoder_idsList[List[int]]一个整数pair的数组,格式[生成index, token_index]指示固定位置强制生成某个token,例如[[1, 123]] 第二个位置总是生成token 123
    sequence_biasDict[Tuple[int], float]token list -> bias的映射,正的bias提升几率,负的bias降低几率
    token_healingboolFalse对prompt尾部的token做相似替换,以提升生成质量
    guidance_scalefloat是一个缩放因子,当>1时,这个因子越高,越鼓励模型生成与prompt接近的samples 。
    watermarking_configBaseWatermarkingConfig or dict对输出结果增加水印

    5.输出结果配置参数

    参数类型缺省值含义
    num_return_sequencesint1对于batch中的每个元素,设置独立计算的返回的sequence的数量
    output_attentionsboolFalse是否返回所有的attention的向量
    output_hidden_statesboolFalse是否返回所有网络层的隐层状态
    output_scoresboolFalse是否返回prediction scores
    output_logitsbool是否返回未处理过的的logit score
    return_dict_in_generateboolFalse除了返回生成序列,是否还返回a [`~utils.ModelOutput`]

    6.生成时使用的特殊token的配置参数

    参数类型缺省值含义
    pad_token_idintpadding token ID
    bos_token_idintbeginning -of – sequence token ID
    eos_token_idUnion[int, List[int]]end-of-sequence token ID

    6.辅助生成的配置参数(投机采样)

    参数类型缺省值含义
    is_assistantboolFalse指定是否模型是一个assistant(draft) model
    num_assistant_tokensint20投机采样过程,每次迭代 assistant model 要输出多少个token,给到目标模型做check。配置更高的值,如果assistant model 效果好 能带来更好的加速比
    num_assistant_tokens_schedulestrconstant“heuristic” : 当所有投机采样的token都正确时,将num_assistant_tokens增加2,否则减少1。
    “constant”: num_assistant_tokens 保持固定不变
    “heuristic_transient”: 类似于启发式方法,每次生成调用,都置成初始化的num_assistant_tokens值
    assistant_confidence_thresholdfloat0.4当assistant model预估当前token的置信度 小于 阈值时,提前终止assistant model的生成
    prompt_lookup_num_tokensint作为候选token 要输出的token的数量
    max_matching_ngram_sizeint2match prompt的最大ngram的数量
    assistant_early_exitint
    assistant_lookbehindint10如果设置为正整数,则重新编码过程将额外考虑最后的assistant_lookbehind个辅助标记,以正确对齐标记。此设置仅可在推测解码中使用不同的分词器时使用。
    target_lookbehindint10如果设置为正整数,则重新编码过程将额外考虑最后的target_lookbehind个辅助标记,以正确对齐标记。此设置仅可在推测解码中使用不同的分词器时使用。


    如有整理错误,欢迎指正~

    语音理解模型—OSUM

    OSUM: Advancing Open Speech Understanding Models with Limited Resources in Academia

    大型语言模型(LLMs)在各种下游任务中取得了显著进展,启发了业界对语音理解语言模型(speech understanding language models, SULMs)的研发,以期实现基于语音情感、性别等副语言的高表现力交互。然而,大多数先进的SULM是由行业头部公司开发的,消耗大规模的数据和计算资源。而这些资源在学术界并不容易获得。此外,虽然训练好的模型和推理代码被开源了,但训练框架和数据处理流程依然缺乏透明度,这也为进一步研究产生了障碍。在本研究中,我们提出了OSUM,一个开放的语音理解模型,旨在探索在有限的学术资源下训练SLUM的潜力。OSUM模型将Whisper编码器与Qwen2 LLM相结合,支持广泛的语音任务,包括语音识别(ASR)、带时间戳的语音识别(SRWT)、语音事件检测(VED)、语音情感识别(SER)、说话风格识别(SSR)、说话者性别分类(SGC)、说话者年龄预测(SAP)和语音转文本聊天(STTC)。通过采用ASR+X训练策略,OSUM通过同时优化模态对齐和目标任务,实现了高效稳定的多任务训练。除了提供强大的性能,OSUM还强调透明度,提供公开可用的代码,并详细介绍了数据处理流程,以期为学术界提供有价值的参考,旨在加速先进SULM技术的研究和创新。

    方案设计 

    OSUM模型将Whisper编码器与Qwen2 LLM相结合,支持广泛的语音任务,包括语音识别(ASR)、带时间戳的语音识别(SRWT)、语音事件检测(VED)、语音情感识别(SER)、说话风格识别(SSR)、说话者性别分类(SGC)、说话者年龄预测(SAP)和语音转文本聊天(STTC)。通过采用ASR+X训练策略,OSUM通过同时优化模态对齐和目标任务,实现了高效稳定的多任务训练。

    模型结构

    模型的输入包括语音和自然语言提示。不同于 Whisper 和Qwen-Audio 依靠指令标签,Osum采用描述性文本,将所有八个支持任务转换为图2所示。当前,我们的模型仅支持基于文本的响应,但是音频输出功能正在积极开发。

    如图2所示,OSUM模型由一个Speech Encoder、一个Adaptor和一个LLM组成。在训练过程中,Speech Encoder和Adaptor中的所有参数都会更新,而大语言模型则使用LoRA方法进行微调。各部分具体配置如下:

    • Speech Encoder: Whisper-Medium (769M);
    • Adaptor: Conv1D * 3 + Transformer * 4,4倍下采样;
    • LLM: Qwen2-7B-Instruct带LoRA。LoRA hyperparameters-α, rank, and dropout ratio are set to 32, 8, and 0.1,

    多任务监督训练

    训练过程包括两个阶段:

    首先,在没有LLM的情况下,对原始的Whisper模型进行多任务监督微调,多任务数据微调了 Whisper ,以确保OSUM模型的更快收敛。此外,此阶段使我们能够验证多任务数据的可靠性。具体来说,我们扩展了Whisper的指示标签,以适应更多的任务,每个前向推理仅执行一个任务。

    其次,将微调后的Whisper编码器与Qwen2大语言模型相结合,构建出完整的OSUM系统,然后使用更大的数据集进行进一步的监督训练。

    OSUM模型的输入包括一段语音和一个自然语言描述的prompt,而输出在现阶段仅支持文本回复,音频输出功能正在开发中。为节省计算资源,OSUM的多任务训练引入了一种“ASR+X”范式,即同时训练ASR任务和一个附加任务X。这在加速训练的同时,允许执行X任务时参考文本和声学两种特征,从而提升性能和训练稳定性。“ASR+X”范式是在LLM的自回归框架内通过调整预测标签来实现的,无需对模型架构或损失函数进行修改。执行不同的X任务是通过给LLM不同的自然语言prompt来实现的,每个任务有5个候选prompt,训练时随机选择一个。prompt的示例如表1所示。

    训练数据

    OSUM旨在使用多样化的语音数据集进行多任务训练,目标是构建一个能够在对话场景中全面理解输入语音的统一模型。多任务训练过程使各个任务能够从共享学习中获益,从而提升模型的整体性能。有关用于训练的数据集的详细信息见表2所示,本版本模型的训练数据规模大约为5万小时。

    技术性能

    总览

    如图2所示,OSUM 模型和Qwen2-Audio 相比,在大多数任务中,尽管 OSUM 使用的计算资源和训练数据明显更少,但它的表现优于Qwen2-Audio。

    图2 OSUM与Qwen2-Audio各项任务性能对比的雷达图。雷达图中每个模型各项任务的值是基于公开测试集和内部测试集的平均结果得出的

    各项指标与性能演示

    ASR(语音识别):如表4所示,OSUM在中文ASR上表现优越,具体地,在WenetSpeech test meeting、3个AISHELL-2子测试集以及4个内部使用的SpeechIO测试集上优于其他模型。OSUM在英语测试集上性能也可与SenseVoice-S相媲美。值得注意的是,这些结果是在使用少得多的训练数据的情况下取得的。此外,我们发现,即使在训练过程中未纳入中英混语料数据集,OSUM在识别中英混语音方面也展现出了令人惊讶的出色能力。

    表4公开测试集和内部测试集上ASR任务的评估结果。加粗字体表示同一测试集中的最佳结果。所有内部测试结果均由我们自行推理得出

    表45公开测试集和内部测试集上多任务的评估结果。每个测试集的最佳结果都用粗体突出显示。蓝色字体显示的结果以及内部测试集的结果,均是我们使用原始发布的模型自行推理得出的

    SRWT(带时间戳的语音识别):如表5所示,OSUM模型在SRWT任务上的性能显著优于Whisper-Large-v3,相对优势达到了36.70%,并且也超过了Qwen-Audio。此外,OSUM的表现甚至略微超过了GMM-HMM模型,而后者在时间戳预测任务被广泛使用。另外,此功能不仅使得OSUM能够以端到端的方式预测时间戳,更重要的是,它引导OSUM模型理解了“时间”这一概念。在将来,我们将会利用这一能力继续开发更灵活的应用,例如判断音频中何时出现了语音事件,何时出现了说话人转换等。

    VED(语音事件检测):我们首先在公开测试集ESC-50和VocalSound上评估OSUM的性能。ESC-50包含大量的非人声音频事件,我们将它们归类为“其他”。表45示的实验结果表明,OSUM可以成功地将这些非人声音频事件归类为“其他”。此外,在VocalSound数据集上的结果显示,OSUM与Qwen2-audio相比虽然存在一定差距,但也取得了超过80%的准确率。值得注意的是,为更加符合真实使用场景,我们的训练数据是语音和音频事件拼接而成,但公开测试集只有孤立的音频事件而没有说话语音。即便存在这一不匹配的情况,OSUM模型的在公开测试集上的结果也证明了其有效性和泛化性。与公开测试集不同,我们人工录制了同时包含语音和声学事件的内部测试集。表45结果表明,PANNs由于其仅为孤立音频事件检测而设计,在我们内部测试集中基本处于不可用状态。Qwen2-audio的表现相对较好,但也出现了性能下降。相比之下,OSUM模型在公开测试集和内部测试集上都取得了较为均衡的结果,展现出了更强的泛化能力。

    SER(语音情感识别):如表45示,对于SER任务,使用公开数据集的实验中,OSUM在MER2023测试集上展现出了卓越的性能,超过了一些近期的公开基准模型。在MELD数据集上,OSUM的性能略低于SenseVoice-L模型,这很可能是因为后者在更大规模的语音情感数据集上进行了训练。此外,OSUM在内部测试集上的结果与EmoBox模型相当,显著优于其他对比方法。但是,我们也观察到,厌恶和恐惧这两种情感尤其难以识别,其归因于这两种情感的训练数据更加稀缺,也容易和其他情感混淆。

    SSR(说话风格识别):表5中实验表明,OSUM所采用的声学-文本双模态风格分类方法的表现显著优于GLM-4-9B-Chat所采用的单文本模态方法,这充分证明了“ASR+X”策略的价值。现阶段OSUM能够区分八种风格:“新闻科普”,“恐怖故事”,“童话故事”,“客服”,“诗歌散文”,“有声书”,“日常口语”以及“其他”。我们详细分析了测试集上各类别的准确率,发现OSUM在对“新闻科普”、“有声书”、“童话故事”以及“客服”风格类别上表现出色;然而,在“诗歌散文”、“恐怖故事”类别上仍有提升空间。有趣的是,我们发现从实际测试的主观体验上来说,OSUM风格分类正确率是超过测试集的,总体来说可以让人满意。

    SGC(说话者性别分类):在SGC公开测试集上的结果表明,OSUM在AISHELL-1测试集上达到了100%的准确率。这一结果在一定程度上表明该任务上存在说话人过拟合现象。此外,在Kaggle测试集上,我们的方法略优于Qwen2-Audio。但在我们的内部测试集上,OSUM的性能略低于Qwen2-Audio,但依然超过了95%。总之,OSUM在SGC任务上展现出了不错的性能,而且实测效果很少出现性别判断错误的情况。

    SAP(说话者年龄预测):在SAP任务上,由于我们发现青少年和成年人的声学相似度非常高,这使得有效区分他们变得很复杂。因此,我们将年龄分为三类:儿童、成年人和老年人。尽管我们努力调试了prompt,但Qwen2-Audio在Kaggle测试集和我们的内部测试集上,年龄分类准确率都较低。这可能是因为这些模型对年龄的分类过于细致,从而影响了Qwen2-Audio模型的最终效果。表4中结果显示,OSUM在Kaggle测试集上显著优于Qwen2-Audio,达到了76.52%的准确率。在我们的内部测试集上OSUM分类准确率虽然略有下降,但仍然超过了Qwen2-Audio。这表明OSUM在不同的数据上表现出了很强的泛化能力。

    STTC(语音转文本聊天):如表5所示,在STTC任务中,我们在所有测试集上都遵循了AirBench的评估协议。这包括提供音频查询的文本以及两个不同答案的文本,让基于文本的大语言模型(LLM)给出1到10的主观评分。这两个答案一个是真实回复,另一个是语音大语言模型(SULM)生成的答案。测试结果表明,在AirBench的官方speech子测试集上,OSUM的得分虽然低于Qwen2-Audio,但也处于一个合理范围。这主要是因为我们没有使用英语对话数据进行训练,目前的得分完全依赖于大语言模型自身的表现。反之,在我们内部的中文对话测试集上,OSUM的表现优于Qwen2-Audio,这充分证明了OSUM在中文对话任务上性能是不错的。总体而言,我们的OSUM模型在对话能力方面与Qwen2-Audio相当。

    更多功能

    OSUM理解大模型在将来会提供更多的功能,可作为通用语音打标工具使用。此外,我们正在开发的功能包括:

    1. 同时支持ASR+X和单X任务模式,在执行单X任务打标时推理速度更快。
    2. 同时输出ASR+X1+X2+..Xn的多任务打标模式,一次性提供几乎全部所需标签。
    3. 增加更多的理解任务。

    Step-Audio:产品级开源实时语音对话模型

    阶跃星辰:Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统,支持多语言对话(如 中文,英文,日语),语音情感(如 开心,悲伤),方言(如 粤语,四川话),可控制语速及韵律风格,支持RAP和哼唱等。其核心技术突破体现在以下四大技术亮点:

    • 1300亿多模态模型: 单模型能实现理解生成一体化完成语音识别、语义理解、对话、语音克隆、语音生成等功能,开源千亿参数多模态模型 Step-Audio-Chat
    • 高效数据生成链路: 基于130B 突破传统 TTS 对人工采集数据的依赖,生成高质量的合成音频数据,并同步开源首个基于大规模合成数据训练,支持 RAP 和哼唱的指令加强版语音合成模型 Step-Audio-TTS-3B ,该模型具有增强的指令遵循功能以控制语音综合的能力。
    • 精细语音控制: 支持多种情绪(如生气,高兴,悲伤)、方言(包括粤语、四川话等)和唱歌(包括 RAP、干声哼唱)的精准调控,满足用户对多样化语音生成的需求。
    • 扩展工具调用: 通过 ToolCall 机制和角色扮演增强,进一步提升其在 Agents 和复杂任务中的表现。
    端到端语音相互作用的人类评估。

    模型组成

    图2 采用了AQTA(音频输入,文本输出) + TTS框架 进行实时语音对话

    Step-Audio的体系结构。 Step-Adio主要由三个组成部分组成:语音令牌,LLM和语音解码器。语音令牌器负责将输入语音离散到令牌中。LLM模型接收文本和语音令牌,输出文本,而语音解码器生成波形输出。

    传统的语音对话系统通常采用包括ASR的级联建筑,LLM和TTS模块。但是,我们提出的模型在训练阶段进行了全面的多模式培训以及对文本和音频的一致性,已经具有端到端的语音对话功能。尽管对替代设计进行了广泛的探索,但我们最终采用了AQTA(音频输入,文本输出) + TTS框架 进行实时语音对话,如图2所示,这是由以下考虑的驱动的:

    • 高质量的纯净对话数据的稀缺性:纯净对话数据的可用性有限,再加上其受限的场景,限制了端到端语音对话模型的训练效率。
    • 输出语音的可控性和自定义:通过引入TTS模块,我们可以灵活地控制语音参数,例如音色和音调,以满足用户的个性化需求,同时不断增强模型的表现力能力。

    在Step-Audio系统中,音频流采用Linguistic tokenizer【语义】(码率16.7Hz,码本大小1024)与Semantice tokenizer【声学】(码率25Hz,码本大小4096)并行的双码本编码器方案,双码本在排列上使用了2:3时序交错策略。通过音频语境化持续预训练和任务定向微调强化了130B参数量的基础模型(Step-1),最终构建了强大的跨模态语音理解能力。为了实现实时音频生成,系统采用了混合语音解码器,结合流匹配(flow matching)与神经声码技术。此外,采用语音活动检测(VAD)模块提取声段。

    Tokenizer

    我们通过token级交错方法实现Linguistic token与Semantic token的有效整合。Linguistic tokenizer的码本大小是1024,码率16.7Hz;而Semantic tokenizer则使用4096的大容量码本来捕捉更精细的声学细节,码率25Hz。鉴于两者的码率差异,我们建立了2:3的时间对齐比例——每两个Linguistic token对应三个Linguistic token形成时序配对

    语言模型

    为了提升Step-Audio有效处理语音信息的能力,并实现精准的语音-文本对齐,我们在Step-1(一个拥有1300亿参数的基于文本的大型语言模型LLM)的基础上进行了音频持续预训练。

    在多轮对话系统中音频令牌和文本令牌之间的长度差异需要有效的处理策略。为了解决这个问题,历史信息最初是在系统输入之前使用ASR模型转录为文本格式的,从而优化了计算效率。但是,应注意的是,模型体系结构在需要时保持处理和使用音频令牌作为历史上下文的能力。

    语音解码器

    Step-Audio语音解码器主要是将包含语义和声学信息的离散标记信息转换成连续的语音信号。该解码器架构结合了一个30亿参数的语言模型、流匹配模型(flow matching model)和梅尔频谱到波形的声码器(mel-to-wave vocoder)。为优化合成语音的清晰度(intelligibility)和自然度(naturalness),语音解码器采用双码交错训练方法(dual-code interleaving),确保生成过程中语义与声学特征的无缝融合

    实时推理管线

    为了实现实时的语音交互,我们对推理管线进行了一系列优化。其中最核心的是控制模块(Controller),该模块负责管理状态转换、协调响应生成,并确保关键子系统间的无缝协同。这些子系统包括:

    • 语音活动检测(VAD):实时检测用户语音起止
    • 流式音频分词器(Streaming Audio Tokenizer):实时音频流处理。输入音频流是通过两个平行的令牌管道处理的,每个管道都采用固定持续分段。将所得令牌无缝合并为2:3交织比的单个序列。没有流音频令牌,根据音频输入的长度,推理时间将明显较慢。
    • Step-Audio语言模型与语音解码器:多模态回复生成
    • 上下文管理器(Context Manager):动态维护对话历史与状态。我们的系统利用文本转录而不是原始的音频令牌来实现历史上下文,因为它提供了更紧凑的表示(平均文本审计代币比率为1:14),提高性能,并启用更长的对话,对质量的影响最小的影响很小。 ASR异步将用户语音转录为文本,并保持准确,最新的对话历史记录。

    后训练细节

    在后训练阶段,我们针对自动语音识别(ASR)与文本转语音(TTS)任务进行了专项监督微调(Supervised Fine-Tuning, SFT)。对于音频输入-文本输出(Audio Question Text Answer, AQTA)任务,我们采用多样化高质量数据集进行SFT,并采用了基于人类反馈的强化学习(RLHF)以提升响应质量,从而实现对情感表达、语速、方言及韵律的细粒度控制。

    TTS模型:

    解决TTS任务中高质量语音数据的稀缺性

    Training Detail

    与传统的语音合成(TTS)系统注重对说话人特征、情感表达、语言特征和风格元素的精细控制不同,我们的方法采用了基于聊天的范式和大型语言模型(LLMs)的训练方法。这一战略对齐显著增强了系统的灵活性,同时建立了一个可扩展的框架,以支持未来模型和数据的扩展,从而解决了语音合成系统在可扩展性方面的关键挑战。

    监督的微调格式:

    SFT格式包括三个基本组成部分:系统提示、人类输入和助手回复,采用两轮对话结构。在这种格式中,系统提示作为指定说话人属性和定义支持的指令标签的基础元素。人类输入和助手回复部分则专门用于处理文本内容和双词典表示。第一轮的文本和音频标记可以用来保持领域内说话人的音色和风格一致性,同时也支持领域外的零样本克隆。

    指令标签

    指令标签分为两种不同的类别:描述性标签和比较性标签。描述性标签用于控制语言、方言、声音和风格等方面,而比较性标签则用于情感和语速控制的层次化区分。描述性标签的数据是通过Step-Audio模型克隆生成的,支持包括日语、韩语、粤语、四川方言、可爱声音、说唱和唱歌等语言和风格。比较性标签的数据则是通过Audio Edit模型生成的,支持诸如快乐、愤怒、悲伤等情感,以及快慢等语速变化,每种变化都被分为五个层级。

    我们使用第5.1.1节中概述的SFT数据,并采用一个具有30亿参数的模型,训练一个周期,初始学习率为 2×10−5。学习率采用余弦衰减策略进行调整,最低值设置为 2×10−6。

    AQTA:

    我们为AQTA任务应用了基于人类反馈的强化学习(RLHF),从而创建了Step-Audio-Chat模型,如图6所示。

    说明:

    用了AQTA(音频输入,文本输出) + TTS框架 情况下是如何实现多语言对话(如 中文,英文,日语),语音情感(如 开心,悲伤),方言(如 粤语,四川话),可控制语速及韵律风格,支持RAP和哼唱

    通过TTS【cosyvoice】代码可知,LLM的文本输出中会包含 {语言}【情感】 [语速] 这样的文本输出,然后TTS用于合成对应的音频: 使用[{}]的声音,根据这些情感标签的指示,调整你的情感、语气、语调和哼唱节奏

        self.sys_prompt_dict = {
            "sys_prompt_for_rap": "请参考对话历史里的音色,用RAP方式将文本内容大声说唱出来。",
            "sys_prompt_for_vocal": "请参考对话历史里的音色,用哼唱的方式将文本内容大声唱出来。",
            "sys_prompt_wo_spk": '作为一名卓越的声优演员,你的任务是根据文本中()或()括号内标注的情感、语种或方言、音乐哼唱、语音调整等标签,以丰富细腻的情感和自然顺畅的语调来朗读文本。\n# 情感标签涵盖了多种情绪状态,包括但不限于:\n- "高兴1"\n- "高兴2"\n- "生气1"\n- "生气2"\n- "悲伤1"\n- "撒娇1"\n\n# 语种或方言标签包含多种语言或方言,包括但不限于:\n- "中文"\n- "英文"\n- "韩语"\n- "日语"\n- "四川话"\n- "粤语"\n- "广东话"\n\n# 音乐哼唱标签包含多种类型歌曲哼唱,包括但不限于:\n- "RAP"\n- "哼唱"\n\n# 语音调整标签,包括但不限于:\n- "慢速1"\n- "慢速2"\n- "快速1"\n- "快速2"\n\n请在朗读时,根据这些情感标签的指示,调整你的情感、语气、语调和哼唱节奏,以确保文本的情感和意义得到准确而生动的传达,如果没有()或()括号,则根据文本语义内容自由演绎。',
            "sys_prompt_with_spk": '作为一名卓越的声优演员,你的任务是根据文本中()或()括号内标注的情感、语种或方言、音乐哼唱、语音调整等标签,以丰富细腻的情感和自然顺畅的语调来朗读文本。\n# 情感标签涵盖了多种情绪状态,包括但不限于:\n- "高兴1"\n- "高兴2"\n- "生气1"\n- "生气2"\n- "悲伤1"\n- "撒娇1"\n\n# 语种或方言标签包含多种语言或方言,包括但不限于:\n- "中文"\n- "英文"\n- "韩语"\n- "日语"\n- "四川话"\n- "粤语"\n- "广东话"\n\n# 音乐哼唱标签包含多种类型歌曲哼唱,包括但不限于:\n- "RAP"\n- "哼唱"\n\n# 语音调整标签,包括但不限于:\n- "慢速1"\n- "慢速2"\n- "快速1"\n- "快速2"\n\n请在朗读时,使用[{}]的声音,根据这些情感标签的指示,调整你的情感、语气、语调和哼唱节奏,以确保文本的情感和意义得到准确而生动的传达,如果没有()或()括号,则根据文本语义内容自由演绎。',
        }

    VITA-1.5:GPT-4o级别的实时视觉和语音交互模型

    [📖 VITA-1.5 Paper] [🤖 Basic Demo] [🍎 VITA-1.0]

    [📽 VITA-1.5 Demo Show! Here We Go! 🔥]

    引言

    近年来,多模态大语言模型(MLLMs)在视觉和文本的结合上取得了显著进展。然而,随着人机交互需求的增加,语音在多模态对话系统中的作用变得愈发重要。语音不仅是信息传递的关键媒介,还能显著提升交互的自然性和便捷性。因此,如何将视觉和语音模态高效整合,实现高性能的多模态交互,成为了当前研究的重点。

    VITA-1.5的提出正是为了解决这一挑战。通过精心设计的多阶段训练方法,VITA-1.5逐步训练大语言模型(LLM)理解视觉和语音信息,最终实现了流畅的视觉和语音交互。与现有模型相比,VITA-1.5不仅保留了强大的视觉-语言能力,还实现了高效的语音对话能力,显著加速了多模态端到端的响应速度。

    VITA-1.5

    模型架构

    图 2:VITA-1.5 的整体架构。输入端由视觉和音频编码器及其连接到 LLM 的适配器组成。输出端有一个端到端的语音生成模块,而不是像初始 VITA-1.0 版本那样直接使用外部 TTS 模型。

    VITA-1.5的整体架构如图2所示。输入侧与VITA-1.0版本相同,采用“多模态编码器-适配器-LLM”的配置。它将视觉/音频Transformer和多层连接器与LLM结合进行联合训练,旨在增强对视觉、语言和音频的统一理解。在输出侧,VITA-1.5拥有自己的端到端语音模块,而不是像原始VITA-1.0版本那样使用外部TTS模型。

    视觉模态

    视觉编码器:VITA-1.5采用InternViT-300M作为视觉编码器,输入图像大小为448×448像素,每张图像生成256个视觉标记。对于高分辨率图像,VITA-1.5采用动态分块策略捕捉局部细节,提高图像理解的准确性。

    视频处理:视频被视为一种特殊的多图像输入。如果视频长度短于4秒,则均匀采样4帧;对于4到16秒的视频,每秒采样一帧;对于超过16秒的视频,均匀采样16帧。视频帧不应用动态分块,以避免过多的视觉标记影响处理效率。

    视觉适配器:使用两层MLP将视觉特征映射到适合LLM理解的视觉标记。

    音频模态

    语音编码器:类似于[56],我们的音频编码模块由多个下采样卷积层(4倍下采样)和24个Transformer块(隐藏大小为1024)组成。下采样层有助于降低音频特征的帧率,提高LLM的处理速度。音频编码器约有350M参数,输出帧率为12.5Hz。使用Mel滤波器组特征作为音频编码器的输入,窗口大小为25ms,偏移为10ms。

    语音适配器:由多个2倍下采样的卷积层组成。

    语音解码器:使用TiCodec作为我们的编解码模型,定制了一个大小为1024的单码本。这种单码本设计简化了推理阶段的解码过程。编解码模型负责将连续语音信号编码为离散语音标记,频率为40Hz,同时能够将这些标记解码回采样率为24,000Hz的语音信号。

    当前的LLM只能输出文本标记,语音生成能力要求LLM能够输出语音标记。为此,我们在文本标记后添加了两个语音解码器:1)非自回归(NAR)语音解码器,全局处理文本标记并建模语义特征,旨在生成语音标记的初始分布;2)自回归(AR)语音解码器,基于NAR解码器生成的语音信息逐步生成更高质量的语音标记。最终的语音标记序列通过编解码模型的语音解码器解码为连续语音信号流(波形)。我们为NAR和AR语音解码器采用了4个LLaMA解码层,隐藏大小为896,参数大小约为120M。

    训练数据

    如表1所示,多模态指令微调的训练数据涵盖了广泛的类别,如描述数据和问答数据,包括中文和英文。在不同的训练阶段,从整体数据集中选择性地采样子集以服务于不同的目标。具体来说,数据集分类如下:

    • 图像描述数据:使用ShareGPT4V、ALLaVA-Caption、SharedGPT4o-Image和合成数据等数据集训练模型生成图像的描述性语言。
    • 图像问答数据:使用LLaVA-150K、LLaVA-Mixture-sample、LVIS-Instruct、ScienceQA、ChatQA和从LLaVA-OV采样的子集(如通用图像问答和数学推理数据集)等数据集训练模型回答基于图像的问题和执行视觉推理任务。
    • OCR和图表数据:支持模型理解OCR和图表内容,使用Anyword-3M、ICDAR2019-LSVT、UReader、SynDOG、ICDAR2019-LSVT-QA和从LLaVA-OV采样的相应数据等数据集。
    • 视频数据:使用ShareGemini和合成数据等数据集训练模型处理视频输入并执行诸如描述和基于视频的问答等任务。
    • 纯文本数据:增强模型理解和生成语言的能力,促进基于文本的问答任务。

    除了表1中列出的图像和视频数据外,还纳入了110,000小时的内部语音-转录配对ASR数据,涵盖中文和英文,用于训练音频编码器并将音频编码器与LLM对齐。此外,使用TTS系统生成的3,000小时文本-语音配对数据用于训练语音解码器。

    三阶段训练策略

    为了确保VITA-1.5在涉及视觉、语言和音频的任务中表现良好,我们必须面对一个关键挑战,即不同模态之间的训练冲突。例如,添加语音数据可能会对视觉数据的理解产生负面影响,因为语音的特征与视觉的特征显著不同,导致学习过程中的干扰。为了解决这一挑战,我们设计了一个三阶段训练策略,如图3所示。核心思想是逐步将不同模态引入模型,使其在增加新模态能力的同时保持现有模态的能力。

    VITA-1.5的训练管道。训练过程分为三个阶段,以逐步将视觉和音频纳入LLM同时缓解了形态冲突。第一阶段的重点是视觉训练,包括视觉对齐(阶段1.1,使用表1中的20%字幕数据),视觉理解(阶段1.2,使用100%的字幕数据)以及用于Visual QA的指令调整(阶段1.3,使用20%字幕数据和100%QA数据)。阶段2引入音频输入调整,并具有音频对齐(阶段2.1,使用11,000小时的语音转录对)和语音质量检查的指令调整(阶段2.2,采样4%字幕数据和20%的QA数据)。最后,第3阶段的重点是音频输出调整,包括对编解码器模型的训练(使用3,000个小时的文本语音数据)和语音解码器培训(阶段3.2)。图像中显示的百分比对应于表1中指定的数据采样率。

    阶段1:视觉训练

    阶段1.1 视觉对齐:在此阶段,我们的目标是弥合视觉和语言之间的差距。前者的特征从预训练的视觉编码器InternViT-300M中提取,后者通过LLM引入。我们使用表1中20%的描述性描述数据进行训练,其中只有视觉适配器是可训练的,而其他模块是冻结的。这种方法允许LLM初步对齐视觉模态。

    阶段1.2 视觉理解:在此阶段,我们的目标是教会LLM转录图像内容。为此,我们使用表1中所有的描述性描述数据。在此过程中,视觉模块的编码器和适配器以及LLM都是可训练的。重点是使模型通过学习关于图像的描述性文本,建立视觉和语言之间的强连接,使其能够通过生成自然语言描述来理解图像内容。

    阶段1.3 视觉SFT:在阶段1.2之后,模型已经获得了对图像和视频的基本理解。然而,指令跟随能力仍然有限,难以应对视觉问答任务。为了实现这一点,我们使用表1中所有的问答数据,同时保留20%的描述性描述数据以增加数据集的多样性和任务的复杂性。

    在训练过程中,视觉模块的编码器和适配器以及LLM都是可训练的。此阶段的关键目标是使模型不仅能够理解视觉内容,还能够根据指令回答问题。

    阶段2:音频输入微调

    阶段2.1 音频对齐:在完成阶段1的训练后,模型已经建立了强大的图像和视频理解基础。在此阶段,我们的目标是基于阶段1减少音频和语言之间的差异,使LLM能够理解音频输入。训练数据包括11,000小时的语音-转录对。我们采用两步方法:(a)语音编码器训练:我们采用常见语音识别系统中使用的训练框架,使用连接时序分类(CTC)损失函数[18]训练语音编码器。目的是使编码器从语音输入中预测转录文本。此步骤确保音频编码器能够提取语音特征并将其映射到文本表示空间。(b)语音适配器训练:在训练语音编码器后,我们将其与LLM集成,使用音频适配器将音频特征引入LLM的输入层。此阶段的训练目标是使LLM能够输出语音数据的转录文本。

    此外,在步骤(b)中,我们引入了特殊的可训练输入标记来指导语音理解过程。这些标记提供了额外的上下文信息,指导用于问答任务的LLM执行ASR任务。

    阶段2.2 音频SFT:此阶段的重点是引入语音问题和文本答案的问答功能。为此,我们从表1中采样4%的描述数据和20%的问答数据。在数据处理方面,大约一半的基于文本的问题被随机替换为其对应的语音版本,使用TTS系统生成。

    在此阶段,视觉编码器和适配器、音频编码器和适配器以及LLM都是可训练的,旨在提高模型对多模态输入的适应性。此外,我们在LLM的输出中添加了一个分类头。该头用于区分输入是来自语音还是文本。结果,模型可以更准确地解释语音输入,并高效灵活地处理不同模态。

    阶段3:音频输出微调

    在前两个训练阶段,VITA-1.5模型已经有效地发展了其多模态理解能力。然而,一个关键的能力,即语音输出,仍然缺失,这对于其作为交互助手的角色至关重要。为了在不影响模型基本能力的情况下引入语音输出功能,我们借鉴了[56]的策略,使用3,000小时的文本-语音数据,并采用两步训练方法(见图3)。

    阶段3.1 编解码训练:此步骤的目标是使用语音数据训练具有单码本的编解码模型。编解码模型的编码器能够将语音映射到离散标记,而解码器可以将离散标记映射回语音流。在VITA-1.5的推理阶段,仅使用解码器。

    阶段3.2 NAR + AR解码器训练:此阶段的训练使用文本-语音配对数据,其中文本被输入到LLM的分词器和嵌入层以获得其嵌入向量,语音被输入到编解码模型的编码器以获得其语音标记。文本嵌入向量被发送到NAR语音解码器以获得全局语义特征,然后将这些特征发送到AR语音解码器,预测相应的语音标记。请注意,在此阶段LLM是冻结的,因此多模态性能不受影响。

    评估

    视觉-语言评估

    基线:我们比较了一系列开源MLLMs,包括VILA-1.5、LLaVA-Next、CogVLM2、InternLM-XComposer2.5、Cambrian-1、MiniCPM-V-2.6、Ovis1.5、InternVL-Chat-1.5、InternVL-2、LLaVA-OV和Video-LLaVA、SilME和LongVA,以及5个闭源MLLMs,包括GPT-4V、GPT-4o、GPT-4o-mini、Gemini 1.5 Pro和Claude 3.5 Sonnet。

    评估基准:为了评估VITA-1.5的图像感知和理解能力,我们使用了多个评估基准,包括MME、MMBench、MMStar、MMMU、MathVista、HallusionBench、AI2D、OCRBench和MMVet。这些基准涵盖了广泛的方面,包括通用多模态能力(如MME、MMBench和MMMU)、数学推理(MathVista)、幻觉检测(HallusionBench)、图表(AI2D)和OCR(OCRBench)理解,提供了全面的评估结果。对于视频理解,我们使用了代表性的评估基准,包括Video-MME、MVBench和TempCompass。

    视觉-语言能力:表2展示了VITA-1.5的图像理解性能比较。在三个阶段的训练后,VITA-1.5的表现与最先进的开源模型相当,甚至超过了一些闭源模型,如GPT-4V和GPT-4o-mini。这一结果突显了VITA-1.5在图像-语言任务中的强大能力。如表3所示,VITA-1.5在视频理解评估中表现出与顶级开源模型相当的性能。与专有模型的显著差距表明,VITA-1.5在视频理解方面仍有显著的改进空间和潜力。请注意,在阶段2(音频输入微调)和阶段3(音频输出微调)的训练后,VITA-1.5几乎保留了其在阶段1(视觉-语言训练)中的原始视觉-语言能力。

    语音评估

    基线:以下三个基线模型用于比较:Wav2vec2-base、Mini-Omini2、Freeze-Omini和VITA-1.0。

    评估基准普通话评估集包括三个数据集:aishell-1、test net和test meeting。这些数据集用于评估模型在普通话语音上的表现。评估指标是字符错误率(CER)。英语评估集包括四个数据集:dev-clean、dev-other、test-clean和test-other,用于评估模型在英语语音上的表现。评估指标是词错误率(WER)。

    ASR性能:表4中的评估结果表明,VITA-1.5在普通话和英语ASR任务中均取得了领先的准确性。这表明VITA-1.5已成功集成了先进的语音能力,以支持多模态交互。

    结论

    本文介绍了VITA-1.5,这是一个通过精心设计的三阶段训练策略整合视觉和语音的多模态LLM。通过缓解模态之间的固有冲突,VITA-1.5在视觉和语音理解方面实现了强大的能力,无需依赖单独的ASR或TTS模块即可实现高效的语音到语音交互。广泛的评估表明,VITA-1.5在多模态基准测试中表现出色。我们希望VITA-1.5能够接过VITA-1.0的旗帜,继续推动开源模型在实时多模态交互领域的进步。

    InspireMusic–阿里通义开源音乐生成框架

    InspireMusic是由通义实验室开源的音乐生成技术,旨在打造一款集音乐生成、歌曲生成、音频生成能力为一体的开源AIGC工具包。

    为研究者和开发者提供音乐/歌曲/音频生成模型的训练和调优工具及模型,方便优化生成效果;同时为音乐爱好者提供一个易于使用的文本生成音乐/歌曲/音频创作工具,可通过文字描述或音频提示来控制生成内容。

    目前,InspireMusic已开源了音乐生成的训练和推理代码,支持通过简单的文字描述或音频提示,快速生成多种风格的音乐作品。

    InspireMusic的文生音乐创作模式涵盖了多种曲风、情感表达和复杂的音乐结构控制,提供了极大的创作自由度和灵活性。未来计划进一步开放歌唱生成和音频生成的基础模型,欢迎研究者、开发者及用户积极参与体验和研发。该开源工具包为社区开发者提供了丰富的技术资源,支持从学术研究到产品开发的广泛应用。

    🎶 主要特点

    • 统一的音频生成框架:基于音频大模型技术,InspireMusic支持音乐、歌曲及音频的生成,为用户提供多样化选择;
    • 灵活可控生成:基于文本提示和音乐特征描述,用户可精准控制生成音乐的风格和结构;
    • 简单易用:简便的模型微调和推理工具,为用户提供高效的训练与调优工具。

    🌟代码仓库

    核心模型

    InspireMusic由音频tokenizer、自回归Transformer模型、基于常微分方程的扩散模型即Conditional Flow Matching (CFM)模型、Vocoder所组成,可支持文本生成音乐、音乐续写等任务。通过具有高压缩比的单码本WavTokenizer将输入的连续音频特征转换成离散音频token,然后利用基于Qwen模型初始化的自回归Transformer模型预测音频token,再由CFM扩散模型重建音频的潜层特征,最终通过Vocoder输出高质量的音频波形。两种推理模式的设计:fast模型和高音质模型,为不同需求的用户提供了灵活的选择。

    工具包安装使用指南

    第一步:下载代码库

    git clone --recursive https://github.com/FunAudioLLM/InspireMusic.git
    # If you failed to clone submodule due to network failures, please run the following command until success
    cd InspireMusic
    git submodule update --init --recursive

    第二步:安装代码库

    conda create -n inspiremusic python=3.8
    conda activate inspiremusic
    cd InspireMusic
    # pynini is required by WeTextProcessing, use conda to install it as it can be executed on all platforms.
    conda install -y -c conda-forge pynini==2.1.5
    pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
    # install flash attention to speedup training, support version 2.6.3
    pip install flash-attn --no-build-isolation

    第三步:下载模型

    InspireMusic-Base模型(https://www.modelscope.cn/iic/InspireMusic)
    # git模型下载,请确保已安装git lfs
    mkdir -p pretrained_models
    git clone https://www.modelscope.cn/iic/InspireMusic.git pretrained_models/InspireMusic-Base

    第四步:基本用法说明快速开始

    cd InspireMusic/examples/music_generation/
    bash run.sh

    训练LLM和flow matching模型样例脚本。

    torchrun --nnodes=1 --nproc_per_node=8 \
        --rdzv_id=1024 --rdzv_backend="c10d" --rdzv_endpoint="localhost:0" \
        inspiremusic/bin/train.py \
        --train_engine "torch_ddp" \
        --config conf/inspiremusic.yaml \
        --train_data data/train.data.list \
        --cv_data data/dev.data.list \
        --model llm \
        --model_dir `pwd`/exp/music_generation/llm/ \
        --tensorboard_dir `pwd`/tensorboard/music_generation/llm/ \
        --ddp.dist_backend "nccl" \
        --num_workers 8 \
        --prefetch 100 \
        --pin_memory \
        --deepspeed_config ./conf/ds_stage2.json \
        --deepspeed.save_states model+optimizer \
        --fp16
    
    torchrun --nnodes=1 --nproc_per_node=8 \
        --rdzv_id=1024 --rdzv_backend="c10d" --rdzv_endpoint="localhost:0" \
        inspiremusic/bin/train.py \
        --train_engine "torch_ddp" \
        --config conf/inspiremusic.yaml \
        --train_data data/train.data.list \
        --cv_data data/dev.data.list \
        --model flow \
        --model_dir `pwd`/exp/music_generation/flow/ \
        --tensorboard_dir `pwd`/tensorboard/music_generation/flow/ \
        --ddp.dist_backend "nccl" \
        --num_workers 8 \
        --prefetch 100 \
        --pin_memory \
        --deepspeed_config ./conf/ds_stage2.json \
        --deepspeed.save_states model+optimizer

    推理脚本

    cd InspireMusic/examples/music_generation/
    bash infer.sh

    带有CFM的推理模式

    pretrained_model_dir = "pretrained_models/InspireMusic/"
    for task in 'text-to-music' 'continuation'; do
      python inspiremusic/bin/inference.py --task $task \
          --gpu 0 \
          --config conf/inspiremusic.yaml \
          --prompt_data data/test/parquet/data.list \
          --flow_model $pretrained_model_dir/flow.pt \
          --llm_model $pretrained_model_dir/llm.pt \
          --music_tokenizer $pretrained_model_dir/music_tokenizer \
          --wavtokenizer $pretrained_model_dir/wavtokenizer \
          --result_dir `pwd`/exp/inspiremusic/${task}_test \
          --chorus verse \
          --min_generate_audio_seconds 8 \
          --max_generate_audio_seconds 30 
    done

    不带CFM的fast推理模式

    pretrained_model_dir = "pretrained_models/InspireMusic/"
    for task in 'text-to-music' 'continuation'; do
      python inspiremusic/bin/inference.py --task $task \
          --gpu 0 \
          --config conf/inspiremusic.yaml \
          --prompt_data data/test/parquet/data.list \
          --flow_model $pretrained_model_dir/flow.pt \
          --llm_model $pretrained_model_dir/llm.pt \
          --music_tokenizer $pretrained_model_dir/music_tokenizer \
          --wavtokenizer $pretrained_model_dir/wavtokenizer \
          --result_dir `pwd`/exp/inspiremusic/${task}_test \
          --chorus verse \
          --fast \
          --min_generate_audio_seconds 8 \
          --max_generate_audio_seconds 30 
    done

    FireRedASR -小红书语音识别大模型

    小红书 FireRed 团队正式发布并开源了基于大模型的语音识别模型 ——FireRedASR,在语音识别领域带来新突破。在业界广泛采用的中文普通话公开测试集上,FireRedASR 凭借卓越的性能取得了新 SOTA!FireRedASR 在字错误率(CER)这一核心技术指标上,对比此前的 SOTA Seed-ASR,错误率相对降低 8.4%,充分体现了团队在语音识别技术领域的创新能力与技术突破。

    FireredAsr,旨在满足各种应用程序中出色的性能和最佳效率的各种要求。 fireredasr包括两个变体:

    FireRedASR-LLM

    采用Encoder-Adapter-LLM,结合了文本预训练 LLM 的能力,为极致的 ASR 准确率而生,适用于对准确率要求极高的应用场景。在公共普通话基准上,fireredasr-LLM (8.3b参数)达到3.05%的平均字符错误率(CER),超过了3.33%的最新SOTA,相对CER(CERR)8.4%。它显示出优于工业级基线的卓越概括能力,在多源普通话ASR方案(例如视频,现场和智能助理)中,达到24%-40%的CERR。

    FireRedASR-AED

    基于经典的 Attention-based Encoder-Decoder 架构,FireRedASR-AED 通过扩展参数至 1.1B,成功平衡了 ASR 语音识别的高准确率与推理效率。适用于资源受限的应用程序。

    主要贡献

    • High-Accuracy Models with Efficiency: ASR识别准确率优于Seed-ASR[字节跳动],模型在保持效率的同时达到卓越精度的能力。
    • Robust Real-World Performance: 在各种实用的场景中,包括简短的视频,直播,字幕生成,语音输入和智能助手,我们的模型表现出了出色的功能,与相比的相对减少(CERR)相比实现了24%-40%流行的开源基线和领先的商业解决方案。
    • 多功能识别能力:支持方言/中文/英文/歌曲识别。而且在歌词识别中表现出色

    模型结构:

    FireRedASR-AED是基于注意的编码器-解码器 ASR模型。训练数据:包括大约70,000小时的音频数据,主要是高质量的普通话语音。与Whisper中使用的弱标记数据集不同,我们的大多数数据都是由专业注释者手动转录的,从而确保了高转录精度和可靠性。该数据集还包含大约11,000小时的英语语音数据,以增强英语ASR功能。

    Input Features: 输入25ms窗口的80-dimensional  log Mel filterbank (Fbank),10ms frame shifts,然后是全局均值和方差归一化。

    Encoder Structure:编码器由两个主要组件组成:一个下采样模块和Conformer  blocks堆叠。

    Decoder Structure:解码器遵循Transformer 体系结构。

    Tokenization:BPE编码英文文本, 1,000 English BPE tokens, 6,827 Chinese characters, and 5 special tokens.

    FireRedASR-LLM: Encoder-Adapter-LLM 架构。

    Input Features and Encoder: 训练数据和处理、encoder跟FireredAsr-AED相同。

    Adapter Structure:一个简单但有效的线性RELU线性网络组成,该网络投射了编码器的输出维度,以匹配输入LLM。在适配器的开头合并了一个额外的框架剪接操作。此操作进一步将时间分辨率从40ms降低到每个帧的80ms,从而降低了序列长度并提高了计算效率LLM。

    LLM初始化和处理:LLM用QWEN2-7B-INSTRUCT的预训练的重量初始化。训练数据格式:(prompt, speech, transcript)

    Training Strategy编码器和适配器是完全训练的,LLM采用lora微调,保证LLM的文本能力。此策略可确保编码器和适配器经过充分训练,以将语音特征映射到LLM的语义空间中,同时保留其预训练能力。训练目标基于交叉熵损失,损失仅在输入的转录部分上计算,忽略提示和语音嵌入。

    Evaluation

    缩放定律的观察

    LLMs 方面的最新研究表明,模型性能通常会随着模型尺寸的增加而提高,这称为缩放定律 。如表3所示,我们研究了具有不同模型大小的模型的缩放行为。对于 FireRedASR-AED,我们将模型大小逐步从 140M、413M、732M 扩展到 1.1B 参数。随着模型尺寸的增加,性能持续提高,从 XS 扩展到 S、从 S 扩展到 M 以及从 M 扩展到 L 配置时分别实现 6.1%、5.3% 和 5.6% 的 CERR。对于 FireRedASR-LLM,专注于扩展编码器,同时保持 LLM 主干不变。编码器大小从 86M 增加到 710M 参数,适配器参数的变化很小(17M 到 22M)。这表现出相似的扩展模式并带来一致的性能改进,从 XS(3.29%)到 L(3.05%)配置的总体 CERR 为 7.3%。这些结果证明了我们的扩展策略的有效性,并表明通过更大的模型容量可以进一步改进。

    下图是 FireRedASR 和其他 ASR 大模型的对比,在业界常用的中文普通话公开测试集上,FireRedASR-LLM(8.3B 参数量)取得了最优 CER 3.05%、成为新 SOTA!FireRedASR-AED (1.1B 参数量)紧随其后取得 3.18%,两者均比 Seed-ASR(12+B 参数量)的 3.33% 低、并且参数量更小。FireRedASR 也比 Qwen-Audio、SenseVoice、Whisper、Paraformer 取得了更优的 CER。

    FireRedASR 不仅在公开测试集上表现优异,在多种日常场景下,也展现了卓越的语音识别效果。
    如下图所示,在由短视频、直播、语音输入和智能助手等多种来源组成的 Speech 测试集上,与业内领先的 ASR 服务提供商(ProviderA)和 Paraformer-Large 相比, FireRedASR-LLM 的 CER 相对降低 23.7%~40.0%,优势十分明显。
    值得一提的是,在需要歌词识别能力的场景中,FireRedASR-LLM 也表现出极强的适配能力,CER 实现了 50.2%~66.7% 的相对降低,这一成果进一步拓宽了 FireRedASR 的应用范围,使其不仅能胜任传统语音识别需求,还能在创新性的多媒体场景中大放异彩。

    值得一提的是,FireRedASR 在中文方言和英语场景中同样表现不俗。在 KeSpeech(中文方言)和 LibriSpeech(英语)测试集上,FireRedASR 的 CER 显著优于此前的开源 SOTA 模型,使其在支持好普通话 ASR 的前提下,在中文方言和英语上也足够通用,进一步凸显了其鲁棒的语言适配能力。

    Discussion:

    FireredAsr模型优于竞争模型的原因:

    高质量和多样化的训练数据:语料库主要由从现实世界情景中收集的专业转录音频组成,该音频比在受控环境中提供的传统阅读式录音相比,它提供的训练信号明显更高。该数据集包括声音条件,扬声器,重音和内容域的广泛差异,总计数万小时。这种多样性和规模使我们的模型能够学习强大的语音表征和语言模式。

    实证研究表明,一千小时的高质量,人工标注的数据比一万小时的弱标记数据(例如,来自视频标题,OCR结果或其他ASR模型的输出)更好的结果,这解释了我们比Whisper的优势 。此外,在我们的语料库中包含唱歌数据为处理音乐内容时的基线模型的显着改进做出了贡献。

    优化的训练策略:将FireredAsr-A的扩展为140m到1.1b参数时,我们将正则化和学习率确定为影响模型收敛的关键因素。我们制定了一种渐进式正则化训练策略:最初没有正则化技术以实现快速收敛,然后逐渐引入更强的正则化,因为出现了过度拟合的趋势。此外,较大的模型需要降低学习率,这对于调整此参数的最佳性能至关重要。

    高效的ASR框架

    总结:提出了fireredasr-LLM和FireredAsr-AED,两种针对普通话优化的高性能ASR模型。通过全面的评估,我们证明了他们的体系结构,培训策略和高质量的数据集可以在保持计算效率的同时达到最先进的性能。

    LLM训练-人工强化反馈对齐算法:RLHF, RLAIF, PPO, DPO and More

    参考论文:A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More

    相关博客:https://wqw547243068.github.io/rlhf

    参考代码:Align Anything: Training All-modality Model with Feedback

    端到端推理学习增强推理能力方法

    a.推理时扩展(Inference-time scaling): 如链式思维(CoT)或自我一致性(Self-Consistency),以增强模型的推理能力;【cot:核心思想是将复杂问题分解为一系列可解释的中间步骤。通过明确的推理链条,模型能够逐步解决原本可能超出其直接推理能力的问题。思维链方法特别适用于涉及多步骤推理的任务,如数学题、多重逻辑推理问题等。 Self-Consistency 自我一致提示是在 CoT 基础上进一步优化,通过采样多条推理路径,找出最一致的答案。它适用于对结果准确性要求更高的场景,避免一次性推理路径的偶然性导致错误。】

    b.纯强化学习(Pure Reinforcement Learning, RL): 通过强化学习训练模型,使其在没有监督数据的情况下,通过试错学习复杂任务; 【deepseek-R1-zero】

    c.监督微调结合强化学习(SFT + RL): 首先对模型进行监督微调,然后使用强化学习进行进一步优化,以提高模型的推理能力。【deepseek-R1】

    d.纯监督微调和蒸馏(Pure Supervised Fine-Tuning and Distillation)仅使用监督学习和模型蒸馏技术来增强模型的推理能力。【deepseek-R1-distill蒸馏模型

    一个完整的LLM训练过程包含以下几步:

    • Model Initialization:加载模型和处理器
    • 数据准备:解析数据集并设置其格式
    • 模型推理:将数据输入到模型中并获取输出
    • 梯度更新:根据损失函数更新模型参数

    对齐(alignment)其作用就是让 LLM 与人类的价值观保持一致。在对齐 LLM 方面,基于人类反馈的强化学习(RLHF)是一种突破性的技术。该方法催生了 GPT-4、Claude 和 Gemini 等强大模型。RLHF 之后,人们也探索了多种多样的对齐 LLM 的方法。但是,此前还没有人全面总结对齐 LLM 与人类偏好的方法。

    Salesforce 决定填补这一空白,于近日发布了一份 37 页的综述报告,其中按类别总结了现有的研究文献,并详细分析了各篇论文。

    Introduction

    这篇论文分为四大主题:奖励模型、反馈、强化学习(RL)、优化。每个主题又包含进一步的子主题,如图 1 所示。

    xPO LLM 与人类偏好保持一致的 13 个分类方向

    奖励模型的子主题包括:1. 显式奖励模型与隐式奖励模型;2. 逐点奖励模型与偏好模型;3. 响应层面的奖励与 token 层面的奖励;4. 负偏好优化。

    反馈的子主题包括:1. 偏好反馈与二元反馈;2. 成对反馈与列表反馈;3. 人类反馈与 AI 反馈。

    强化学习的子主题包括:1. 基于参考的强化学习与无参考的强化学习;2. 长度控制式强化学习;3. 强化学习中的不同分支;4. 在线策略强化学习与离线策略强化学习

    优化的子主题包括:1. 在线 / 迭代式偏好优化与离线 / 非迭代式偏好优化;2. 分离 SFT 和对齐与合并 SFT 和对齐。

    Individual Paper Reviews in Detail

    1. RLHF/PPO

    LLM 的预训练要用到大量来自不同来源的语料库,而这本身就无法确保这些数据集的质量。此外,LLM 的主要目标是预测下一个 token,这个目标与「有用且安全地遵从用户指令」的目标并不一致。因此,LLM 可能会输出不真实、有害或对用户无用的内容。本质上讲,这些模型并未与用户意图对齐。RLHF/PPO 的主要目标是在各种任务上对齐语言模型与用户意图,其做法是使用人类反馈来微调模型。有关这个主题的研究有很多。

    2. RLAIF

    获取人类偏好数据集的成本不低,因此基于人工智能反馈的强化学习(RLAIF)诞生了。此外,随着 LLM 的能力不断进步,所能收集到的 AI 偏好数据集的质量也不断提高,由此可提升 LLM 的对齐效果。

    3.直接人类偏好优化

    传统 RLHF 方法通常涉及到优化源自人类偏好的奖励函数。该方法虽有效,但也可能带来一些难题,比如增大计算复杂度以及在估计和优化奖励时需要考虑偏置 – 方差权衡。参阅论文《High-dimensional continuous control using generalized advantage estimation》。

    近期有研究探索了其它一些旨在根据人类偏好(无需依赖某个标量的奖励信号)来直接优化 LLM 策略的方法。

    这些方法的目标是通过更直接地使用偏好数据来简化对齐流程、降低计算开销以及实现更稳健的优化。通过将该问题描述为一个偏好优化问题,而不是奖励估计和最大化问题,这些方法能提供一种将语言模型与人类判断对齐的不同视角

    4.token 级 DPO

    使用 DPO 时,奖励会被一起分配给 prompt 和响应。相反,使用 MDP 时,奖励会被分配给各个动作。后续的两篇论文在 token 层面阐述了 DPO 并将其应用扩展到了 token 级的分析。

    5.迭代式 / 在线 DPO

    使用 DPO 时,会使用所有可用的偏好数据集来对齐 LLM。为了持续提升 LLM,应当实现迭代式 / 在线 DPO。这就引出了一个有趣的问题:如何高效地收集新的偏好数据集。下面两篇论文深入探讨了这一主题。

    • 自我奖励式语言模型,参阅论文《Self-rewarding language models》。
    • CRINGE,参阅论文《The cringe loss: Learning what language not to model》。

    6.二元反馈

    事实证明,收集偏好反馈比收集二元反馈(比如点赞或点踩)的难度大,因此后者可促进对齐过程的扩展。KTO 和 DRO 这两项研究关注的便是使用二元反馈来对齐 LLM。

    • KTO,Kahneman-Tversky 优化,参阅论文《KTO: Model alignment as prospect theoretic optimization》。
    • DRO,直接奖励优化,参阅论文《Offline regularised reinforcement learning for large language models alignment》。

    7.融合 SFT 和对齐

    之前的研究主要还是按顺序执行 SFT 和对齐,但事实证明这种方法很费力,并会导致灾难性遗忘。后续的研究有两个方向:一是将这两个过程整合成单一步骤;二是并行地微调两个模型,最终再进行融合。

    • ORPO,比值比偏好优化,参阅论文《ORPO: Monolithic preference optimization without reference model》。
    • PAFT,并行微调,参阅论文《PAFT: A parallel training paradigm for effective llm fine-tuning》。

    8.长度控制式 DPO 和无参考 DPO

    之前有研究表明,LLM 的输出往往过于冗长。为了解决这个问题,R-DPO 和 SimPO 的关注重心是在不影响生成性能的前提下实现对响应长度的控制。

    此外,DPO 必需参考策略来确保已对齐模型不会与参考模型有太大偏差。相较之下,SimPO 和 RLOO 提出了一些方法,可以在不影响 LLM 效果的情况下消除对参考模型的需求

    9.逐列表的偏好优化

    之前在 PPO 和 DPO 方面的研究关注的是成对偏好,而 RLHF 方面的研究则是收集逐列表的偏好来加速数据收集过程,之后再将它们转换成成对偏好。尽管如此,为了提升 LLM 的性能,直接使用逐列表的数据集来执行偏好优化是可行的。以下三篇论文专门讨论了这种方法。

    • LiPO,逐列表偏好优化,参阅论文《LIPO: Listwise preference optimization through learning-to-rank》。
    • RRHF,参阅论文《RRHF: Rank responses to align language models with human feedback without tears》。
    • PRO,偏好排名优化,参阅论文《Preference ranking optimization for human alignment》。

    10.负偏好优化

    这些研究有一个共同前提:当前这一代 LLM 已经在翻译和总结等任务上超越了人类性能。因此,可以将 LLM 的输出视为期望响应,而无需依靠将人类标注的数据视为偏好响应;这样做是有好处的。反过来,不期望得到的响应依然也可被用于对齐 LLM,这个过程就是所谓的负偏好优化(NPO)。

    • NN,否定负例方法,参阅论文《Negating negatives: Alignment without human positive samples via distributional dispreference optimization》。
    • NPO,负例偏好优化,参阅论文《Negative preference optimization: From catastrophic collapse to effective unlearning》。
    • CPO,对比偏好优化,参阅论文《Contrastive preference optimization: Pushing the boundaries of llm performance in machine translation》。

    11.纳什学习

    之前的研究通常是使用逐点奖励和 BT 模型来得到成对偏好。但是,这种方法比不上直接成对偏好建模并且无法解决成对偏好中的不一致问题。为了克服这些局限,一些研究提出了纳什学习方法。

    • 根据人类反馈的纳什学习,参阅论文《Nash learning from human feedback》。
    • SPPO,自博弈偏好优化,参阅论文《A minimaximalist approach to reinforcement learning from human feedback》。
    • DNO,直接纳什优化,参阅论文《Direct nash optimization: Teaching language models to self-improve with general preferences》。

    LLM 对齐(Alignment)方法:SFT、PPO、DPO 、ORPO详细介绍

    LLM(大语言模型)的对齐(Alignment)方法旨在让 AI 的输出更加符合人类预期,减少错误信息、有害内容或不准确的回答。主要总结LLM训练中的基本的对齐算法, 监督微调 (SFT)、直接偏好优化 (DPO) 和近端策略优化 (PPO)等。

    SFT(Supervised Fine-Tuning,监督微调)

    监督微调(SFT)是 LLM 训练中的第一步,通过高质量的人工标注数据集对模型进行微调,使其具备基础的任务能力。SFT 是所有对齐方法的基础,如 RLHF、DPO 等都依赖于一个经过 SFT 训练的模型作为初始状态。

    过程

    1. 数据准备:收集高质量的指令-响应(Instruction-Response)数据集,例如人类标注的数据或合成的数据。
    2. 模型微调:使用交叉熵损失(Cross-Entropy Loss)训练模型,使其学习提供与标注数据匹配的答案。
    3. 效果:使模型在常见任务(如问答、代码生成、对话等)中表现更好,提高其对指令的遵循能力。

    给定输入 x(Prompt) 和目标输出 y(Response),模型的目标是最大化生成目标文本的概率:

    其中:

    • Pθ​(yt​∣x,y<t​) 是 LLM 在给定上下文下预测下一个 token yt​ 的概率。
    • 训练时采用交叉熵损失(Cross Entropy Loss)来优化模型参数 θ。

    SFT 仅依赖于人工标注数据,无法让模型学习偏好信息(比如不同回答的优劣)。无法动态调整:SFT 训练后,模型固定,难以针对用户反馈进行调整。缺乏探索性:模型只会学到训练数据中的模式,无法进行强化学习优化。

    DPO(Direct Preference Optimization,直接偏好优化)

    论文:https://arxiv.org/abs/2305.18290

    参考代码:https://github.com/eric-mitchell/direct-preference-optimization

    DPO(直接偏好优化)是一种比 RLHF 更简单、更高效的对齐方法。
    它不需要训练奖励模型(RM)和使用强化学习(RL),而是直接优化 LLM,使其更符合人类偏好数据

    偏好数据

    • 每个输入 Prompt 对应两个候选回答:一个优选(Preferred y+),一个劣选(Dispreferred y−)。
    • 例如:

    Prompt: “如何写一封正式的电子邮件?”
    Response 1 (优选): “在邮件中应保持正式语气,并包含称呼、正文和署名。”
    Response 2 (劣选): “随便写就行了,不要太在意格式。”

    优化 LLM 使其更倾向于优选回答

    只需要加载2个相同的模型,其中一个推理[reference model:old策略模型],另外一个模型[policy model 策略模型]训练,直接在偏好数据上进行训练即可:

    Reference Model(以下简称Ref模型)一般也用SFT阶段得到的SFT模型做初始化,在训练过程中,它的参数是冻结的。Ref模型的主要作用是防止Actor”训歪”

    损失函数: DPO 直接优化模型输出的偏好分布:

    其中:

    • σ :sigmoid函数
    • β :超参数,一般在0.1 – 0.5之间
    • yw :某条偏好数据中好的response,w就是win的意思
    • yl :某条偏好数据中差的response,l就是loss的意思,所以偏好数据也叫comparision data
    • πθ(yw|x) :给定输入x, 当前 策略policy model生成好的response的累积概率(每个tokne的概率求和,具体看代码)
    • πref(yl|x) :给定输入x, 原始模型(reference model)生成坏的response的累积概率

    开始训练时,reference model和policy model都是同一个模型,只不过在训练过程中reference model不会更新权重。

    为了方便分析,我们把log里的分式展开,然后β设为1,并且暂时不看前面的log_sigmoid,那么上面的loss可以简化为:

    由于最初loss前面是有个负号的,所以优化目标是让本简化公式最大,即我们希望左半部分和右半部分的margin越大越好,左半部分的含义是good response相较于没训练之前的累积概率差值,右半部分代表bad response相较于没训练之前的累计概率差值,如果这个差值,即margin变大了,就意味着:

    • 1)左边变大,右边变小,理想情况,good response概率提升,bad response概率下降
    • 2)左边变小,右边更小,good response概率下降,但是bad response概率下降的更多,生成的时候还是倾向于good response
    • 3)左边变的更大,右边只大了一点点,和2)同理

    所以这个loss颇有一种对比的感觉。

    PPO(Proximal Policy Optimization,近端策略优化)

    论文:https://arxiv.org/abs/1707.06347

    详解:https://zhuanlan.zhihu.com/p/677607581

    人人都能看懂的RL-PPO理论知识

    是OpenAI在2017提出的一种强化学习算法,是基于策略优化的算法,用于训练能够最大化累积奖励的智能体。PPO算法通过在每次更新时限制新策略与旧策略之间的差异,从而更稳定地更新策略参数。这种方法有助于避免训练过程中出现的不稳定性和剧烈波动,使得算法更容易收敛并学习到更好的策略。

    强化学习基本概念

    • 强化学习的两个实体:智能体(Agent)环境(Environment)
    • 强化学习中两个实体的交互:
      • 状态空间S:S即为State,指环境中所有可能状态的集合
      • 动作空间A:A即为Action,指智能体所有可能动作的集合
      • 奖励R:R即为Reward,指智能体在环境的某一状态下所获得的奖励。

    以上图为例,智能体与环境的交互过程如下:

    • 在 t 时刻,环境的状态为 St ,达到这一状态所获得的奖励为 Rt
    • 智能体观测到 St 与 Rt ,采取相应动作 At
    • 智能体采取 At 后,环境状态变为 St+1 ,得到相应的奖励 Rt+1

    奖励值 Rt ,它表示环境进入状态 St 下的即时奖励
    但如果只考虑即时奖励,目光似乎太短浅了:当下的状态和动作会影响到未来的状态和动作,进而影响到未来的整体收益。
    所以,一种更好的设计方式是:t时刻状态s的总收益 = 身处状态s能带来的即时收益 + 从状态s出发后能带来的未来收益写成表达式就是:Vt=Rt+γVt+1

    其中:

    • Vt : t 时刻的总收益,注意这个收益蕴涵了“即时”和“未来”的概念
    • Rt : t 时刻的即时收益
    • Vt+1 : t+1 时刻的总收益,注意这个收益蕴涵了“即时”和“未来”的概念。而 Vt+1 对 Vt 来说就是“未来”。
    • γ :折扣因子。它决定了我们在多大程度上考虑将“未来收益”纳入“当下收益”。

    关键概念:

    策略函数是一个 概率密度函数(PDF),输入时当前状态s,输出为一个概率分布,表征每个 action 的概率:

    动作值函数:评价在状态 st 的情况下做出动作 at的好坏程度。

    状态值函数:

    • 消掉了动作 A ,这样 Vπ 只跟状态 s 与策略函数 π 有关了。
    • 给定 π,可以评价当前状态的好坏;给定状态st,可以评价策略 π的好坏。

    优势函数:有些时候我们不需要描述一个行动的绝对好坏,而只需要知道它相对于平均水平的优势。也就是说,我们只想知道一个行动的相对 优势 。这就是优势函数的概念。

    一个服从策略 \pi 的优势函数,描述的是它在状态 s 下采取行为 a 比随机选择一个行为好多少(假设之后一直服从策略 \pi )。数学角度上,优势函数的定义为:

    长期价值可以表示为状态值函数(State Value Function)或动作值函数(Action Value Function)。

    优化方法:

    value-based:优化状态动作值函数Q(s) ,贪心选择(确定性策略) :Q-Learning

    policy-based :直接优化策略函数π(s, a),按概率采样(随机性策略) :REINFORCE

    Actor-Critic •融合上述方法,同时优化Q与π:TRPO、PPO

    NLP中的强化学习

    在第一部分介绍了通用强化学习的流程,那么我们要怎么把这个流程对应到NLP任务中呢?换句话说,NLP任务中的智能体、环境、状态、动作等等,都是指什么呢?

    回想一下我们对NLP任务做强化学习(RLHF)的目的:我们希望给模型一个prompt,让模型能生成符合人类喜好的response。再回想一下gpt模型做推理的过程:每个时刻 t 只产生一个token,即token是一个一个蹦出来的,先有上一个token,再有下一个token。


    复习了这两点,现在我们可以更好解读上面这张图了:

    • 我们先喂给模型一个prompt,期望它能产出符合人类喜好的response
    • 在 t 时刻,模型根据上文,产出一个token,这个token即对应着强化学习中的动作,我们记为At 。因此不难理解,在NLP语境下,强化学习任务的动作空间就对应着词表。
    • 在 t 时刻,模型产出token At对应着的即时收益为Rt,总收益为Vt复习一下, Vt 蕴含着“即时收益”与“未来收益”两个内容)。这个收益即可以理解为“对人类喜好的衡量”。此刻,模型的状态从St变为St+1,也就是从“上文”变成“上文 + 新产出的token”
    • 在NLP语境下,智能体是语言模型本身,环境则对应着它产出的语料

    这样,我们就大致解释了NLP语境下的强化学习框架,不过针对上面这张图,你可能还有以下问题:


    (1)问题1:图中的下标是不是写得不太对?例如根据第一部分的介绍, At 应该对应着 Rt+1  At+1 应该对应着 Rt+2 ,以此类推?
    答:你说的对。但这里我们不用太纠结下标的问题,只需要记住在对应的response token位置,会产生相应的即时奖励和总收益即可。之所以用图中这样的下标,是更方便我们后续理解代码。


    (2)问题2:我知道 At 肯定是由语言模型产生的,那么 ,Rt,Vt 是怎么来的呢,也是语言模型产生的吗?
    答:先直接说结论, At 是由我们的语言模型产生的, ,Rt,Vt 则分别由另外两个模型来产生,在后文中我们会细说。


    (3)问题3:语言模型的参数在什么时候更新?是观测到一个 Rt,Vt ,就更新一次参数,然后再去产生 At+1 吗?
    答:当然不是。你只看到某个时刻的收益,就急着用它更新模型,这也太莽撞了。我们肯定是要等有足够的观测数据了(例如等模型把完整的response生成完),再去更新它的参数。这一点我们也放在后文细说。


    (4)问题4:再谈谈 Rt,Vt 吧,在NLP的语境下我还是不太理解它们
    答:

    • 首先,“收益”的含义是“对人类喜好的衡量”
    • Rt :即时收益,指语言模型当下产生token At 带来的收益
    • Vt : 实际期望总收益(即时+未来),指对语言模型“当下产生token At ,一直到整个response生产结束”后的期收益预估。因为当下语言模型还没产出 At 后的token,所以我们只是对它之后一系列动作的收益做了估计,因而称为“期望总收益”。

    RLHF中的四个重要角色:

    我们从第二部分中已经知道:生成token At 和对应收益 Rt,Vt 的并不是一个模型。那么在RLHF中到底有几个模型?他们是怎么配合做训练的?而我们最终要的是哪个模型?

    如上图,在RLHF-PPO阶段,一共有四个主要模型,分别是:

    • Actor Model:演员模型,这就是我们想要训练的目标语言模型
    • Critic Model:评论家模型,它的作用是预估总收益 Vt
    • Reward Model:奖励模型,它的作用是计算即时收益 Rt
    • Reference Model:参考模型,它的作用是在RLHF阶段给语言模型增加一些“约束”,防止语言模型训歪(朝不受控制的方向更新,效果可能越来越差)

    其中:

    • Actor/Critic Model在RLHF阶段是需要训练的(图中给这两个模型加了粗边,就是表示这个含义);而Reward/Reference Model参数冻结的。
    • Critic/Reward/Reference Model共同组成了一个“奖励-loss”计算体系(我自己命名的,为了方便理解),我们综合它们的结果计算loss,用于更新Actor和Critic Model

    Actor Model (演员模型)

    正如前文所说,Actor就是我们想要训练的目标语言模型。我们一般用SFT阶段产出的SFT模型来对它做初始化。

    我们的最终目的是让Actor模型能产生符合人类喜好的response。所以我们的策略是,先喂给Actor一条prompt (这里假设batch_size = 1,所以是1条prompt),让它生成对应的response。然后,我们再将“prompt + response”送入我们的“奖励-loss”计算体系中去算得最后的loss,用于更新actor。

    Reference Model(参考模型)

    Reference Model(以下简称Ref模型)一般也用SFT阶段得到的SFT模型做初始化,在训练过程中,它的参数是冻结的。Ref模型的主要作用是防止Actor”训歪”,那么它具体是怎么做到这一点的呢?

    “防止模型训歪”换一个更详细的解释是:我们希望训练出来的Actor模型既能达到符合人类喜好的目的,又尽量让它和SFT模型不要差异太大。简言之,我们希望两个模型的输出分布尽量相似。那什么指标能用来衡量输出分布的相似度呢?我们自然而然想到了KL散度

    如图所示:

    • 对Actor模型,我们喂给它一个prompt,它正常输出对应的response。那么response中每一个token肯定有它对应的log_prob结果呀,我们把这样的结果记为log_probs
    • 对Ref模型,我们把Actor生成的”prompt + response”喂给它,那么它同样能给出每个token的log_prob结果,我们记其为ref_log_probs
    • 那么这两个模型的输出分布相似度就可以用ref_log_probs - log_probs来衡量,我们可以从两个方面来理解这个公式:
      • 从直觉上理解,两个分布的相似度越高,说明Ref模型对Actor模型输出的肯定性越大。即Ref模型也认为,对于某个 St ,输出某个 At 的概率也很高( P(At|St) )。这时可以认为Actor模型较Ref模型没有训歪。
      • 从KL散度上理解

    (当然这里不是严格的等于,只是KL散度的近似),这个值越小意味着两个分布的相似性越高。

    注:你可能已经注意到,按照KL散度的定义,这里写成log_probs - ref_log_probs更合适一些。但是如果你看过一些rlhf相关的论文的话,你可能记得在计算损失函数时,有一项Rt−KL散度 (对这个有疑惑不要紧,我们马上在后文细说),即KL散度前带了负号,所以这里我写成ref_log_probs - log_probs这样的形式,更方便大家从直觉上理解这个公式。

    现在,我们已经知道怎么利用Ref模型和KL散度来防止Actor训歪了。KL散度将在后续被用于loss的计算,我们在后文中会详细解释。

    Critic Model(评论家模型)

    Critic Model用于预测期望总收益 Vt ,和Actor模型一样,它需要做参数更新。实践中,Critic Model的设计和初始化方式也有很多种,例如和Actor共享部分参数、从RW阶段的Reward Model初始化而来等等。我们讲解时,和deepspeed-chat的实现保持一致:从RW阶段的Reward Model初始化而来。


    你可能想问:训练Actor模型我能理解,但我还是不明白,为什么要单独训练一个Critic模型用于预测收益呢?
    这是因为,当我们在前文讨论总收益 Vt (即时 + 未来)时,我们是站在上帝视角的,也就是这个 Vt 就是客观存在的、真正的总收益。但是我们在训练模型时,就没有这个上帝视角加成了,也就是在 t 时刻,我们给不出客观存在的总收益 Vt ,我们只能训练一个模型去预测它。


    所以总结来说,在RLHF中,我们不仅要训练模型生成符合人类喜好的内容的能力(Actor),也要提升模型对人类喜好量化判断的能力(Critic)。这就是Critic模型存在的意义。我们来看看它的大致架构:

    deepspeed-chat采用了Reward模型作为它的初始化,所以这里我们也按Reward模型的架构来简单画画它。你可以简单理解成,Reward/Critic模型和Actor模型的架构是很相似的(毕竟输入都一样),同时,它在最后一层增加了一个Value Head层,该层是个简单的线形层,用于将原始输出结果映射成单一的 Vt 值。

    在图中, Vt 表示Critic模型对 t 时刻及未来(response完成)的收益预估。

     Reward Model(奖励模型)

    Reward Model用于计算生成token At 的即时收益,它就是RW阶段所训练的奖励模型,在RLHF过程中,它的参数是冻结的。


    你可能想问:为什么Critic模型要参与训练,而同样是和收益相关的Reward模型的参数就可以冻结呢?
    这是因为,Reward模型是站在上帝视角的。这个上帝视角有两层含义:

    • 第一点,Reward模型是经过和“估算收益”相关的训练的,因此在RLHF阶段它可以直接被当作一个能产生客观值的模型。
    • 第二点,Reward模型代表的含义就是“即时收益”,你的token At 已经产生,因此即时收益自然可以立刻算出。

    你还可能想问:我已经用Critic预测出 Vt 了,而这个 Vt 包含了“即时”和“未来”的概念,那我还需要代表“即时”的 Rt 做什么呢?直接用 Vt 不就好了吗?


    为了解答这个问题,我们先回顾下1.2部分中给出的价值函数: Vt=Rt+γVt+1
    这个函数告诉我们,我们当前可以用两个结果来表示 t 时刻的总收益:

    • 结果1:Critic模型预测的 Vt
    • 结果2:Reward模型预测的 Rt 和critic模型预测的 Vt+1

    那么哪一个结果更靠近上帝视角给出的客观值呢?当然是结果2,因为结果1全靠预测,而结果2中的 Rt 是事实数据。
    我们知道Critic模型也是参与参数更新的,我们可以用MSE(上帝视角的客观收益-Critic模型预测的收益)来衡量它的loss。但是上帝视角的客观收益我们是不知道的,只能用已知事实数据去逼近它,所以我们就用 Rt+γ∗Vt+1 来做近似。这就是 Rt,Vt 同时存在的意义

    Reward模型和critic模型非常相似,这里我们就只给出架构图,不再做过多的说明。

    RLHF中的loss计算

    到目前为止,我们已经基本了解了RLHF的训练框架,以及其中的四个重要角色(训练一个RLHF,有4个模型在硬件上跑,可想而知对存储的压力)。在本节中,我们一起来解读RLHF的loss计算方式。在解读中,我们会再一次理一遍RLHF的整体训练过程,填补相关细节。在这之后,我们就可以来看代码解析了。


    在第三部分的讲解中,我们知道Actor和Critic模型都会做参数更新,所以我们的loss也分成2个:

    • Actor loss:用于评估Actor是否产生了符合人类喜好的结果,将作用于Actor的BWD上。
    • Critic loss:用于评估Critic是否正确预测了人类的喜好,将作用于Critic的BWD上。

    我们详细来看这两者。

    Actor loss

    (1)直观设计

    我们先来看一个直观的loss设计方式:

    • Actor接收到当前上文 St ,产出token At ( P(At|St) )
    • Critic根据 St,At ,产出对总收益的预测 Vt
    • 那么Actor loss可以设计为: 

    求和符号表示我们只考虑response部分所有token的loss,为了表达简便,我们先把这个求和符号略去(下文也是同理),也就是说:

    我们希望minimize这个actor_loss。


    这个设计的直观解释是:

    • 当 Vt>0 时,意味着Critic对Actor当前采取的动作给了正向反馈,因此我们就需要在训练迭代中提高 P(At|St) ,这样就能达到减小loss的作用。
    • 当 Vt<0 时,意味着Critic对Actor当前采取的动作给了负向反馈,因此我们就需要在训练迭代中降低 P(At|St) ,这样就能到达到减小loss的作用。

    一句话总结:这个loss设计的含义是,对上文 St 而言,如果token At 产生的收益较高,那就增大它出现的概率,否则降低它出现的概率。

    (2)引入优势(Advantage)

    在开始讲解之前,我们举个小例子:
    假设在王者中,中路想支援发育路,这时中路有两种选择:1. 走自家野区。2. 走大龙路。
    中路选择走大龙路,当她做出这个决定后,Critic告诉她可以收1个人头。结果,此刻对面打野正在自家采灵芝,对面也没有什么苟草英雄,中路一路直上,最终收割2个人头。
    因为实际收割的人头比预期要多1个,中路尝到了甜头,所以她增大了“支援发育路走大龙路”的概率。
    这个多出来的“甜头”,就叫做“优势”(Advantage)。


    对NLP任务来说,如果Critic对 At 的总收益预测为 Vt ,但实际执行 At 后的总收益是 Rt+γ∗Vt+1 ,我们就定义优势为:

    我们用 Advt 替换掉 Vt ,则此刻actor_loss变为:

    (3)重新设计 Rt

    总结一下,到目前为止,我们的actor_loss形式为:

    同时注意,这个actor_loss应该是response的所有token loss的sum或者avg。这里为了表达方便,我们的公式略去了求和或求平均的符号。

    按照这个理解, Rt 应该表示每个Actor产出token At 带来的即时收益,正如下图所示(其中 T 表示最后一个时刻):

    但在deepspeed-chat的RLHF实践中,对 Rt 做了另一种设计:

    基于这些,上面这个对 Rt 的设计可理解成:

    • t≠T时,我们更加关心Actor是否有在Ref的约束下生产token At
    • $ t=T时,我们不仅关心Actor是否遵从了Ref的约束,也关心真正的即时收益Rt


    为什么只有最后一个时刻的 Rt 被纳入了考量呢?这是因为在Reward模型训练阶段,就是用这个位置的 Rt 来表示对完整的prompt + response的奖励预测(但不妨碍你理解成是执行完 AT 的即时奖励),然后用这个指标来做模型eval的(但是Reward训练阶段算loss时,还是考虑了response部分所有token输出的reward值)。所以到了RLHF的场景下,其余时刻的即时奖励,我们就用“Actor是否遵循了Ref的约束”来进行评价。


    需要注意的是, Rt 的设计并不只有这一种。deepspeed在自己的代码注释中也有提过,可以尝试把最后一个时刻的 RT 替换成所有token的即时奖励的平均值。如果站在这个角度理解的话,我们同样也可以尝试在每一个位置的奖励衡量上引入 Rt 。

    代码实践如下:

    def compute_rewards(self, prompts, log_probs, ref_log_probs, reward_score,
                            action_mask):
            """
            reward_function:计算最终的reward分数
            复习一下几个相关参数的默认值:
            self.kl_ctl = 0.1
            self.clip_reward_value = 5
            
            对于batch中的某个prompt来说,它最终的reward分数为:
            (1) 先计算actor和ref_model的logit相似度: -self.kl_ctl * (log_probs - ref_log_probs)
                其实写成self.kl_ctl * (ref_log_probs - log_probs)更好理解些
                这个值越大,说明ref_model对actor生成的结果的认可度越高(即表明rlhf没有训歪),
                没有训歪的情况下我们也应该给模型一些奖励,这个奖励就是self.kl_ctl * (ref_log_probs - log_probs)
                
            (2)由于我们只取最后一个token对应位置的分数作为reward_score,因此我们只需要:
                self.kl_ctl * (ref_log_probs - log_probs)的最后一位 + reward_score
             
             (3) 同时我们对reward_score也做了大小限制,最大不超过self.clip_reward_value(超过统一给成self.clip_reward_value),
                 最小不低于-self.clip_reward_value(低于统一给成-self.clip_reward_value)
            
             (4) 最后返回的rewards大小为:(batch_size, 各条数据的长度),对batch中的每条数据来说:
                 - response的最后一位:self.kl_ctl * (ref_log_probs - log_probs)的最后一位 + reward_score
                 - response的其余位置:self.kl_ctl * (ref_log_probs - log_probs)
            
            """
    
            kl_divergence_estimate = -self.kl_ctl * (log_probs - ref_log_probs)
            rewards = kl_divergence_estimate
            # ---------------------------------------------------------------------------------------------------
            # response开始的位置
            # (因为我们对prompt做过padding处理,因此batch中每个prompt长度一致,也就意味着每个response开始的位置一致)
            # (所以这里start是不加s的,只是一个int)
            # ---------------------------------------------------------------------------------------------------
            start = prompts.shape[1] - 1
            # ---------------------------------------------------------------------------------------------------
            # response结束的位置
            # (因为一个batch中,每个response的长度不一样,所以response的结束位置也不一样)
            # (所以这里end是加s的,ends的尺寸是(batch_size,)
            # ---------------------------------------------------------------------------------------------------
            ends = start + action_mask[:, start:].sum(1) + 1
            # ---------------------------------------------------------------------------------------------------
            # 对rewards_score做限制
            # ---------------------------------------------------------------------------------------------------
            reward_clip = torch.clamp(reward_score, -self.clip_reward_value,
                                      self.clip_reward_value)
            batch_size = log_probs.shape[0]
            for j in range(batch_size):
                rewards[j, start:ends[j]][-1] += reward_clip[j] # 
    
            return rewards

    (4)重新设计优势

    好,再总结一下,目前为止我们的actor_loss为:

    同时,我们对 Rt 进行来改造,使其能够衡量Actor模型是否遵从了Ref模型的约束。
    现在我们把改造焦点放在 Advt 上,回想一下,既然对于收益而言,分为即时和未来,那么对于优势而言,是不是也能引入对未来优势的考量呢?这样,我们就可以把 Advt 改写成如下形式:


    (熟悉强化学习的朋友应该能一眼看出这是GAE,这里我们不打算做复杂的介绍,一切都站在直觉的角度理解)
    其中,新引入的 λ 也是一个常量,可将其理解为权衡因子,直觉上看它控制了在计算当前优势时对未来优势的考量。(从强化学习的角度上,它控制了优势估计的方差和偏差)

    看到这里,你可能想问:这个代表未来优势的 Advt+1 ,我要怎么算呢?
    注意到,对于最后一个时刻 t ,它的未来收益( VT+1 )和未来优势( AdvT+1 )都是0,也就是 AdvT=RT−VT ,这是可以直接算出来的。而有了 AdvT ,我们不就能从后往前,通过动态规划的方法,把所有时刻的优势都依次算出来了吗?

    代码实践如下(其中返回值中的returns表示实际收益,将被用于计算Critic模型的loss,可以参见4.2,其余细节都在代码注释中):

     def get_advantages_and_returns(self, values, rewards, start):
            """
            Adopted from https://github.com/CarperAI/trlx/blob/main/trlx/models/modeling_ppo.py#L134
            
            没有引入GAE前的t时刻的优势值:
            detal_t = r_t + gamma * V_t+1 - V_t
            其中:
                - r_t表示t时刻的即时收益
                - V_t+1表示未来时刻的预期收益
                - r_t + gamma * V_t+1可理解成t时刻的实际预期收益
                - V_t可理解成t时刻的预估预期收益(是模型,例如critic model自己估算出来的)
            
            引入GAE后的t时刻的优势值:
            A_t = delta_t + gamma * lambda * A_t+1
            粗暴理解为在t时刻时,不仅考虑当下优势,还考虑了未来的优势
            为了知道A_t, 我们得知道A_t+1,所以在本算法中采取了从后往前做动态规划求解的方法,也即:
            假设T是最后一个时刻,则有A_T+1 = 0, 所以有: A_T = delta_T
            知道了A_T, 就可以依次往前倒推,把A_t-1, A_t-2之类都算出来了
            
            引入GAE后t时刻的实际预期收益
            returns_t = A_t + V_t
                      = delta_t + gamma * lambda * A_t+1 + V_t
                      = r_t + gamma * V_t+1 - V_t + gamma * lambda * A_t+1 + V_t
                      = r_t + gamma * (V_t+1 + lambda * A_t+1)
            
            注意,这里不管是advantages还是returns,都只算response的部分
            """
            
            # Adopted from https://github.com/CarperAI/trlx/blob/main/trlx/models/modeling_ppo.py#L134
            lastgaelam = 0
            advantages_reversed = []
            length = rewards.size()[-1]
            # 注意这里用了reversed,是采取从后往前倒推计算的方式
            for t in reversed(range(start, length)):
                nextvalues = values[:, t + 1] if t < length - 1 else 0.0
                delta = rewards[:, t] + self.gamma * nextvalues - values[:, t]
                lastgaelam = delta + self.gamma * self.lam * lastgaelam
                advantages_reversed.append(lastgaelam)
            advantages = torch.stack(advantages_reversed[::-1], dim=1) # 优势
            returns = advantages + values[:, start:] # 实际收益
            # values: 预期收益
            return advantages.detach(), returns

    (5)PPO-epoch: 引入新约束

    总结一下,目前为止我们的actor_loss为:

    同时

    • 我们已经对Rt进行来改造,使其能够衡量Actor模型是否遵从了Ref模型的约束。
    • 我们已经对Advt进行改造,使其不仅考虑了当前时刻的优势,还考虑了未来的优势

    基于这些改造,我们重新理一遍RLHF-PPO的训练过程。

    • 第一步,我们准备一个batch的prompts
    • 第二步,我们将这个batch的prompts喂给Actor模型,让它生成对应的responses
    • 第三步,我们把prompt+responses喂给我们的Critic/Reward/Reference模型,让它生成用于计算actor/critic loss的数据,按照强化学习的术语,我们称这些数据为经验(experiences)。critic loss我们将在后文做详细讲解,目前我们只把目光聚焦到actor loss上
    • 第四步,我们根据这些经验,实际计算出actor/critic loss,然后更新Actor和Critic模型

    这些步骤都很符合直觉,但是细心的你肯定发现了,文字描述中的第四步和图例中的第四步有差异:图中说,这一个batch的经验值将被用于n次模型更新,这是什么意思呢?

    我们知道,在强化学习中,收集一个batch的经验是非常耗时的。对应到我们RLHF的例子中,收集一次经验,它要等四个模型做完推理才可以,正是因此,一个batch的经验,只用于计算1次loss,更新1次Actor和Critic模型,好像有点太浪费了。

    所以,我们自然而然想到,1个batch的经验,能不能用来计算ppo-epochs次loss,更新ppo-epochs次Actor和Critic模型?简单写一下伪代码,我们想要:

    # --------------------------------------------------------------
    # 初始化RLHF中的四个模型
    # --------------------------------------------------------------
    actor, critic, reward, ref = initialize_models()
    
    # --------------------------------------------------------------
    # 训练
    # --------------------------------------------------------------
    # 对于每一个batch的数据
    for i in steps: 
        # 先收集经验值
        exps = generate_experience(prompts, actor, critic, reward, ref)
        # 一个batch的经验值将被用于计算ppo_epochs次loss,更新ppo_epochs次模型
        # 这也意味着,当你计算一次新loss时,你用的是更新后的模型
        for j in ppo_epochs:
            actor_loss = cal_actor_loss(exps, actor)
            critic_loss = cal_critic_loss(exps, critic)
            
            actor.backward(actor_loss)
            actor.step()
            
            critc.backward(critic_loss)
            critic.step()

    而如果我们想让一个batch的经验值被重复使用ppo_epochs次,等价于我们想要Actor在这个过程中,模拟和环境交互ppo_epochs次。举个例子:

    • 如果1个batch的经验值只使用1次,那么在本次更新完后,Actor就吃新的batch,正常和环境交互,产出新的经验值
    • 但如果1个batch的经验值被使用ppo_epochs次,在这ppo_epochs中,Actor是不吃任何新数据,不做任何交互的,所以我们只能让Actor“模拟”一下和环境交互的过程,吐出一些新数据出来。

    那怎么让Actor模拟呢?很简单,让它观察一下之前的数据长什么样,让它依葫芦画瓢,不就行了吗?我们假设最开始吃batch,吐出经验的actor叫 Actorold ,而在伪代码中,每次做完ppo_epochs而更新的actor叫 Actornew ,那么我们只要尽量保证每次更新后的 Actornew 能模仿最开始的那个 Actorold ,不就行了吗?

    诶!是不是很眼熟!两个分布,通过什么方法让它们相近!那当然是KL散度!所以,再回到我们的actor_loss上来,它现在就可被改进成:

    我们再稍作一些改动将log去掉(这个其实不是“稍作改动去掉log”的事,是涉及到PPO中重要性采样的相关内容,大家有兴趣可以参考这篇):

    其中, Pold 表示真正吃了batch,产出经验值的Actor;P表示ppo_epochs中实时迭代更新的Actor,它在模仿 Pold 的行为。所以这个公式从直觉上也可以理解成:在Actor想通过模拟交互的方式,使用一个batch的经验值更新自己时,它需要收到真正吃到batch的那个时刻的Actor的约束,这样才能在有效利用batch,提升训练速度的基础上,保持训练的稳定。

    但是,谨慎的你可能此时又有新的担心了:虽然我们在更新Actor的过程中用 Actorold 做了约束,但如果 Actorold 的约束能力不够,比如说 P(At|St)/Pold(At|St) 还是超出了可接受的范围,那怎么办?

    很简单,那就剪裁(clip)它吧!

    我们给 P(At|St)/Pold(At|St) 设置一个范围,例如(0.8 ,1.2),也就是如果这个值一旦超过1.2,那就统一变成1.2;一旦小于0.8,那就统一变成0.8。这样就能保证 Actor 和 Actorold 的分布相似性在我们的掌控之内了。此时actor_loss变为:

    这时要注意,如果超过变化范围,将 P(At|St)/Pold(At|St) 强制设定为一个常数后,就说明这一部分的loss和Actor模型无关了,而 Advt 这项本身也与Actor无关。所以相当于,在超过约束范围时,我们停止对Actor模型进行更新。

    整体代码如下:

        def actor_loss_fn(self, logprobs, old_logprobs, advantages, mask):
            """
            logprobs: 实时计算的,response部分的prob(只有这个是随着actor实时更新而改变的)
            old_logprobs:老策略中,response部分的prob (这个是固定的,不随actor实时更新而改变)
            advantages: 老策略中,response部分每个token对应的优势(这个是固定的,不随actor实时更新而改变)
            mask:老策略中,response部分对应的mask情况这个是固定的,不随actor实时更新而改变)
            
            之所以要引入logprobs计算actor_loss,是因为我们不希望策略每次更新的幅度太大,防止模型训歪
            
            self.cliprange: 默认值是0.2
            """
            ## policy gradient loss
            # -------------------------------------------------------------------------------------
            # 计算新旧策略间的KL散度
            # -------------------------------------------------------------------------------------
            log_ratio = (logprobs - old_logprobs) * mask
            ratio = torch.exp(log_ratio)
            # -------------------------------------------------------------------------------------
            # 计算原始loss和截断loss
            # -------------------------------------------------------------------------------------
            pg_loss1 = -advantages * ratio
            pg_loss2 = -advantages * torch.clamp(ratio, 1.0 - self.cliprange, 1.0 + self.cliprange)
            pg_loss = torch.sum(torch.max(pg_loss1, pg_loss2) * mask) / mask.sum() # 最后是取每个非mask的response token的平均loss作为最终loss
            return pg_loss
    
    

    (6)Actor loss小结

    (1)~(5)中我们一步步树立了actor_loss的改进过程,这里我们就做一个总结吧:

    • 我们已经对Rt进行来改造,使其能够衡量Actor模型是否遵从了Ref模型的约束
    • 我们已经对Advt进行改造,使其不仅考虑了当前时刻的优势,还考虑了未来的优势
    • 我们重复利用了1个batch的数据,使本来只能被用来做1次模型更新的它现在能被用来做ppo_epochs次模型更新。我们使用真正吃了batch,产出经验值的那个时刻的Actor分布来约束ppo_epochs中更新的Actor分布
    • 我们考虑了剪裁机制(clip),在ppo_epochs次更新中,一旦Actor的更新幅度超过我们的控制范围,则不对它进行参数更新。

    Critic loss

    我们知道,1个batch产出的经验值,不仅被用来更新Actor,还被用来更新Critic。对于Critic loss,我们不再像Actor loss一样给出一个“演变过程”的解读,我们直接来看它最后的设计。

    首先,在之前的解说中,你可能有这样一个印象:

    • Vt :Critic对t时刻的总收益的预估,这个总收益包含即时和未来的概念(预估收益)
    • Rt+γ∗Vt+1 :Reward计算出的即时收益 Rt ,Critic预测出的 t+1 及之后时候的收益的折现,这是比 Vt 更接近t时刻真值总收益的一个值(实际收益)

    所以,我们的第一想法是:

    现在,我们对“实际收益”和“预估收益”都做一些优化。

    (1)实际收益优化

    我们原始的实际收益为 Rt+γ∗Vt+1 ,但是当我们在actor_loss中引入“优势”的概念时,“优势”中刻画了更为丰富的实时收益信息,所以,我们将实际收益优化为: Advt+Vt

    (2)预估收益优化

    我们原始的预估收益为 Vt 。
    类比于Actor,Critic模型在ppo_epochs的过程中也是不断更新的。所以这个 Vt 可以理解成是 Criticold ,也就是真正吃了batch,参与产出经验的那个时候的Critic产出的收益预测结果。


    我们同样想用旧模型去约束新模型,但对于Critic我们采用的约束策略就比较简单了,我们直接看代码,从中可以看出,我们用老 Vt 设计了了一个变动范围,然后用这个变动范围去约束新 Vt

    # self.cliprange_value是一个常量
    # old_values: 老critic的预测结果
    # values:新critic的预测结果
    values_clipped = torch.clamp(
                values,
                old_values - self.cliprange_value,
                old_values + self.cliprange_value,
            )

    那么最终我们就取实际收益和预估收益的MSE做为loss就好,这里注意,计算实际收益时 Advt,Vt 都是老Critic(真正吃了batch的那个)产出的结果,而预估收益是随着ppo_epochs而变动的。


    代码如下:

    def critic_loss_fn(self, values, old_values, returns, mask):
            """
            values: 实时critic跑出来的预估预期收益(是变动的,随着ppo epoch迭代而改变)
            old_values:老critic跑出来的预估预期收益(是固定值)
            returns:实际预期收益
            mask:response部分的mask
            
            self.cliprange_value = 0.2
            """
            ## value loss
            # 用旧的value去约束新的value
            values_clipped = torch.clamp(
                values,
                old_values - self.cliprange_value,
                old_values + self.cliprange_value,
            )
            if self.compute_fp32_loss:
                values = values.float()
                values_clipped = values_clipped.float()
            
            # critic模型的loss定义为(预估预期收益-实际预期收益)**2
            vf_loss1 = (values - returns)**2
            vf_loss2 = (values_clipped - returns)**2
            vf_loss = 0.5 * torch.sum(
                torch.max(vf_loss1, vf_loss2) * mask) / mask.sum() # 同样,最后也是把critic loss平均到每个token上
            return vf_loss

    PPO优化目标

    (1)策略梯度算法:更新幅度大,不稳定

    (2)TRPO(信任区域算法):加入KL散度约束条件,但需计算二阶导数,计算量大

    (3)PPO(近端策略优化算法):

    这里At为优势函数:Critic Model用于估计状态的价值函数 V(st),从而计算策略梯度中的优势值A(t),下面的 r(st,at) 函数就是 RM 模型的输出: 用于计算生成某个token的即时收益 。 下图转换参考:https://zhuanlan.zhihu.com/p/651780908

    PPO训练流程

    • Actor Model:要训练的目标语言模型,策略网络
    • Critic Model:预估总收益
    • Reward Model:计算即时收益
    • Reference Model:在RLHF阶段给语言模型增加一些“约束”,防止语言模型训偏

    ColossalChat RLFH过程也是非常接近ChatGPT的RLFH过程,RLFH过程主要涉及四个模型分别是Actor、Critic、RM、STF,损失函数也是由三个损失函数组成分别是策略损失、价值损失和 PTX 损失。

    ColossalChat RLFH过程

    策略损失函数计算:

    策略损失计算过程

    通过instruction dataset数据训练STF模型,通过计算sft model的logits和actor model(没有经过sft的model)的logits计算kl散度,然后加上reward model的打分变成 reward R奖励值,避免太过偏向reward model加入和sft model的kl散度,同时也避免强化学习将actor模型训歪。

    这样做的目的就是避免模型训飞,让模型更新保持在一个小范围内。

    价值损失函数计算:

    上式R是reward model和sft model计算出来的反馈分数,V(s)是Critic Model输出的价值分数。主要是衡量reward分数和价值函数分数的均方误差。

    ptx的损失计算:

    计算Actor输出response和输入语料的回答部分的交叉熵损失函数,用来在PPO梯度中加入预训练梯度,以保持语言模型原有性能防止遗忘。这个就是instruct gpt论文中在强化学习中加入预训练梯度以防过度拟合ppo数据带来nlp通用任务能力的下降操作。

    总的强化学习损失计算:

    为什么RLHF中,PPO需要Critic模型而不是直接使用RewardModel

    在强化学习中,PPO(Proximal Policy Optimization)算法是一种基于策略梯度的方法,用于训练强化学习智能体。PPO算法中引入Critic模型的主要目的是为了提供一个价值估计器,用于评估状态或状态动作对的价值,从而辅助策略的更新和优化。

    虽然奖励模型(Reward Model)可以提供每个状态或状态动作对的即时奖励信号,但它并不能直接提供对应的价值估计。奖励信号只反映了当前动作的即时反馈,而并没有提供关于在长期时间尺度上的价值信息。

    Critic模型的作用是估计状态或状态动作对的长期价值,也称为状态值函数或动作值函数。Critic模型能够学习和预测在当前状态下采取不同动作所获得的累积奖励,它提供了对策略改进的指导。PPO算法使用Critic模型的估计值来计算优势函数,从而调整策略的更新幅度,使得更有利于产生更高长期回报的动作被选择。

    另外,Critic模型还可以用于评估不同策略的性能,为模型的评估和选择提供依据。PPO算法中的Actor-Critic架构允许智能体同时学习策略和价值函数,并通过协同训练来提高性能。

    因此,在RLHF(Reinforcement Learning from Human Feedback)中,PPO算法需要Critic模型而不是直接使用奖励模型,是为了提供对状态或状态动作对的价值估计,并支持策略的改进和优化。Critic模型的引入可以提供更全面和准确的信息,从而增强算法的训练效果和学习能力。

    即时奖励 与 状态动作对的长期价值 的差别是什么?

    即时奖励(Immediate Reward)和状态动作对的长期价值(Long-Term Value)代表了强化学习中不同的概念和时间尺度。

    即时奖励是指智能体在执行某个动作后立即获得的反馈信号。它通常由环境提供,用于表示当前动作的好坏程度。即时奖励是一种即时反馈,可以指示当前动作的立即结果是否符合智能体的目标。

    而状态动作对的长期价值涉及更长时间尺度上的评估,它考虑了智能体在当前状态下选择不同动作所导致的未来回报的累积。长期价值可以表示为状态值函数(State Value Function)或动作值函数(Action Value Function)。

    状态值函数(V-function)表示在给定状态下,智能体从该状态开始执行一系列动作,然后按照某个策略进行决策,从而获得的预期累积回报。状态值函数估计了智能体处于某个状态时所能获得的长期价值,反映了状态的优劣程度

    动作值函数(Q-function)则表示在给定状态下,智能体选择某个动作后,按照某个策略进行决策,从该状态转移到下一个状态并获得预期累积回报的价值。动作值函数估计了在给定状态下采取不同动作的长期价值,可以帮助智能体选择在每个状态下最优的动作

    长期价值考虑了智能体在未来的决策过程中所能获得的累积回报,相比之下,即时奖励只提供了当前动作的即时反馈。长期价值对智能体的决策具有更全面的影响,可以帮助智能体更好地评估当前状态和动作的长期效果,并指导智能体在长期时间尺度上作出更优的决策。

    在强化学习中,长期价值的估计对于确定性策略选择和价值优化非常重要,而即时奖励则提供了对当前动作的直接反馈。这两者相互补充,结合起来可以帮助智能体实现更好的决策和学习效果。

    PPO中优势函数指什么

    在Proximal Policy Optimization(PPO)算法中,优势函数(Advantage Function)用于评估状态-动作对的相对优劣程度。它衡量了执行某个动作相对于平均水平的优劣,即在给定状态下采取某个动作相对于采取平均动作的效果。

    优势函数可以用以下方式定义:Advantage(s, a) = Q(s, a) - V(s)

    其中,Advantage(s, a)表示在状态 s 下采取动作 a 的优势函数值,Q(s, a) 表示状态动作对 (s, a) 的动作值函数(也称为动作优势函数),V(s) 表示状态值函数。

    优势函数的作用在于帮助评估当前动作的相对价值,以便在策略更新过程中确定应采取的动作。通过比较不同动作的优势函数值,可以决定哪些动作是更好的选择。正的优势函数值表示执行的动作比平均水平更好,而负的优势函数值表示执行的动作比平均水平更差。

    在PPO算法中,优势函数用于计算策略更新的目标,以便调整策略概率分布来提高优势函数为正的动作的概率,并降低优势函数为负的动作的概率,从而改进策略的性能。

    总而言之,优势函数在PPO算法中用于评估状态-动作对的相对优劣,帮助确定应该采取的动作,并在策略更新过程中引导策略向更优的方向调整。

    GRPO (Group Relative Policy Optimization)

    ORPO偏好优化(Odds Ratio Preference Optimization)

    ORPO: Monolithic Preference Optimization without Reference Model

    核心: 最大化正样本的生成概率,最小化负样本的生成概率 。相比DPO 【加载2个模型,其中一个推理,另外一个训练,直接在偏好数据上进行训练】,只加载训练模型,直接在偏好数据上进行训练

    本文提出的算法ORPO是对SFT的改进,通过修改SFT阶段的损失函数,将类似于DPO中偏好对齐的思想引入到SFT中,提出一种无需奖励模型和参考模型算法。同时,ORPO只有一阶段,不需要像DPO一样需要先SFT再DPO对齐。在众多大模型任务上的实验结果表明,与SFT,DPO等算法相比,ORPO更有优势。

    本文提出的算法ORPO是对SFT的改进,修改了SFT阶段的损失函数。同时,与DPO/PPO相比,ORPO将原本分两步进行的过程(SFT+DPO/PPO)合并为一步,更加简洁高效。

    现在有许多方法可以使大型语言模型(LLM)与人类偏好保持一致。以人类反馈为基础的强化学习(RLHF)是最早的方法之一,并促成了ChatGPT的诞生,但RLHF的成本非常高。与RLHF相比,DPO、IPO和KTO的成本明显更低,因为它们不需要奖励模型。

    虽然DPO和IPO的成本较低,但它们仍需训练两个不同的模型。首先是监督微调(SFT)步骤,即训练模型按指令回答问题,然后使用SFT模型作为初始化和参考,以使模型与人类偏好一致。

    ORPO是另一种新的LLM对齐方法,这种方法甚至不需要SFT模型。通过ORPO,LLM可以同时学习回答指令和满足人类偏好。

    对于STF,它是在与选择的答案配对的提示上进行训练的。用于sft的数据集可以与偏好优化使用的相同,但不包括”被拒绝”的答案。所以可以直观地认为,应该能够微调一个基础LLM,使其在学习如何回答指令的同时,也学会惩罚和偏好某些答案。

    SFT只用正样本更新策略,没有考虑到负样本,会把负样本生成的概率同时拉高,如下图所示:

    由于SFT的损失函数对于rejected data没有惩罚项,SFT之后正样本和负样本的生成概率有可能同时上升。

    odds定义:模型θ生成 输出序列y的可能性 比 不生成y序列的可能性 比值。

    OR为正负样本的odds的比值:

    ORPO算法要做的就是最大化OR,即最大化正样本的生成概率,最小化负样本的生成概率,LOR项用了和DPO类似的logsigmoid的形式:

    ORPO就是在这个理论基础上建立的,ORPO简单地通过添加负对数似然损失与OR损失(OR代表奇异比)来修改训练损失:

    OR损失对被拒绝的答案进行弱惩罚,而对选择的答案进行强有力的奖励。这里包含了一个超参数lambda用于加权OR损失。通过ORPO的损失,模型在学习了SFT期间的内容的同时,也学会了人类偏好。

    ORPO需要数千个训练步骤来学习如何区分选择的响应和拒绝的响应。为了获得类似的结果,应该训练ORPO至少2000步,总批大小为64(如论文所述)。

    ORPO 已经可以在Hugging Face库上使用了,并且它因为只修改了损失函数,所以可以很好的与现有的Lora方法集成

    ORPO是一种单步微调和对准指令llm的新方法。它不需要任何奖励或SFT模型,并且ORPO比DPO和RLHF更简单。根据论文ORPO的性能与DPO相当或略好。但是ORPO需要几千个训练步骤来学习好的和坏的反应之间的区别。

    SimPO 简单偏好优化:

    算法的核心是将偏好优化目标中的奖励函数与生成指标对齐不需要ref参考模型

    SimPO 包含两个主要组件:(1)在长度上归一化的奖励【/|y|】,其计算方式是使用策略模型的奖励中所有 token 的平均对数概率;(2)目标奖励差额 γ ,用以确保获胜和失败响应之间的奖励差超过这个差额 γ 。

    DPO 是最常用的离线偏好优化方法之一。DPO 并不会学习一个显式的奖励模型,而是使用一个带最优策略的闭式表达式来对奖励函数 r 进行重新参数化:

    其中 π_θ 是策略模型,π_ref 是参考策略(通常是 SFT 模型),Z (x) 是配分函数。通过将这种奖励构建方式整合进 Bradley-Terry (BT) 排名目标,DPO 可使用策略模型而非奖励模型来表示偏好数据的概率,从而得到以下目标:

    DPO 的奖励与生成之间的差异。使用 (1) 式作为隐式的奖励表达式有以下缺点:(1) 训练阶段需要参考模型 π_ref,这会带来额外的内存和计算成本;(2) 训练阶段优化的奖励与推理所用的生成指标之间存在差异。具体来说,在生成阶段,会使用策略模型 π_θ 生成一个能近似最大化平均对数似然的序列,定义如下:

    在解码过程中直接最大化该指标是非常困难的,为此可以使用多种解码策略,如贪婪解码、波束搜索、核采样和 top-k 采样。此外,该指标通常用于在语言模型执行多选任务时对选项进行排名。在 DPO 中,对于任意三元组 (x, y_w, y_l),满足奖励排名 r (x, y_w) > r (x, y_l) 并不一定意味着满足似然排名:

    图片

    事实上,在使用 DPO 训练时,留存集中大约只有 50% 的三元组满足这个条件。

    构建在长度上归一化的奖励。很自然地,我们会考虑使用 (3) 式中的 p_θ 来替换 DPO 中的奖励构建,使其与引导生成的似然指标对齐。这会得到一个在长度上归一化的奖励:

    其中 β 是控制奖励差异大小的常量。该团队发现,根据响应长度对奖励进行归一化非常关键;从奖励公式中移除长度归一化项会导致模型倾向于生成更长但质量更低的序列。这样一来,构建的奖励中就无需参考模型了,从而实现比依赖参考模型的算法更高的内存和计算效率。

    SimPO 目标

    目标奖励差额。另外,该团队还为 Bradley-Terry 目标引入了一个目标奖励差额项 γ > 0,以确保获胜响应的奖励 r (x, y_w) 超过失败响应的奖励 r (x, y_l) 至少 γ

    两个类之间的差额已知会影响分类器的泛化能力。在使用随机模型初始化的标准训练设置中,增加目标差额通常能提升泛化性能。在偏好优化中,这两个类别是单个输入的获胜或失败响应。

    在实践中,该团队观察到随着目标差额增大,生成质量一开始会提升,但当这个差额变得过大时,生成质量就会下降。DPO 的一种变体 IPO 也构建了与 SimPO 类似的目标奖励差额,但其整体目标的效果不及 SimPO。

    目标。最后,通过将 (4) 式代入到 (5) 式中,可以得到 SimPO 目标:

    总结起来,SimPO 采用了与生成指标直接对齐的隐式奖励形式,从而消除了对参考模型的需求。此外,其还引入了一个目标奖励差额 γ 来分离获胜和失败响应

    KTO:Kahneman-Tversky Optimisation

    特点:

    KTO关注的是答案偏离平均水准的程度——比平均好还是坏。所以它的训练数据集是对单个问答的“好/差”标注,而不再是成对数据间谁好谁差(所以用户对LLM结果的点赞或踩就可以当做反馈使用了)。

    KTO不需要偏好数据,可以直接利用二元信号标记的数据来训练算法,对于负样本更加敏感。 KTO并不需要一个数据对,只需要对生成的结果进行good/bad的二元标注即可。 【比如:ChatGPT UI 界面会输出两个答案,用户可以选择哪个更好,适用于从生产环境中运行的聊天模型的训练】

    实验表明,KTO算法在一定参数范围内能够超过DPO算法,并且KTO可以处理数据正负样本不平衡的情况。同时,在跳过SFT阶段的情况下,直接使用KTO相比于直接使用 DPO,效果有很大提升。在数据正负样本比例失衡/偏好数据有非传递性/偏好数据有噪声/的情况下,使用KTO可能是更好的选择。

    KTO 使用 Kahneman-Tversky 人类效用模型,论文提出直接最大化生成效用的 HALO, 而不是最大化偏好的对数可能性。

    • 在1B~30B尺度上与基于偏好的方法的性能相匹配或超过,尽管它只从二进制信号(0或者1)中学习输出是否可取。
    • 没有一个 HALO 普遍优越;
    • 最佳损失取决于最适合给定设置的归纳偏差,经常被忽视的考虑因素。

    KTO算法的具体步骤如下:

    1. 定义效用函数:根据前景理论中的效用函数公式,定义一个效用函数,用于计算模型输出相对于参考点的效用。
    2. 计算参考点:根据概率分布Q(X’, Y’ | x, y),计算出一个参考点,用于衡量模型输出的效用。
    3. 计算模型输出的效用:对于每个输入,计算模型输出相对于参考点的收益或损失,然后使用效用函数计算这些收益或损失的效用。
    4. 优化模型参数:优化模型参数以最大化模型输出的总效用。

    KTO 损失函数本质是把 pair-wise 公式变成 point-wise 方式,结合了HALOs以及二元信号数据的思想提出使用Kahneman-Tversky 优化的KTO算法:

    其中 zo是KL散度项,参考点zo为最优策略下reward的期望值,最终可以推导成KL散度的形式,y’表示任意输出,在实际训练中,Z0表示batch平均水准的程度Z0当前batch里面的样本进行估计得到的,平均 reward,代表不好不坏的居中的结果。 LKTO 就是DPO中推导的reward函数形式。

    按照上面的定义估计z0是不切实际的,因为从πθ采样很慢,人类无法感知πθ引起的完整分布。

    这个估计是有偏差的,但这是可取的,因为它使我们更接近人类如何构建他们的主观参考点。

    实际上KTO相对比DPO差异就两点

    • 对正负样本进行了加权:DPO里面是使用正负样本的reward差值进行sigmoid映射,但是KTO里面使用reward模型与KL散度之间的差异!(说是KL散度,但其实也是bad的log比值数值!不过不是同一个pair
    • 注意:在实践的时候,KL项并不参与反向传播,这其实就跟DPO更相似的。DPO使一个数据对,但是这里把DPO给拆分了,相当于对每一个样本单独进行最大化或最小化了,以及进行加权。另一个作用就是,如果 rKTO(x,y) 的差异与KL散度有足够区别的话,那对应的Loss也就比较小。因此,KTO会更加鼓励差异大的数据对。
    • 但其实我们可以从KTO的目标函数直接看到。由于KTO是分别针对单条数据,如果数据是正样本,那么一定要超过 zo 才会产生预测正确反馈;对于负样本,需要低于 zo才会产生预测正确反馈

    KTO和DPO的选择

    • 数据比例:如果数据集是以good/bad形式进行标注,并且数据比例不平衡,那么选择KTO
    • 数据质量:如果你的偏好数据质量高,数据噪声小,那么DPO的效果更好。由于目前公开的数据集中存在的噪声较大,这就能解释为什么KTO的效果会超过DPO了。
    • 理论分析:KTO不会从负样本中学习到很高的反馈,也不会从正样本中学习到很低的反馈(所以对噪声比较鲁棒)

    KTO 的工作原理:

    • 如果模型以直接(blunt manner)方式增加了理想示例的奖励,那么 KL 惩罚也会增加,并且不会取得任何进步。这迫使模型准确地了解是什么让输出变得理想,这样就可以增加奖励,同时保持 KL 项持平(甚至减少)。
    • 实际实现中,KL 项是通过当前batch里面的正负样本进行估计得到的可以认为是batch样本的平均水平】,详细 debug KTOTrainer 源代码

    对成对偏好数据进行分配

    • 与大多数比对方法一样,DPO 需要一个成对偏好数据集(x, y_w, y_l),够根据一组标准(如有益性或有害性)来标记哪种模型响应更好。
    • 实践过程中,创建这些数据是一项耗时且成本高昂的工作。
    • ContextualAI 提出替代方案,称为 Kahneman-Taversky 优化(KTO),完全根据被标记为「好」或「坏」的样本(例如在聊天 UI 中看到的图标👍或👎)来定义损失函数。这些标签更容易获得, KTO 是一种很有前景的方法,不断更新在生产环境中运行的聊天模型。

    与此同时,这些方法都有相应的超参数,其中最重要的是 β ,控制对使用模型的偏好程度的权重。这些方法已经在第三方库(如 huggingface TRL)中实现

    KTO 数据集

    KTO 不需要成对的偏好数据,实验时直接将 GPT-4 生成的响应归类为「好」标签,将 Llama Chat 13b 的响应视为「坏」标签。

    KTO数据集与偏好数据集类似,但不同于给出一个更优的回答和一个更差的回答,KTO数据集对每一轮问答只给出一个 true/false 的 label。 除了 instruction 以及 input 组成的人类最终输入和模型回答 output ,KTO 数据集还需要额外添加一个 kto_tag 列(true/false)来表示人类的反馈。在一轮问答中其格式如下:

    [
      {
        "instruction": "人类指令(必填)",
        "input": "人类输入(选填)",
        "output": "模型回答(必填)",
        "kto_tag": "人类反馈 [true/false](必填)"
      }
    ]
    

    对于上述格式的数据, dataset_info.json 中的 数据集描述 应为:

    "数据集名称": {
      "file_name": "data.json",
      "columns": {
        "prompt": "instruction",
        "query": "input",
        "response": "output",
        "kto_tag": "kto_tag"
      }
    }

    代码实现:

    基于pytorch、deepspeed、transformers代码:https://github.com/PKU-Alignment/align-anything/tree/main/align_anything/trainers/text_to_text

    sft训练代码:

    def loss(self, sft_batch: SupervisedBatch) -> dict[str, torch.Tensor]:
        """Loss function for supervised finetuning."""
        outputs = self.model(**self.infer_batch(sft_batch))
        return {'loss': outputs.loss}
    
    def train_step(self, sft_batch: SupervisedBatch) -> dict[str, Any]:
        """Performs a single training step."""
        loss = self.loss(sft_batch)['loss']
        self.model.backward(loss)
        self.model.step()
    
        return {
            'train/loss': loss.item(),
            'train/lr': self.model.optimizer.param_groups[0]['lr'],
        }

    dpo训练代码:

    https://blog.csdn.net/weixin_43013480/article/details/141370269

    # 从 logits(未归一化的概率分布)中,提取 labels 对应类别的对数概率(log probabilities)。
    def gather_log_probabilities(
        logits: torch.Tensor,  # size = (B, L, V)
        labels: torch.LongTensor,  # size = (B, L)
    ) -> torch.Tensor:  # size = (B, L)
        """Gather log probabilities of the given labels from the logits."""
        log_probs = F.log_softmax(logits, dim=-1)  # size = (B, L, V)
        gathered_log_probs = torch.gather(  # size = (B, L, 1)
            log_probs,
            dim=-1,
            index=labels.unsqueeze(dim=-1).to(torch.int64),
        )
        return gathered_log_probs.squeeze(dim=-1)  # size = (B, L)
    def compute_log_probs(
        self,
        model: AutoModelForCausalLM,
        batch: PreferenceBatch,
    ) -> torch.Tensor:
        """Compute log probabilities of given sequences."""
        # 获得所有可能输出的log概率,logits 表示每个 token 位置的 未归一化的概率分布
        logits = model(**self.infer_batch(batch)).logits
        device = logits.device
        input_ids = batch['input_ids']
        #取得每个样本的回复长度,用于截取模型输出
        batch_size = len(batch['meta_info']['response_lens'])
        logprob_list = []
        for idx in range(batch_size):
            response_length = batch['meta_info']['response_lens'][idx]
            # 去除填充 (PAD) token,避免计算无效 token 的概率。
            raw_input_id = strip_pad(input_ids[idx], self.tokenizer.pad_token_id)
            #只保留 回复部分的 logits,丢弃 prompt 部分。 
            logit = logits[idx][-response_length:].unsqueeze(0)
            input_id = raw_input_id[-response_length:].unsqueeze(0)
            #计算对应的better 和worse 序列token 对数概率
            log_p = gather_log_probabilities(logit[:, :-1], input_id[:, 1:])
            logprob_list.append(log_p.squeeze(0))
        # 不同样本的 log_probs 长度不同,使用 pad_sequence 进行 padding,补齐到相同长度。
        return torch.nn.utils.rnn.pad_sequence(
            logprob_list, batch_first=True, padding_value=0.0
        ).to(device)
    
    def loss(  # pylint: disable=too-many-locals
        self,
        batch: PreferenceBatch,
    ) -> dict[str, torch.Tensor]:
        """Loss function for the DPO algorithm."""
       #计算当前模型 (self.model.module) 在 batch 上的 log 概率。
        sequence_log_probs = self.compute_log_probs(
            self.model.module,
            batch,
        )
    # better_sequence_log_probs (用户偏好的回复)
    # worse_sequence_log_probs (用户不喜欢的回复)
        (
            better_sequence_log_probs,  # size = (B, L - 1)
            worse_sequence_log_probs,  # size = (B, L - 1)
        ) = sequence_log_probs.chunk(chunks=2, dim=0)
    # 计算参考模型 (self.reference_model.module) 的对数概率 (log_probs)。
    # reference_model 通常是 原始未优化的模型,作为对比基准。
    # torch.no_grad() 表示 不计算梯度,避免影响参考模型。
        with torch.no_grad():
            ref_sequence_log_probs = self.compute_log_probs(  # size = (2 * B, L - 1)
                self.reference_model.module,
                batch,
            )
            ref_better_sequence_log_probs, ref_worse_sequence_log_probs = (
                ref_sequence_log_probs.chunk(chunks=2, dim=0)
            )
    
        losses = []
        better_sample_rewards = []
        worse_sample_rewards = []
    
        batch_size = better_sequence_log_probs.size(0)
        for i in range(batch_size):
    # 计算 更好/更差回复的总 log 概率(即累加 token 级别 log 概率)。
            better_log_prob = better_sequence_log_probs[i, :].sum(dim=-1)
            worse_log_prob = worse_sequence_log_probs[i, :].sum(dim=-1)
            ref_better_log_prob = ref_better_sequence_log_probs[i, :].sum(dim=-1)
            ref_worse_log_prob = ref_worse_sequence_log_probs[i, :].sum(dim=-1)
    # 当前模型比参考模型更偏好 better 回复 的程度。
            better_log_ratio = better_log_prob - ref_better_log_prob
    # 当前模型比参考模型更偏好 worse 回复 的程度。
            worse_log_ratio = worse_log_prob - ref_worse_log_prob
    # 计算 better 和 worse 的 log 比值差
    # 使用 -logsigmoid(x) 计算负对数 sigmoid 损失,优化模型使其更倾向 better 回复。
    # logsigmoid 的性质:
    # 如果 x 很大,logsigmoid(x) ≈ 0,意味着损失小,模型已经正确偏好 better response。
    # 如果 x 很小或负,logsigmoid(x) ≈ x,意味着损失大,模型没有正确区分 better 和 worse,需要优化。
            losses.append(
                -F.logsigmoid(
                    self.cfgs.train_cfgs.scale_coeff * (better_log_ratio - worse_log_ratio),
                ),
            )
            better_sample_rewards.append(
                self.cfgs.train_cfgs.scale_coeff * better_log_ratio.detach(),
            )
            worse_sample_rewards.append(self.cfgs.train_cfgs.scale_coeff * worse_log_ratio.detach())
        loss = torch.stack(losses).mean()  # size = ()
        better_sample_reward = torch.stack(better_sample_rewards)  # size = (B,)
        worse_sample_reward = torch.stack(worse_sample_rewards)  # size = (B,)
    # 计算 奖励 (reward)、准确率 (accuracy) 和奖励间距 (margin)。
        reward = better_sample_reward + worse_sample_reward  # size = (B,)
        reward_accuracy = (better_sample_reward > worse_sample_reward).float().mean()  # size = ()
        reward_margin = better_sample_reward - worse_sample_reward  # size = (B,)
    
        return {
            'loss': loss,
            'reward': reward,
            'better_sample_reward': better_sample_reward,
            'worse_sample_reward': worse_sample_reward,
            'reward_accuracy': reward_accuracy,
            'reward_margin': reward_margin,
        }
    
    def train_step(
        self,
        batch: PreferenceBatch,
    ) -> dict[str, Any]:
        """Perform a single training step for DPO."""
        loss_dict = self.loss(batch=batch)
        loss = loss_dict['loss']
        self.model.backward(loss)
        self.model.step()
    
        with torch.no_grad():
            reward = loss_dict['reward'].mean()
            better_sample_reward = loss_dict['better_sample_reward'].mean()
            worse_sample_reward = loss_dict['worse_sample_reward'].mean()
            reward_accuracy = loss_dict['reward_accuracy']
            reward_margin = loss_dict['reward_margin'].mean()
    
            loss = get_all_reduce_mean(loss)
            reward = get_all_reduce_mean(reward)
            better_sample_reward = get_all_reduce_mean(better_sample_reward)
            worse_sample_reward = get_all_reduce_mean(worse_sample_reward)
            reward_accuracy = get_all_reduce_mean(reward_accuracy)
            reward_margin = get_all_reduce_mean(reward_margin)
    
        return {
            'train/loss': loss.item(),
            'train/reward': reward.item(),
            'train/better_sample_reward': better_sample_reward.item(),
            'train/worse_sample_reward': worse_sample_reward.item(),
            'train/reward_accuracy': reward_accuracy.item(),
            'train/reward_margin': reward_margin.item(),
            'train/lr': self.model.optimizer.param_groups[0]['lr'],
        }

    ppo训练代码:

    #使用策略模型 (Actor Model) 生成文本,并返回其 input_ids 和 attention_mask。
    def actor_step(self, mini_prompt_only_batch: PromptOnlyBatch) -> dict[str, Any]:
        infer_batch = self.infer_batch(mini_prompt_only_batch)
        actor_batch = copy.deepcopy(infer_batch)
        sequences = self.actor_model.module.generate(
            **infer_batch,
            generation_config=self.generation_config,
            synced_gpus=True,
            do_sample=True,
        )
        attention_mask = sequences.not_equal(self.tokenizer.pad_token_id)
        actor_batch['input_ids'] = sequences
        actor_batch['attention_mask'] = attention_mask
    
        return actor_batch
    # 计算奖励值 (reward) 和对抗奖励值 (reward_values)。 
    def reward_model_step(self, actor_batch: PromptOnlyBatch) -> dict[str, Any]:
            reward_batch = copy.deepcopy(actor_batch)
            if self.reward_tokenizer is not self.tokenizer:
                reward_tokenize_output = batch_retokenize(
                    actor_batch['input_ids'],
                    src_tokenizer=self.tokenizer,
                    dest_tokenizer=self.reward_tokenizer,
                    skip_special_tokens=True,
                    device=self.args.device,
                )
                reward_batch['input_ids'] = reward_tokenize_output['input_ids']
                reward_batch['attention_mask'] = reward_tokenize_output['attention_mask']
            reward_infer_batch = self.reward_infer_batch(reward_batch)
            reward_batch['reward'] = self.reward_model(**reward_infer_batch).end_scores.squeeze(dim=-1)
            critic_infer_batch = self.reward_infer_batch(actor_batch)
            scores = self.reward_critic_model(**critic_infer_batch).scores
            reward_batch['reward_values'] = scores.squeeze(dim=-1)[:, :-1]
    
            return reward_batch
    #冻结模型参数,避免影响训练,采样多个 mini-batch,生成文本,计算奖励,计算 log 概率 (log_probs),计算参考模型的 log 概率 (ref_log_probs)
    # 经验回放:生成训练数据并计算指标
      @torch.no_grad()
        def rollout(self, prompt_only_batch: PromptOnlyBatch) -> list[dict[str, Any]]:
            """Rollout a batch of experiences."""
            # freeze the model for rolling out
            self.set_train(mode=False)
    
            total_batch_size = prompt_only_batch['input_ids'].size(0)
            micro_batch_size = int(self.cfgs.train_cfgs.per_device_train_batch_size)
            micro_inference_batches = []
            micro_training_batches = []
            mini_batch = {}
            for i in range(0, total_batch_size, micro_batch_size):
    
                mini_batch = {
                    key: prompt_only_batch[key][i : i + micro_batch_size] for key in prompt_only_batch
                }
    
                # actor generation
                actor_batch = self.actor_step(mini_batch)
                # reward model and reward critic model scoring
                reward_batch = self.reward_model_step(actor_batch)
                # calculate the log probabilities
                logits = self.actor_model(**actor_batch).logits
                ref_logits = self.actor_reference_model(**actor_batch).logits
                log_probs = gather_log_probabilities(logits[:, :-1], actor_batch['input_ids'][:, 1:])
                ref_log_probs = gather_log_probabilities(
                    ref_logits[:, :-1], actor_batch['input_ids'][:, 1:]
                )
    
                micro_training_batch = {}
                micro_training_batch['prompt_idx'] = mini_batch['input_ids'].size(-1) - 1
                micro_training_batch['log_probs'] = log_probs
                micro_training_batch['ref_log_probs'] = ref_log_probs
                micro_training_batch['reward'] = reward_batch['reward']
                micro_training_batch['reward_values'] = reward_batch['reward_values']
    
                mini_batch['input_ids'] = reward_batch['input_ids']
                mini_batch['attention_mask'] = actor_batch['attention_mask']
                # add rollout results to the batches
                micro_inference_batches.append(mini_batch)
                micro_training_batches.append(micro_training_batch)
    
            # unfreeze the model for training
            self.set_train()
    
            return micro_inference_batches, micro_training_batches
    
    
    #计算策略梯度损失
    # 计算 PPO 损失函数:
    # ratios = exp(new_log_probs - old_log_probs)(新旧策略比)。
    # 裁剪 ratios 避免策略剧烈变化(PPO 关键)。
    # return -masked_mean(surrogate, mask):最大化优势 𝐴𝑡
       
    def actor_loss_fn(
            self,
            log_probs: torch.Tensor,  # size = (B, L - S)
            old_log_probs: torch.Tensor,  # size = (B, L - S)
            advantages: torch.Tensor,  # size = (B, L - S)
            mask: torch.BoolTensor,  # size = (B, L - S)
        ) -> torch.Tensor:  # size = ()
            # size = (B, L - S)
            ratios = torch.exp(log_probs - old_log_probs)
            surrogate1 = advantages * ratios
            surrogate2 = advantages * torch.clamp(
                ratios,
                1.0 - self.clip_range_ratio,
                1.0 + self.clip_range_ratio,
            )
            surrogate = torch.minimum(surrogate1, surrogate2)
            return -masked_mean(surrogate, mask)  # size = ()
    
    #  rl_step函数是训练过程中使用强化学习(RL)更新策略的一步。在PPo算法中,rl_step是用来更新策略网络(actor)和价值网络(critic)的一部分。具体来说,这个函数通过计算强化学习损失(actor loss和critic loss),并通过反向传播优化这两个网络。
    # reward_critic_model 评估奖励函数的 价值估计,用于计算 优势函数 𝐴𝑡不是直接计算奖励,而是估算未来可能获得的奖励。主要用于时间差分(TD learning)更新策略,类似于 价值函数。
    
    def rl_step(
            self, inference_batch: dict[str, torch.Tensor], training_batch: dict[str, torch.Tensor]
        ) -> dict[str, Any]:
            """Perform a single update step with RL loss."""
            old_log_probs = training_batch['log_probs']
            ref_log_probs = training_batch['ref_log_probs']
            reward = training_batch['reward']
            old_reward_values = training_batch['reward_values']
            start = training_batch['prompt_idx']
    
            input_ids = inference_batch['input_ids']
            attention_mask = inference_batch['attention_mask']
    
            sequence_mask = attention_mask[:, 1:]
    
            with torch.no_grad():
                old_rewards = self.add_kl_divergence_regularization(
                    reward,
                    old_log_probs,
                    ref_log_probs,
                    sequence_mask,
                )
                reward_advantages, reward_returns = self.get_advantages_and_returns(
                    old_reward_values,
                    old_rewards,
                    sequence_mask,
                    start,
                )
    
            logits = self.actor_model(**inference_batch, use_cache=False).logits
            log_probs = gather_log_probabilities(logits[:, :-1], input_ids[:, 1:])
            actor_loss = self.actor_loss_fn(
                log_probs[:, start:],
                old_log_probs[:, start:],
                reward_advantages,
                sequence_mask[:, start:],
            )
            self.actor_model.backward(actor_loss)
            self.actor_model.step()
    
            reward_values = self.reward_critic_model(**inference_batch).scores
            reward_values = reward_values.squeeze(dim=-1)[:, :-1]
            reward_critic_loss = self.critic_loss_fn(
                reward_values[:, start:],
                old_reward_values[:, start:],
                reward_returns,
                sequence_mask[:, start:],
            )
            self.reward_critic_model.backward(reward_critic_loss)
            self.reward_critic_model.step()
    
            with torch.no_grad():
                mask = sequence_mask[:, start:]
                kl_divergence = ((old_log_probs - ref_log_probs)[:, start:] * mask).sum(dim=-1).mean()
                mean_generated_length = mask.sum(dim=-1).float().mean()
                max_generated_length = mask.sum(dim=-1).float().max()
    
                reward = reward.mean()
                reward_with_kl_penalty = (old_rewards[:, start:] * mask).sum(dim=-1).mean()
                reward_advantage = masked_mean(reward_advantages, mask)
                reward_return = masked_mean(reward_returns, mask)
                reward_value = masked_mean(reward_values[:, start:], mask)
    
                actor_loss = get_all_reduce_mean(actor_loss)
                reward_critic_loss = get_all_reduce_mean(reward_critic_loss)
                reward = get_all_reduce_mean(reward)
                reward_with_kl_penalty = get_all_reduce_mean(reward_with_kl_penalty)
                reward_advantage = get_all_reduce_mean(reward_advantage)
                reward_return = get_all_reduce_mean(reward_return)
                reward_value = get_all_reduce_mean(reward_value)
                kl_divergence = get_all_reduce_mean(kl_divergence)
                mean_generated_length = get_all_reduce_mean(mean_generated_length)
                max_generated_length = get_all_reduce_max(max_generated_length)
    
            dist.barrier()
    
            return {
                'train/actor_loss': actor_loss.item(),
                'train/reward_critic_loss': reward_critic_loss.item(),
                'train/reward': reward.item(),
                'train/reward_with_kl_penalty': reward_with_kl_penalty.item(),
                'train/reward_advantage': reward_advantage.item(),
                'train/reward_return': reward_return.item(),
                'train/reward_value': reward_value.item(),
                'train/kl_divergence': kl_divergence.item(),
                'train/actor_lr': self.actor_model.optimizer.param_groups[0]['lr'],
                'train/reward_critic_lr': self.reward_critic_model.optimizer.param_groups[0]['lr'],
                'train/mean_generated_length': mean_generated_length.item(),
                'train/max_generated_length': max_generated_length.item(),
            }
    
        def ptx_step(self, ptx_batch: dict[str, torch.Tensor]) -> dict[str, Any]:
            """Perform a single update step with PTX loss."""
            ptx_loss = self.actor_model(**self.infer_batch(ptx_batch)).loss
            self.actor_model.backward(self.ptx_coeff * ptx_loss)
            self.actor_model.step()
            ptx_loss = get_all_reduce_mean(ptx_loss)
            return {
                'train/ptx_loss': ptx_loss.item(),
            }
    
        def train(self) -> None:
            """Train the model."""
            self.logger.print('***** Running training *****')
    
            progress_bar = tqdm(
                total=self.total_training_steps,
                desc=f'Training 1/{self.cfgs.train_cfgs.epochs} epoch',
                position=0,
                leave=True,
                disable=not is_main_process(),
            )
    
            if self.cfgs.data_cfgs.eval_datasets:
                self.logger.print('\n***** Evaluating at the beginning *****')
                self.eval()
    
            num_prompt_only_batches = len(self.prompt_only_dataloader)
            num_ptx_batches = len(self.ptx_dataloader)
            num_ptx_replicas = (num_prompt_only_batches + num_ptx_batches - 1) // num_ptx_batches
            for epoch in range(int(self.cfgs.train_cfgs.epochs)):
                for prompt_only_batch, ptx_batch in zip(
                    self.prompt_only_dataloader,
                    itertools.chain.from_iterable([self.ptx_dataloader] * num_ptx_replicas),
                ):
                    inference_batches, training_batches = self.rollout(prompt_only_batch)
    
                    if self.use_ptx:
                        ptx_batches = self.split_ptx_micro_batches(ptx_batch)
                    else:
                        ptx_batches = [None for _ in range(len(inference_batches))]
                    torch.cuda.empty_cache()
    
                    for _ in range(self.cfgs.train_cfgs.update_iters):
                        for inference_batch, training_batch, ptx_batch in zip(
                            inference_batches, training_batches, ptx_batches
                        ):
                            rl_info = self.rl_step(inference_batch, training_batch)
    
                            torch.cuda.empty_cache()
                            self.logger.log(rl_info, step=self.global_step)
                            if self.use_ptx:
                                ptx_info = self.ptx_step(ptx_batch)
                                torch.cuda.empty_cache()
                                self.logger.log(ptx_info, step=self.global_step)
    
                            self.global_step += 1
                            progress_bar.set_description(
                                f'Training {epoch + 1}/{self.cfgs.train_cfgs.epochs} epoch '
                                f'(reward {rl_info["train/reward"]:.4f})',
                            )
                            progress_bar.update(1)
    
                            if self.global_step % self.cfgs.logger_cfgs.save_interval == 0:
                                self.logger.print(f'Saving checkpoint at step {self.global_step} ...')
                                self.save(tag=self.global_step)
                                self.logger.print('Checkpoint saved.')
    
                            if (
                                self.cfgs.data_cfgs.eval_datasets
                                and self.cfgs.train_cfgs.eval_strategy == 'steps'
                                and self.global_step % self.cfgs.train_cfgs.eval_interval == 0
                            ):
                                self.logger.print(
                                    f'\n***** Evaluating at step {self.global_step} *****',
                                )
                                self.eval()

    RM奖励模型训练代码:

        def loss(
            self,
            batch: PreferenceBatch,
        ) -> dict[str, torch.Tensor]:
            """Loss function for the reward model."""
            (
                better_input_ids,  # size = (B, L)
                worse_input_ids,  # size = (B, L)
            ) = batch[
                'input_ids'
            ].chunk(chunks=2, dim=0)
            assert better_input_ids.size(0) == worse_input_ids.size(0), 'batch size mismatch!'
    
    # scores:一般来说,这代表模型在每个时间步骤(或输入分段)上的奖励得分,通常是一个形状为 (B, L, 1) 的张量,其中 B 是批量大小,L 是输入序列的长度,1 是奖励得分的维度。
    #end_scores:通常表示输入序列的结束阶段的奖励得分,这可能是在整个序列处理完成后,模型计算出的最终奖励。
            output = self.model(**self.infer_batch(batch))
            scores = output.scores
            end_scores = output.end_scores
            higher_rewards, lower_rewards = scores.squeeze(dim=-1).chunk(chunks=2, dim=0)
            higher_end_reward, lower_end_reward = end_scores.squeeze(dim=-1).chunk(chunks=2, dim=0)
    
            loss = -F.logsigmoid(higher_end_reward - lower_end_reward).mean()
    
            if self.cfgs.train_cfgs.regularization > 0.0:
                loss = (
                    loss
                    + self.cfgs.train_cfgs.regularization
                    * torch.stack([lower_end_reward, higher_end_reward]).square().mean()
                )
    
            accuracy = (higher_end_reward > lower_end_reward).float().mean()  # size = ()
            return {
                'loss': loss,  # size = ()
                'higher_end_reward': higher_end_reward,  # size = (B,)
                'lower_end_reward': lower_end_reward,  # size = (B,)
                'higher_rewards': higher_rewards,  # size = (B, L)
                'lower_rewards': lower_rewards,  # size = (B, L)
                'accuracy': accuracy,  # size = ()
            }
    
        def train_step(
            self,
            batch: PreferenceBatch,
        ) -> dict[str, Any]:
            """Perform a single training step."""
            loss_dict = self.loss(batch)
            loss = loss_dict['loss']
            self.model.backward(loss)
            self.model.step()
    
            accuracy = loss_dict['accuracy']
    
            loss = get_all_reduce_mean(loss)
            accuracy = get_all_reduce_mean(accuracy)
    
            return {
                'train/loss': loss.item(),
                'train/accuracy': accuracy.item(),
                'train/lr': self.model.optimizer.param_groups[0]['lr'],
            }

    orpo 训练代码:

    相关介绍:https://github.com/Paul33333/ORPO https://zhuanlan.zhihu.com/p/688583797

    # 从 logits(未归一化的概率分布)中,提取 labels 对应类别的对数概率(log probabilities)。
    def gather_log_probabilities(
        logits: torch.Tensor,  # size = (B, L, V)
        labels: torch.LongTensor,  # size = (B, L)
    ) -> torch.Tensor:  # size = (B, L)
        """Gather log probabilities of the given labels from the logits."""
        log_probs = F.log_softmax(logits, dim=-1)  # size = (B, L, V)
        gathered_log_probs = torch.gather(  # size = (B, L, 1)
            log_probs,
            dim=-1,
            index=labels.unsqueeze(dim=-1).to(torch.int64),
        )
        return gathered_log_probs.squeeze(dim=-1)  # size = (B, L)
    
    # compute_log_probs 的作用是计算给定序列的 log 概率(对数概率),主要用于评估语言模型(LLM)的生成质量。
    def compute_log_probs(
            self,
            model: AutoModelForCausalLM,
            batch: PreferenceBatch,
        ) -> torch.Tensor:
            """Compute log probabilities of given sequences."""
            logits = model(**self.infer_batch(batch)).logits
            device = logits.device
            input_ids = batch['input_ids']
            batch_size = len(batch['meta_info']['response_lens'])
            logprob_list = []
            for idx in range(batch_size):
                response_length = batch['meta_info']['response_lens'][idx]  # for the eos token
                logit = logits[idx][-response_length:].unsqueeze(0)
                input_id = input_ids[idx][-response_length:].unsqueeze(0)
    # logit[:, :-1]取 response 部分的 logits,去掉最后一个 token(因为 logits 预测的是下一个 token)input_id[:, 1:]: 取 response 部分的 token IDs,从第二个 token 开始(因为 log_probs 计算的是下一个 token 概率)。
    作用:计算 response 部分每个 token 的 log 概率(对 logit 的 softmax 取对数)。
                log_p = gather_log_probabilities(logit[:, :-1], input_id[:, 1:]) 
                logprob_list.append(log_p.squeeze(0))
    #pad填充,返回张量形状 (B, max_L_resp)
            return torch.nn.utils.rnn.pad_sequence(
                logprob_list, batch_first=True, padding_value=0.0
            ).to(device)
    
    class ORPOTrainer(DPOTrainer):
    
        def loss(  # pylint: disable=too-many-locals
            self,
            batch: PreferenceBatch, # size = (2*B, L)
        ) -> dict[str, torch.Tensor]:
            """Loss function for the ORPO algorithm."""
            sequence_log_probs = self.compute_log_probs(
                self.model.module,
                batch,
            )
            (
                better_sequence_log_probs,  # size = (B, L - 1)
                worse_sequence_log_probs,  # size = (B, L - 1)
            ) = sequence_log_probs.chunk(chunks=2, dim=0)
    
            losses = []
            better_sample_rewards = []
            worse_sample_rewards = []
    
            better_input_ids, worse_input_ids = batch['input_ids'].chunk(chunks=2, dim=0)
            better_attention_mask, worse_attention_mask = batch['attention_mask'].chunk(chunks=2, dim=0)
    
            batch_size = better_input_ids.size(0)
    #diverge_index 代表 better 和 worse 输入序列开始不同的位置:diverge_index,即它之后的 token 是模型生成的部分。
            for i in range(batch_size):
                if torch.all(torch.eq(better_input_ids[i], worse_input_ids[i])).item():
                    continue
                better_end_index = better_attention_mask[i].nonzero()[-1].squeeze().item()
                worse_end_index = worse_attention_mask[i].nonzero()[-1].squeeze().item()
                diverge_index = (
                    (better_input_ids[i] != worse_input_ids[i]).nonzero()[0].squeeze().item()
                )
                assert 0 <= diverge_index <= better_end_index, 'diverge index is out of range!'
                assert 0 <= diverge_index <= worse_end_index, 'diverge index is out of range!'
    # better_seq_slice 和 worse_seq_slice 取从 diverge_index 开始到序列结束的部分(即模型生成的 token)。
                better_seq_slice = slice(diverge_index, better_end_index + 1)
                worse_seq_slice = slice(diverge_index, worse_end_index + 1)
                better_seq_length = better_end_index + 1
                worse_seq_length = worse_end_index + 1
    
                # size = ()
    # better_log_prob: 计算 better 部分的总 log 概率。
    # worse_log_prob: 计算 worse 部分的总 log 概率。
    # 计算 对数比率(log ratio):
                better_log_prob = better_sequence_log_probs[i, better_seq_slice].sum(dim=-1)
                worse_log_prob = worse_sequence_log_probs[i, worse_seq_slice].sum(dim=-1)
                better_log_ratio = better_log_prob / better_seq_length
                worse_log_ratio = worse_log_prob / worse_seq_length
    # 计算 ORPO 的 odds ratio loss:
                log_odds = (better_log_ratio - worse_log_ratio) - (
                    torch.log1p(-torch.exp(better_log_ratio)) - torch.log1p(-torch.exp(worse_log_ratio))
                )
    #  better 的 log 概率明显高于 worse,从而优化生成策略。
                odds_ratio_loss = -F.logsigmoid(log_odds)
    # 最终损失
                sft_loss = -better_log_ratio
                losses.append(
                    sft_loss + self.cfgs.train_cfgs.scale_coeff * odds_ratio_loss,
                )
                better_sample_rewards.append(
                    self.cfgs.train_cfgs.scale_coeff * better_log_ratio.detach(),
                )
                worse_sample_rewards.append(self.cfgs.train_cfgs.scale_coeff * worse_log_ratio.detach())
    
            loss = torch.stack(losses).mean()  # size = ()
            better_sample_reward = torch.stack(better_sample_rewards)  # size = (B,)
            worse_sample_reward = torch.stack(worse_sample_rewards)  # size = (B,)
            reward = better_sample_reward + worse_sample_reward  # size = (B,)
            reward_accuracy = (better_sample_reward > worse_sample_reward).float().mean()  # size = ()
            reward_margin = better_sample_reward - worse_sample_reward  # size = (B,)
    
            return {
                'loss': loss,
                'reward': reward,
                'better_sample_reward': better_sample_reward,
                'worse_sample_reward': worse_sample_reward,
                'reward_accuracy': reward_accuracy,
                'reward_margin': reward_margin,
            }
    
    
    def main():
        # setup distribution training
        deepspeed.init_distributed()
        current_device = get_current_device()
        torch.cuda.set_device(current_device)
    
        # read default configs from the yaml file
        task = os.path.join('text_to_text', 'orpo')
        dict_cfgs, ds_cfgs = read_cfgs(mode='train', task=task)
    
        # get custom configs from command line
        parser = argparse.ArgumentParser(formatter_class=argparse.ArgumentDefaultsHelpFormatter)
        _, unparsed_args = parser.parse_known_args()
        keys = [k[2:] for k in unparsed_args[1::2]]
        values = list(unparsed_args[2::2])
        unparsed_args = dict(zip(keys, values))
        for k, v in unparsed_args.items():
            dict_cfgs = update_dict(dict_cfgs, custom_cfgs_to_dict(k, v))
    
        # setup training
        cfgs = dict_to_namedtuple(dict_cfgs)
        seed_everything(cfgs.train_cfgs.seed)
    
        # finetune the model
        trainer = ORPOTrainer(cfgs=cfgs, ds_cfgs=ds_cfgs)
        trainer.train()
        trainer.save()

    SimPO训练代码:

    https://blog.csdn.net/weixin_43013480/article/details/141370269

    # compute_log_probs 的作用是计算给定序列的 log 概率(对数概率),主要用于评估语言模型(LLM)的生成质量。
    
    def compute_log_probs(
            self,
            model: AutoModelForCausalLM,
            batch: PreferenceBatch,
        ) -> torch.Tensor:
            """Compute log probabilities of given sequences."""
            logits = model(**self.infer_batch(batch)).logits
            device = logits.device
            input_ids = batch['input_ids']
            batch_size = len(batch['meta_info']['response_lens'])
            logprob_list = []
            for idx in range(batch_size):
                response_length = batch['meta_info']['response_lens'][idx]
                raw_input_id = strip_pad(input_ids[idx], self.tokenizer.pad_token_id)
                logit = logits[idx][-response_length:].unsqueeze(0)
                input_id = raw_input_id[-response_length:].unsqueeze(0)
                log_p = gather_log_probabilities(logit[:, :-1], input_id[:, 1:])
                logprob_list.append(log_p.squeeze(0))
            return torch.nn.utils.rnn.pad_sequence(
                logprob_list, batch_first=True, padding_value=0.0
            ).to(device)
    class SimPOTrainer(DPOTrainer):
    
        def loss(  # pylint: disable=too-many-locals
            self,
            batch: PreferenceBatch,
        ) -> dict[str, torch.Tensor]:
            """Loss function for the SimPO algorithm."""
            sequence_log_probs = self.compute_log_probs(
                self.model.module,
                batch,
            )
    # 使用 chunk 将 sequence_log_probs 按照第0维(批次维度)进行切分。将批次数据分为两部分:一部分对应 "更好"(better_sequence_log_probs),另一部分对应 "更差"(worse_sequence_log_probs)。每部分的大小为 (B, L - 1),B 是批次大小,L 是序列长度。  L-1 是为了删除最后的 <eos>
            (
                better_sequence_log_probs,  # size = (B, L - 1)
                worse_sequence_log_probs,  # size = (B, L - 1)
            ) = sequence_log_probs.chunk(chunks=2, dim=0)
    
            losses = []
            better_sample_rewards = []
            worse_sample_rewards = []
    
            better_input_ids, worse_input_ids = batch['input_ids'].chunk(chunks=2, dim=0)
            better_attention_mask, worse_attention_mask = batch['attention_mask'].chunk(chunks=2, dim=0)
    
            batch_size = better_input_ids.size(0)
            for i in range(batch_size):
    #检查当前样本的 "更好" 和 "更差" 部分的 input_ids 是否相同。如果相同,跳过这个样本,因为它们对比不出差异。
                if torch.all(torch.eq(better_input_ids[i], worse_input_ids[i])).item():
                    continue
    
    #分别计算 "更好" 和 "更差" 样本的结束位置(通过 attention_mask 中的非零元素位置来确定)。
                better_end_index = better_attention_mask[i].nonzero()[-1].squeeze().item()
                worse_end_index = worse_attention_mask[i].nonzero()[-1].squeeze().item()
                better_input_length = better_end_index + 1
                worse_input_length = worse_end_index + 1
    # diverge_index 是 "更好" 和 "更差" 样本之间的第一个差异位置。
                diverge_index = (
                    (better_input_ids[i] != worse_input_ids[i]).nonzero()[0].squeeze().item()
                )
                assert 0 <= diverge_index <= better_end_index, 'diverge index is out of range!'
                assert 0 <= diverge_index <= worse_end_index, 'diverge index is out of range!'
    #根据 diverge_index 进行切片,获取差异区域的对数概率。
    #better_log_prob 和 worse_log_prob 是对应于 "更好" 和 "更差" 样本的对数概率的总和。
                better_seq_slice = slice(diverge_index, better_end_index + 1)
                worse_seq_slice = slice(diverge_index, worse_end_index + 1)
    # 计算损失和奖励
                better_log_prob = better_sequence_log_probs[i, better_seq_slice].sum(dim=-1)
                worse_log_prob = worse_sequence_log_probs[i, worse_seq_slice].sum(dim=-1)
    #在长度上归一化的奖励【/|y|】,其计算方式是使用策略模型的奖励中所有 token 的平均对数概率;
                better_log_ratio = better_log_prob / better_input_length
                worse_log_ratio = worse_log_prob / worse_input_length
    #目标奖励差额γ,用以确保获胜和失败响应之间的奖励差超过这个差额γ
                losses.append(
                    -F.logsigmoid(
                        self.cfgs.train_cfgs.scale_coeff * (better_log_ratio - worse_log_ratio)
                        - self.cfgs.train_cfgs.gamma,
                    ),
                )
                better_sample_rewards.append(
                    self.cfgs.train_cfgs.scale_coeff * better_log_ratio.detach(),
                )
                worse_sample_rewards.append(self.cfgs.train_cfgs.scale_coeff * worse_log_ratio.detach())
            loss = torch.stack(losses).mean()  # size = ()
            better_sample_reward = torch.stack(better_sample_rewards)  # size = (B,)
            worse_sample_reward = torch.stack(worse_sample_rewards)  # size = (B,)
            reward = better_sample_reward + worse_sample_reward  # size = (B,)
            reward_accuracy = (better_sample_reward > worse_sample_reward).float().mean()  # size = ()
            reward_margin = better_sample_reward - worse_sample_reward  # size = (B,)
    
            return {
                'loss': loss,
                'reward': reward,
                'better_sample_reward': better_sample_reward,
                'worse_sample_reward': worse_sample_reward,
                'reward_accuracy': reward_accuracy,
                'reward_margin': reward_margin,
            }

    KTO训练代码:

    #  创建 不匹配的提示-回答对:错位传入批次(batch)中的 answer_input_ids 和 answer_attention_mask 数据,以创建不匹配的提示-回答对。获取当前索引前一个样本作为回应(response)。如果当前索引是 0,则取最后一个样本作为回应。这是为了创建“不匹配”的数据对,即提示和回应不一定是成对的。
    class UnmatchedSupervisedDataset(SupervisedDataset):
    
        def preprocess(
            self, raw_sample_for_prompt: dict[str, Any], raw_sample_for_response: dict[str, Any]
        ) -> SupervisedSample:
            return_dict = {}
            formatted_text, _ = self.template.format_unmatched_supervised_sample(
                raw_sample_for_prompt, raw_sample_for_response
            )
            return_dict['input_ids'] = self.tokenize(formatted_text)
    
            return return_dict
    
        def __getitem__(self, index: int) -> dict[str, torch.Tensor]:
            """Get a tokenized data sample by index."""
            raw_sample_for_prompt = self.raw_data[index]
            if index == 0:
                raw_sample_for_response = self.raw_data[-1]
            else:
                raw_sample_for_response = self.raw_data[index - 1]
            data = self.preprocess(raw_sample_for_prompt, raw_sample_for_response)
            return data
    
        def get_collator(self) -> Callable[[list[dict[str, torch.Tensor]]], dict[str, torch.Tensor]]:
            return UnmatchedSupervisedCollator(self.tokenizer.pad_token_id)
    
    
    class KTOTrainer(DPOTrainer):
    
    # 计算kl散度:通过计算当前模型(self.model.module)和参考模型(self.reference_model.module)之间的 KL 散度来比较它们的概率分布
    # 选择最后一个 batch 的 KL 值可能只是实现上的简化。实际中,计算所有 batch 的 KL 散度并取平均,或者采取其他更复杂的策略,可能会增加额外的计算负担,而选择最后一个 batch 的 KL 值是一种更直接、简便的实现方式。
    def compute_kl(self):
        random_dataset = UnmatchedSupervisedDataset(
            path=self.cfgs.data_cfgs.train_datasets,
            template=self.train_template,
            tokenizer=self.tokenizer,
            processor=self.processor,
            name=self.cfgs.data_cfgs.train_name,
            size=self.cfgs.data_cfgs.train_size,
            split=self.cfgs.data_cfgs.train_split,
            data_files=self.cfgs.data_cfgs.train_data_files,
            optional_args=self.cfgs.data_cfgs.train_optional_args,
        )
        seed = torch.randint(0, 100000, (1,)).item()
        torch.manual_seed(seed)
        self.random_dataloader = DataLoader(
            random_dataset,
            collate_fn=random_dataset.get_collator(),
            sampler=DistributedSampler(random_dataset, shuffle=True),
            batch_size=self.cfgs.train_cfgs.per_device_kl_batch_size,
        )
        for batch in self.random_dataloader:
            log_probs = self.compute_log_probs(  # size = (2 * B, L - 1)
                self.model.module,
                batch=batch,
            )
            ref_log_probs = self.compute_log_probs(  # size = (2 * B, L - 1)
                self.reference_model.module,
                batch=batch,
            )
            kl = (log_probs - ref_log_probs).mean()
    
            self.kl = max(kl, 0)
    # 此方法是 DPO (Direct Preference Optimization) 算法的核心部分。它计算了在当前模型和参考模型之间的对比损失
        def loss(  # pylint: disable=too-many-locals
            self,
            batch: PreferenceBatch,
        ) -> dict[str, torch.Tensor]:
            """Loss function for the DPO algorithm."""
            sequence_log_probs = self.compute_log_probs(
                self.model.module,
                batch,
            )
            (
                better_sequence_log_probs,  # size = (B, L - 1)
                worse_sequence_log_probs,  # size = (B, L - 1)
            ) = sequence_log_probs.chunk(chunks=2, dim=0)
    
            with torch.no_grad():
                ref_sequence_log_probs = self.compute_log_probs(  # size = (2 * B, L - 1)
                    self.reference_model.module,
                    batch,
                )
                ref_better_sequence_log_probs, ref_worse_sequence_log_probs = (
                    ref_sequence_log_probs.chunk(chunks=2, dim=0)
                )
    
            losses = []
            better_sample_rewards = []
            worse_sample_rewards = []
    
            better_input_ids, worse_input_ids = batch['input_ids'].chunk(chunks=2, dim=0)
            better_attention_mask, worse_attention_mask = batch['attention_mask'].chunk(chunks=2, dim=0)
    
            batch_size = better_input_ids.size(0)
            for i in range(batch_size):
                if torch.all(torch.eq(better_input_ids[i], worse_input_ids[i])).item():
                    continue
                better_end_index = better_attention_mask[i].nonzero()[-1].squeeze().item()
                worse_end_index = worse_attention_mask[i].nonzero()[-1].squeeze().item()
                diverge_index = (
                    (better_input_ids[i] != worse_input_ids[i]).nonzero()[0].squeeze().item()
                )
                assert 0 <= diverge_index <= better_end_index, 'diverge index is out of range!'
                assert 0 <= diverge_index <= worse_end_index, 'diverge index is out of range!'
    
                better_seq_slice = slice(diverge_index, better_end_index + 1)
                worse_seq_slice = slice(diverge_index, worse_end_index + 1)
    
                better_log_prob = better_sequence_log_probs[i, better_seq_slice].sum(dim=-1)
                worse_log_prob = worse_sequence_log_probs[i, worse_seq_slice].sum(dim=-1)
                ref_better_log_prob = ref_better_sequence_log_probs[i, better_seq_slice].sum(dim=-1)
                ref_worse_log_prob = ref_worse_sequence_log_probs[i, worse_seq_slice].sum(dim=-1)
                better_log_ratio = better_log_prob - ref_better_log_prob
                worse_log_ratio = worse_log_prob - ref_worse_log_prob
    
    # 计算loss,kl值作为基准
                losses.append(
                    self.cfgs.train_cfgs.scale_better
                    * (1 - F.sigmoid(self.cfgs.train_cfgs.scale_coeff * (better_log_ratio - self.kl)))
                    - self.cfgs.train_cfgs.scale_worse
                    * (1 - F.sigmoid(self.cfgs.train_cfgs.scale_coeff * (self.kl - worse_log_ratio))),
                )
                better_sample_rewards.append(
                    self.cfgs.train_cfgs.scale_coeff * better_log_ratio.detach(),
                )
                worse_sample_rewards.append(self.cfgs.train_cfgs.scale_coeff * worse_log_ratio.detach())
            loss = torch.stack(losses).mean()  # size = ()
            better_sample_reward = torch.stack(better_sample_rewards)  # size = (B,)
            worse_sample_reward = torch.stack(worse_sample_rewards)  # size = (B,)
            reward = better_sample_reward + worse_sample_reward  # size = (B,)
            reward_accuracy = (better_sample_reward > worse_sample_reward).float().mean()  # size = ()
            reward_margin = better_sample_reward - worse_sample_reward  # size = (B,)
    
            return {
                'loss': loss,
                'reward': reward,
                'better_sample_reward': better_sample_reward,
                'worse_sample_reward': worse_sample_reward,
                'reward_accuracy': reward_accuracy,
                'reward_margin': reward_margin,
            }
    #执行训练步骤:这个方法在每一个训练步中计算并反向传播损失。它更新模型参数并计算并返回训练信息。
    #奖励计算:通过 reward、better_sample_reward 和 worse_sample_reward 等指标来衡量模型的性能。
    #全局平均:get_all_reduce_mean() 用于分布式训练,确保在多个设备上计算的值被平均,以保证训练的一致性。
    def train_step(self, batch: PreferenceBatch) -> dict[str, Any]:
        """Perform a single training step for KTO."""
        loss_dict = self.loss(batch=batch)
        loss = loss_dict['loss']
        self.model.backward(loss)
        self.model.step()
    
        with torch.no_grad():
            reward = loss_dict['reward'].mean()
            better_sample_reward = loss_dict['better_sample_reward'].mean()
            worse_sample_reward = loss_dict['worse_sample_reward'].mean()
            reward_accuracy = loss_dict['reward_accuracy']
            reward_margin = loss_dict['reward_margin'].mean()
    
        loss = get_all_reduce_mean(loss)
        reward = get_all_reduce_mean(reward)
        better_sample_reward = get_all_reduce_mean(better_sample_reward)
        worse_sample_reward = get_all_reduce_mean(worse_sample_reward)
        reward_accuracy = get_all_reduce_mean(reward_accuracy)
        reward_margin = get_all_reduce_mean(reward_margin)
    
        return {
            'train/loss': loss.item(),
            'train/reward': reward.item(),
            'train/better_sample_reward': better_sample_reward.item(),
            'train/worse_sample_reward': worse_sample_reward.item(),
            'train/reward_accuracy': reward_accuracy.item(),
            'train/reward_margin': reward_margin.item(),
            'train/lr': self.model.optimizer.param_groups[0]['lr'],
        }

    相关论文:

    • KTO,Kahneman-Tversky 优化,参阅论文《KTO: Model alignment as prospect theoretic optimization》。
    • DRO,直接奖励优化,参阅论文《Offline regularised reinforcement learning for large language models alignment》。
    • SimPO,简单偏好优化,参阅论文《SimPO: Simple preference optimization with a reference-free reward》