阿里音频大模型强化学习 RL 框架

在语音技术领域,ASR(语音识别)和 TTS(语音合成)早已进入 LLM 时代,但 “能用” 和 “好用” 之间,还隔着一道难以逾越的鸿沟:ASR 会出现幻觉、漏检关键词;TTS 发音虽准,却缺自然韵律,甚至越优化语速越慢。

问题的核心在于:LLM 的 “文本 RL” 经验,没法直接套用到音频领域。音频是连续信号,既要处理声学特征,又要对齐语义,传统 RL 框架又笨重又低效。

阿里通义实验室的论文《Explore the Reinforcement Learning for the LLM based ASR and TTS system》,给出了一套 “轻量、高效、通用” 的解决方案。它不仅设计了适配音频大模型的 RL 框架,还在 ASR 和 TTS 任务上做了深度探索:ASR 用 GRPO + 规则奖励,WER 相对下降 5.3%;TTS 把 GRPO 和 DiffRO 结合,既提升发音准确率,又保住自然度,彻底解决了 “顾此失彼” 的问题。实验结果表明,即使在训练数据有限且优化步骤较少的情况下,RL 也能显著提升 ASR 和 TTS 系统的性能。

相关概念

  • GRPO(组相对策略优化):轻量化 RL 算法,对一组(G 个)模型输出打分,通过组内奖励归一化计算优势函数,无需单独训练 Critic 网络。降低计算成本,适配音频大模型的多输出评估。ASR、TTS 均适用
  • DiffRO(可微分奖励优化):直接对 TTS 生成的声学 token 打分,通过 Gumbel-Softmax 采样实现梯度回传,无需合成完整音频即可优化。奖励函数:Token2Text 模型(类 ASR)训练一个Token2Text 模型(输入语音 token,输出文本概率分布),作为核心奖励器。以WER(词错误率) 为核心奖励信号:Token2Text 预测文本与目标文本的差异,转化为可微分奖励。解决 argmax 不可导问题:用Gumbel Softmax对 token 分布采样,实现端到端梯度回传。
对比维度GRPODiffRO
核心逻辑组内对比打分,优化 “相对优势”单样本 token 级打分,优化 “绝对奖励”
奖励来源规则函数(如 WER、关键词准确率)或简单奖励模型可微分模型(如 token 级 ASR)
依赖数据少量标注数据 + 硬样本(如 ASR 的 hallucination 样本)无需大量配对音频 – 文本数据
优势适配主观体验优化(如韵律、多样性)发音准确率提升明显,训练稳定
劣势训练步数过多易退化难以优化主观体验指标
  •  强化学习的训练框架 TRL 提供了简单的强化学习实现方案,但效率较低;它在训练和推理阶段均直接依赖 PyTorch,并采用手动资源管理方式。 相比之下,VeRL 和 OpenRLHF 等更先进的工业级框架利用 Ray 灵活的分布式计算原语,简化了分布式操作与部署流程。这些框架进一步集成了 VLLM、SGLang 等高效推演引擎用于响应生成,并采用搭载 ZeRO 策略的 Deepspeed/FSDP 进行策略优化。

轻量音频 RL 框架设计

音频领域 RL 的 3 大核心难题,这也是其技术方案的出发点:

  • 模态复杂:音频大模型既要处理连续声学嵌入,又要生成离散文本 /token,比纯文本 LLM 的 RL 复杂得多;
  • 框架笨重:传统 RL 框架(如 TRL)需要同时维护 Actor、Critic、Reward Model 等多个模块,GPU 资源冲突严重,训练效率低;
  • 奖励难设计:ASR 的幻觉、TTS 的韵律自然度等痛点,没法用单一指标(如 WER)衡量,复杂奖励模型又难以训练。

为了简化计算资源的管理,设计了一个强化学习(RL)训练框架,该框架可以交替地在不同的组件之间分配 GPU 资源。整个框架如图1 所示。

轻量音频 RL 框架 —— 交替调度 GPU,效率翻倍。核心思路是:按训练步骤交替分配 GPU 资源,避免多模块抢占,具体流程如下:

1)框架核心设计

训练阶段占用 GPU 的模块核心任务资源释放逻辑
阶段 1:特征处理PyTorch-based 音频编码器(ASR)/ 解码器(TTS)ASR:将音频转为嵌入;TTS:将文本转为声学 token处理完后释放 GPU,嵌入 /token 存入主存
阶段 2:生成候选输出SGLang-based LLM 生成引擎基于特征生成多组候选(ASR 生成文本,TTS 生成声学 token)生成完成后释放 GPU
阶段 3:奖励计算PyTorch-based 奖励模型 / 规则函数对候选输出打分(如 ASR 的 WER、TTS 的 ASR 准确率)打分完成后释放 GPU
阶段 4:策略优化FSDP-based LLM 策略模型用 GRPO/DiffRO 更新模型参数,同步回生成引擎一轮更新后进入下循环

(2)关键优势

  • 效率高:8 张 A100 GPU 上,ASR 单步训练仅需 54.6 秒,TTS 仅 16.73 秒,远超 VeRL 等开源框架;
  • 通用性强:一套框架适配 ASR 和 TTS,无需为不同任务单独搭建;
  • 资源省:避免多模块同时占用 GPU,显存消耗降低 30% 以上。

ASR 的 RL 优化 —— GRPO + 规则奖励

ASR 的核心痛点是 “基础准确率(WER)达标,但幻觉、关键词漏检影响实际使用”,因此奖励函数聚焦 “准确率 + 抗幻觉 + 关键词保障” 三大目标,采用 “基础奖励 + 惩罚性奖励 + 强化奖励” 的组合逻辑:

(1)奖励函数设计:3 条规则,精准打击幻觉与关键词漏检

基础奖励 R1:ASR 识别准确率(核心基础)

  • 设计逻辑:以 “词错误率(WER)” 为核心指标,奖励与准确率正相关,确保模型优先优化基础识别能力。
  • 计算公式1 − WER(y, y), 其中 y:音频对应的真实标注文本,y:ASR 模型的输出文本,WER:词错误率(插入、删除、替换错误的综合指标,范围 0~1)。
  • 数值范围:0~1(WER=0 时R1=1,完全错误时R1=0)。
  • 核心作用:保证 RL 训练不偏离 “提升基础识别准确率” 的核心目标,避免为了优化其他指标而牺牲 WER。
  • 惩罚性奖励 R2:幻觉检测(优先级最高)
    • 设计逻辑:ASR 的幻觉(无中生有、重复生成、翻译错误)对用户体验伤害极大,因此采用 “一票否决” 式惩罚,检测到幻觉直接将奖励设为 – 1,强制模型规避该行为。
    • 幻觉判定规则
      • 无中生有:生成文本中包含音频中不存在的词(如音频说 “苹果”,ASR 输出 “苹果手机”);
      • 重复生成:连续重复相同短语(如 “今天今天今天天气好”);
      • 翻译错误:将一种语言误译为另一种(如英文音频被识别为中文)。
    • 奖励逻辑:若检测到上述任意一种幻觉 →R2 = -1 ;无幻觉 →R2 = 0 (不额外加分,仅避免惩罚)。
    • 核心作用:针对性解决长音频、噪声环境下的 ASR 幻觉问题,实验中长音频插入错误率(Ins)从 2.72 降至 0.86。
  • 强化奖励R3 :关键词准确率与召回率(工业场景关键)
    • 设计逻辑:人名、品牌名、专业术语等关键词的识别准确率,直接影响 ASR 的工业实用性(如智能客服、语音助手),因此单独强化该维度。
    • 数值范围:0~1(关键词完全命中时R3 = 1 ,完全漏检 / 误检时 R3 = 0)。
    • 核心作用:保证基础准确率的同时,重点强化关键信息的识别能力,提升模型的工业落地价值。
  • ASR 最终奖励聚合
    • 聚合逻辑:惩罚性奖励优先级最高,其次是基础奖励和强化奖励的加权求和(论文未明确权重,实验中采用等权求和)。
    • 最终公式:1) 若存在幻觉 → RASR = R2 = -1;2) 无幻觉 → RASR = (R1+R3) / 2 (范围 0~1)。
    • 设计巧思:通过 “惩罚优先” 避免模型 “为了加分而牺牲关键词 / 抗幻觉”,平衡基础性能与工业需求。

(2)训练数据构建:专挑 “硬骨头”,少而精 RL 训练不用海量数据,重点在于 “针对性”。论文构建了 4 类训练集,每类 2 万条,精准命中 ASR 的失败模式:

数据集数据来源训练目标
D0:随机样本普通语音数据作为对照,保证基础性能
D1:难样本不同 ASR 系统输出不一致的音频(如歧义句、噪声环境)提升复杂场景鲁棒性
D2:长音频样本时长 > 20 秒的音频解决长语音的幻觉、漏检问题
D3:关键词样本含人名、品牌名、专业术语的音频强化关键词识别能力

(3)训练配置与实验结果

  • 核心参数:batch size=32,组大小 G=12,学习率 = 1e-5,KL 系数 = 0.1,训练 1 天即可收敛;
  • 评估指标:WER(词错误率)、Ins(插入错误率)、Del(删除错误率);
  • 关键结果
    • 短音频(<10 秒):最优配置(全奖励 + 全数据集)WER 从 10.25 降至 9.71,相对下降 5.3%;
    • 长音频(>20 秒):Ins 错误率从 2.72 降至 0.86,幻觉问题大幅缓解
    • 结论硬样本 + 关键词奖励是提升 ASR 性能的关键,单纯增加长音频样本效果有限

TTS 的 RL 优化 —— GRPO+DiffRO 融合,发音与自然度双提升

TTS 的核心痛点是 “发音准确率与自然度失衡”(如 DiffRO 提升发音但牺牲语速,GRPO 优化自然度但易发音不准),因此奖励函数聚焦 “发音准确率 + 语速控制 + 韵律多样性”,覆盖客观指标与主观体验:

(1)单一算法对比:各有优劣

先分别用 GRPO 和 DiffRO 做实验,结果如下:

方法核心优势核心劣势中文 WER中文 SS(说话人相似度)
基线(无 RL)4.28077.64
DiffRO发音最准(WER 最低)SS 下降最多(77.00)3.41877.00
GRPOSS 下降少(77.26)发音提升有限3.71077.26

(2)GRPO 的奖励扩展:3 条规则,兼顾准确率与自然度

  • 核心奖励 R1:ASR 识别准确率(保证发音准确)
    • 设计逻辑:TTS 合成音频的 “可懂性” 是基础,通过 ASR 模型反向验证发音准确率,ASR 能准确识别的音频,说明发音无明显错误。
    • 两种计算方式(适配不同场景): 
      • 方式 1(音频级):用标准 ASR 模型识别 TTS 合成的完整音频,计算识别准确率(同 ASR 的R1); 
      • 方式 2(token 级):直接用 DiffRO 的 token-based ASR 模型,对 TTS 生成的声学 token 打分,无需合成完整音频(效率更高)。
    • 数值范围:0~1(ASR 完全识别正确时R1=1,完全无法识别时 R1= 0)。
    • 核心作用:锚定 TTS 的发音准确性,避免 RL 优化过程中出现 “自然但听不懂” 的问题。
  • 约束奖励 R2:音频时长控制(防止语速变慢)
    • 设计逻辑:论文发现 “TTS 为提升 ASR 识别率,会主动放慢语速”,导致语音不自然,因此通过时长约束强制模型保持合理语速。
    • 计算公式
  • 其中|oi|:第 i 个 TTS 候选输出的音频时长;Tm同组候选输出的音频时长中位数;abs:绝对值函数。
    • 数值范围:-1~0(时长与中位数完全一致时=0,偏差越大越接近 – 1)。
    • 核心作用:惩罚语速过快 / 过慢的输出,实验中成功避免 TTS “为准确率牺牲语速”,说话人相似度(SS)也同步提升。
  • 增强奖励 R3:token 与音调多样性(提升韵律自然度)
    • 设计逻辑:TTS 的 “机械感” 源于韵律单一,因此奖励模型生成多样化的声学 token 和音调变化,模拟人类自然 speech 的韵律波动。
    • 计算公式(双维度加权求和)
  • 第一部分(token 多样性)
  • 其中G:GRPO 的组大小(实验中 G=8),:第 i 个与第 j 个候选输出的声学 token 编辑距离;dist(oi,oj):第 i 个候选的 token 长度;组内候选的 token 差异越大,得分越高。 
  • 第二部分(音调多样性)std(F0),其中F0:归一化后的基频(音调);std:标准差函数;音调波动越大(标准差越高),韵律越丰富,得分越高。
    • 数值范围:0~+∞(无上限,多样性越高得分越高)。
    • 核心作用:提升 TTS 的主观自然度,实验中该奖励虽未优化客观 WER,但人类主观评估中 “韵律自然度” 得分最高。
  • TTS 最终奖励聚合
    • 聚合逻辑:核心奖励(R1)保证基础发音,约束奖励(R2)控制语速,增强奖励(R3)优化韵律,三者加权求和(论文实验中采用等权)。
    • 最终公式:Rtts = R1+R2+R3
    • 设计巧思:通过 “核心 + 约束 + 增强” 的组合,平衡客观准确率与主观体验,为 GRPO 与 DiffRO 的融合奠定基础。

实验验证

训练效率:新框架碾压开源方案

在 8 张 A100 GPU 上,论文提出的交替调度框架,训练速度远超基于 VeRL 的开源方案:

  • ASR 单步训练时间:54.6 秒(RTF=0.015),是开源方案的 2.3 倍快;
  • TTS 单步训练时间:16.73 秒(batch size=128),是开源方案的 1.8 倍快;
  • 关键原因:避免了多模块 GPU 资源冲突,SGLang 和 FSDP 的并行优化大幅提升效率

ASR 关键结论

  • 奖励设计比数据量更重要仅用R1(WER)效果有限,加入R2(幻觉惩罚)和R3(关键词奖励)后,性能大幅提升;
  • 长音频训练需针对性数据单纯增加长音频样本(D2)无法解决幻觉,需结合困难样本(D1)和关键词样本(D3);
  • 工业场景优先选 “全奖励 + 全数据集” 配置,WER 和抗幻觉能力均最优。

TTS 关键结论

  • 发音准确率:DiffRO > 融合方案 > GRPO > 基线;
  • 说话人相似度:GRPO > 融合方案 > 基线 > DiffRO;
  • 稳定性:DiffRO > 融合方案 > GRPO;
  • 落地推荐:优先选择 “样本过滤 +R1+R2” 融合方案,兼顾准确率、自然度和稳定性。

研究价值与未来展望

核心价值

  • 技术层面:首次提出适配音频大模型的轻量 RL 框架,解决了模态复杂、资源冲突的核心难题;同时探索了 GRPO 与 DiffRO 的融合方案,为 TTS 的 “准确率 + 自然度” 双优化提供了可落地的范式;
  • 工业层面:规则型奖励 + 困难样本训练的思路,无需标注海量偏好数据,降低了 RL 在 ASR/TTS 中的落地成本;实验结果可直接复用,加速工业产品迭代。

未来展望

  • 多语言扩展:当前实验主要基于中英双语,未来可扩展至低资源语言,优化小语种 ASR/TTS 的性能;
  • 奖励模型融合:将规则奖励与训练后的奖励模型结合,进一步提升奖励的精准度;
  • 多模态扩展:将框架适配到语音翻译、语音情感合成等更复杂的音频任务;
  • 轻量化部署:在保证性能的前提下,优化框架的显存占用,适配边缘设备训练。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注