Mega-ASR 面向“全场景复杂环境”高噪语音识别

论文链接：https://arxiv.org/abs/2605.19833
项目主页：https://xzf-thu.github.io/Mega-ASR/
GitHub Repo：https://github.com/xzf-thu/Mega-ASR
Hugging Face 模型：https://huggingface.co/zhifeixie/Mega-ASR
Hugging Face 数据集：https://huggingface.co/datasets/zhifeixie/Voices-in-the-Wild-2M
Bench: github.com/xzf-thu/Voices-in-the-Wild-Bench

Mega-ASR 是一个专门解决”真实世界语音识别翻车”问题的开源框架——它用涵盖54种噪声、回声、丢帧等复合场景的240万条数据训练，让模型在嘈杂现实环境下的词错误率降低30%+，同时大幅减少”听没了”和”乱编内容”这两种高频故障。解决的核心问题是：在各种嘈杂、失真、回声、断连的现实场景下，尽可能准确地把语音转成文字。模型基于 Qwen3-ASR-1.7B进行后训练，通过一套专门设计的数据集和训练方法来强化”恶劣环境下的识别能力”。

一、ASR 在「现实世界环境」为什么不行？

场景覆盖太窄：只解决噪音 / 远场单一问题，真实环境是复合干扰（噪音 + 混响 + 丢包一起上）。
复合鲁棒性缺失：缺乏对复杂环境的适应性，现实世界中的环境往往是多种因素共同作用的结果，很少模型能同时扛住多种失真叠加。
训练与真实不匹配：训练数据太简单（WER 4%–10%），遇到高难度场景（WER>30%）直接崩

二、数据：Voices-in-the-Wild-2M

大规模、高难度、物理合理的复合声学仿真数据集

现有语音数据集的 3 大致命问题：

只覆盖单一干扰：噪音 / 混响 / 远场分开做，不模拟真实复合环境
难度太 “温柔”：平均 WER 只有 4%–10%，训练不出强鲁棒模型
真实录音太少太贵：收集覆盖所有场景的真实录音成本极高、不可扩

为了推动这一更具挑战性场景下的研究，提出了 Voices-in-the-Wild-2M，一个基于频谱级代码驱动仿真（spectrogram-level code-based simulation）构建的大规模数据集。这种设计使得超大规模数据生成成为可能。

首先识别并定义了 7 类经典的现实声学效应，这些基础效应用于模拟各种物理环境或设备引起的退化现象：

真实退化现象	对应 Primitive
背景噪声	Additive Noise
延迟反射	Echo Delay
房间混响	Reverberation
削波失真	Nonlinear Distortion
带宽受限	Resampling
高频衰减	Spectral Filtering
音量不一致	Loudness Transformation
丢包/卡顿	Frame-level Stutter

设计了专门的频谱处理流水线，持续调整仿真参数，并利用 Qwen3-ASR 的监督微调（SFT）结果进行验证，直到模拟器在真实数据上的表现达到最佳拟合效果。

将这些原子效应组合成 54 种经过 Agent 验证的复杂声学配置，最终生成了 240 万条（2.4M）合成语音样本。

与直接枚举各种复杂真实环境不同，将野外环境（in-the-wild）中的语音退化过程划分为三个层级：

Primitive Acoustic Effects（基础声学效应）
Atomic Acoustic Effects（原子声学效应）
Compound Acoustic Scenarios（复合声学场景）

第一层：Primitive Acoustic Effects（基础声学效应）

用 DSP 手段实现最基本的声学退化组件

原子效应	核心基元组合	模拟真实场景
噪声（Noise）	加性噪声 + 响度归一	街道、咖啡馆、车内、人群
远场（Far-field）	混响 + 低通滤波 + 响度衰减	远距离说话、智能音箱远场
遮挡（Obstructed）	低通滤波 + 混响 + 衰减	隔门、隔窗、口罩、墙后说话
回声 + 混响（Echo&Reverb）	强混响 + 回声 + 高通	大厅、车库、体育馆、空旷房间
录制染色（Recording）	重采样 + 噪声 + 双带通滤波	手机外放再录制、设备串音
电子失真（Electronic Distortion）	非线性失真 + 低通	麦克风过载、削波、劣质录音
传输丢包（Transmission Dropout）	帧卡顿 + 响度归一	网络丢包、蓝牙不稳、流媒体卡顿

第二层：Atomic Acoustic Effects（原子声学效应）

在中间层，我们利用上述 Primitive Effects 构建了 7 种原子声学效应：

Atomic Effect	中文
Noise	噪声环境
Far-field	远场录音
Obstructed	遮挡语音
Echo & Reverb	回声与混响
Recording	录音链路效应
Electronic Distortion	电子失真
Transmission Dropout	传输丢失

一个 Atomic Effect 并不一定只对应一个 Primitive Effect。而是一个主导 Primitive + 若干辅助 Primitive。

比如：Far-field（远场）真实远场录音不仅仅是声音变小。通常同时具有：

声压衰减（Loudness）
高频损失（Spectral Filtering）
房间混响（Reverb）

第三层：Compound Acoustic Scenarios（复合声学场景）

最高层将多个 Atomic Effects 进行组合，比如视频会议

Far-field + Echo&Reverb + Recording

无论构建 Atomic Effect 还是 Compound Scenario，都保持 Primitive Effect 的固定执行顺序。为的是避免物理上不合理的处理链

关键创新：不是随机乱组合，而是按物理规则合成。

组合规则（保证真实不违和）

锚点效应（3 种）：远场 / 回声混响 / 遮挡（互斥，不同时出现）
修饰效应（4 种）：噪声 / 录制染色 / 电子失真 / 丢包（可叠加）

为了让难度 “均匀且可学习”，团队设计了全局 severity 参数 m ∈ [0,1]：

同一个音频里，所有失真共用一个 m
保证：要么整体简单，要么整体难，不会出现 “强混响 + 零噪音” 这种不自然组合

最终选用 Linear 线性分布：

简单、中等、困难样本均匀覆盖
训练最稳定、泛化最强

严格过滤保证可学习

剔除 WER > 70% 的样本（太难学不动）
保留物理合理组合
统一响度、统一格式、对齐标注

三、Mega-ASR

Qwen3-ASR 的基础上开发了 Mega-ASR-Base 模型

1. A2S-SFT：从声学 → 语义递进微调

解决：高失真下「听不清 → 猜不对」的连锁崩溃。分三阶段训练：

声学感知阶段：编码器 + 对齐器，按难度递进（WER<30% → <50% → <70%）
语义恢复阶段：冻结声学，只微调 LLM，学会从残缺信号还原语义
联合对齐阶段：全模块一起微调，声学与语义对齐

2. DG-WGPO：双粒度 WER 门控策略优化

解决：普通 WER 奖励在高失真下失效（只看词错，不管语义崩没崩）。设计两套奖励，按 WER 动态切换：

低 WER（<30%）：侧重词级别精细修正（软错误 / 硬错误区分）
高 WER（≥30%）：侧重句子级结构恢复（主干语义、长度、最长公共子串）

最终奖励 = 基础规则奖励 + 双粒度动态奖励

3. 环境感知路由（Router）

解决：鲁棒模型在干净音频上略有下降。

训练一个轻量二分类器，判断音频是否恶劣
恶劣 → 走 Mega-ASR
干净 → 走原生 Qwen3-ASR
推理开销 <1%，几乎无感

三、Experiments

Main results

采用自适应路由的通用 ASR 性能具有竞争力：MEGA-ASR 在干净语音和多语言基准测试上，相较于 Qwen3-ASR、Seed-ASR 和 Kimi-Audio 仍保持极强的竞争力。

声学扰动条件下达到当前最佳鲁棒性：相较于最强基线 Qwen3-ASR，MEGA-ASR 的错误率进一步降低了 17.4%；相较于 Gemini-3-Flash，则降低了 64.5%。

在组合式真实环境中的鲁棒性表现更优

在 Voices-in-the-Wild-Bench 基准测试中，MEGA-ASR 在多种真实世界退化条件下均取得了最佳性能，包括：

混合退化（mixed degradations）
远场语音（far-field speech）
录音伪影与设备缺陷（recording artifacts）

Analysis

通过消融实验，我们总结出五个关键观察（[Obs.1]–[Obs.5]），涵盖了语义层面收益、训练策略、奖励函数设计以及超参数敏感性等方面。相关证据分别来自表 5–9。下面对各项发现进行详细说明。

[Obs.1] MEGA-ASR 的收益不仅体现在 WER 上，也体现在语义层面指标上

表 7 显示，相比 Qwen3-ASR，MEGA-ASR 在语义层面指标上也取得了持续提升：

漏识内容（Missed Content）从 14.2 降低到 5.9。

这表明，MEGA-ASR 的改进不仅仅是降低词错误率（WER），还带来了更高层次的语义和整体理解能力提升，例如：

减少幻觉（Hallucination）；
减少整句或整段语音遗漏（Dropped Utterances）；

因此，MEGA-ASR 实现的是语义层面和整体层面的质量提升，而不仅是字词级别的识别优化。

[Obs.2] A2S-SFT 与 DG-WGPO 组件的消融分析

在 Voices 和 Noizeus 数据集上，对 A2S-SFT 各阶段以及 DG-WGPO 各组成部分进行了消融实验（表 5）。

分阶段的“声学到语义（Acoustic-to-Semantic）适配”过程是有效且必要的。
DAPO 作为强化学习阶段的基础优化框架。
句子级重构奖励对于中高错误率样本尤为关键。

[Obs.3] 基于规则的奖励函数与 LLM Judge 效果相当，但训练成本降低 3.2 倍

规则奖励已经能够充分捕获 LLM Judge 所提供的监督信号。

[Obs.4] 超参数消融实验

动态门控权重 αdyn 语义奖励权重 αs对模型性能的影响（表 8）

αdyn 所控制的权衡关系远比 αs 更敏感。

最终采用：

(αdyn, αs) = (0.6, 0.4)

因为它在所有测试子集上都达到最佳或接近最佳表现。

[Obs.5] 门控阈值 τ 的影响

过高的门控阈值会使门控机制过于严格（over-restrictive gating），从而限制奖励信号的有效传播，最终导致识别性能下降。

通过消融实验，得到以下核心结论：

MEGA-ASR 的收益不仅体现在 WER，还体现在语义完整性与内容保真度上。
A2S-SFT 的渐进式声学→语义适配以及 DG-WGPO 的各奖励组件均对性能提升至关重要。
规则奖励能够以接近 LLM Judge 的效果实现训练，同时将计算成本降低 3.2 倍。
动态门控权重 αdyn 是最敏感的超参数，最佳设置为 0.6。
门控阈值 τ=0.3 能在不同场景下取得最均衡的鲁棒性表现。