流式 LLM-ASR 模型优化论文全景(2022–2026)

原创:贾彦

内容 隐藏

时间范围:2022.01–2026.04,共收录17 篇 代表性论文,按时间顺序排列。每篇包含:简介、架构、关键创新、训练数据、实验结果、犀利点评、评分。⭐⭐ = 里程碑论文;⭐ = 值得精读

2022–2023:奠基期——LLM 如何接管 ASR

这一阶段的核心问题是:”能不能把LLM用到语音识别上? ” 研究者们刚刚开始尝试把 Whisper、LLaMA 等模型引入 ASR,流式能力还是次要问题,主要在验证可行性。


1. Prompting Large Language Models with Speech Recognition Abilities ⭐

arXiv ID : 2307.11795

发布日期 : 2023-07-21

发表状态 : ICASSP 2024

机构 : Meta AI

论文链接 : https://arxiv.org/abs/2307.11795

📌 简介

最早系统验证”把小音频编码器直接接到冻结 LLM 前端做 ASR”这个 GPT-style 范式可行的论文之一。将 Conformer encoder 输出作为 prefix embedding 拼接到 LLaMA-7B 的 text token 前,验证多语言 ASR 能力,以及 LLM 冻结时是否仍可学到多语言识别。

🔧 架构示意

音频 → Conformer Encoder → Prefix Embedding
                                    ↓
                文本 Token Embedding → LLaMA-7B (可冻结) → 转录输出

💡 关键创新

  • 建立了”Speech Prompt + LLM”的 GPT-style baseline 范式
  • 验证:LLM 冻结 + 仅训练 encoder 时仍有效,无需 LLM 参与 ASR 训练
  • 大步长 striding(~1s)下仍保持多语言识别能力

📊 训练数据&实验结果

  • 数据:Multilingual LibriSpeech(MLS,44.5k h,多语言)
  • MLS 英语 WER 4.3%,多语言超过 monolingual baseline 18%

☠️ 犀利点评

这篇的历史价值在于”第一批验证者”而非”创新者”。Encoder 接 LLM 做 ASR 这件事大家都在想,它只是第一批做出来并写清楚的。不支持流式是硬伤——GPT-style 必须把整段音频先编好再喂 LLM,实时场景完全用不了。论文本身偏工程报告,ablation 也比较粗糙。不过作为这个方向的开山之作必须了解。

⭐ 评分 : 6/10

2. Chunked Attention-based Encoder-Decoder for Streaming Speech Recognition ⭐

arXiv ID : 2309.08436

发布日期 : 2023-09-15

发表状态 : ICASSP 2024

机构 : RWTH Aachen / Google

论文链接 : https://arxiv.org/abs/2309.08436

📌 简介

AED(Attention Encoder-Decoder)模型改造为 chunk-wise 流式模型,用特殊的 End-of-Chunk(EOC)符号代替传统 EOS 符号驱动 chunk 间跳转。理论分析表明 Chunked-AED 等价于一个 chunk 级别的 Transducer (RNN-T)。同时研究了长音频泛化、beam size、length normalization 等实际部署问题。

PS: RNN-T consists of three major building blocks:

RNN-T Architecture

🔧 架构示意

音频流 → Chunk-aware Encoder(限制未来帧可见范围)
                    ↓
       Chunk-wise Decoder(EOC token 驱动 chunk 跳转)
                    ↓
              流式转录输出(chunk-by-chunk)

💡 关键创新

  • AED 流式改造:EOC token 替换 EOS,使 decoder 可 chunk-wise 生成
  • 理论证明 Chunked-AED ≈ Chunk-level Transducer,统一两类模型
  • 长音频泛化:串联短音频序列训练,无需专门长音频数据

📊 训练数据&实验结果

  • 数据:LibriSpeech(960h)+ TED-LIUM-v2
  • LibriSpeech test-clean 流式 WER 2.7%,与非流式差距极小

☠️ 犀利点评

这篇的意义被低估了。它把 AED 和 Transducer 的理论关系说清楚了,后续很多流式 LLM-ASR 设计都是这个思路的变体。但它本身并没有引入 LLM,是”流式 AED 优化”论文,和”LLM-ASR”严格来说不在一个赛道。CHAT(2602.24245)可以直接看作这篇的 LLM 时代续作。

⭐ 评分 : 7/10


3. Smoothed Label Distillation for Decoder-Only ASR(SLD)

arXiv ID : 2311.04534

发布日期 : 2023-11-08

发表状态 : ICASSP 2024

机构 : Alibaba DAMO Academy

论文链接 : https://arxiv.org/abs/2311.04534

代码链接 : https://github.com/alibaba-damo-academy/SpokenNLP

📌 简介

研究 decoder-only Transformer(GPT-style)做 ASR 时如何处理离散语音 token 的训练损失问题。发现直接在音频 token 上用 CE loss 并不稳定,提出 Smoothed Label Distillation(SLD),用 KL 散度 + 平滑标签对音频 token 进行自回归建模

🔧 架构示意

音频 → 离散化(HuBERT/EnCodec等) → 音频离散 token
                                            ↓
                  Decoder-Only Transformer(GPT-style)
                            ↓                    ↓
                    音频 token 预测        文本 token 预测
                  (SLD: KL散度+平滑标签) (标准 CE loss)

💡 关键创新

  • 指出 Loss Masking(忽略音频 token 的 loss)和直接 CE 都不是最优的
  • SLD:KL 散度 + 平滑标签,让模型学到音频 token 间的自回归依赖
  • 对 SpeechGPT 等离散 token ASR 范式的训练目标优化有指导意义

📊 训练数据&实验结果

  • 数据:LibriSpeech(960h)
  • 超越 Loss Masking 策略,在多种语音离散化方法下一致改善

☠️ 犀利点评

这是一篇”找到真正问题并解决它”的小而精的工作。离散 token ASR 的训练损失该怎么设计这个问题在当时没人仔细研究,它认真研究了。但离散 token ASR 的精度上限本来就比连续特征差,SLD 改善的是”训练方式”而非”架构上限”。流式能力没有涉及,属于 decoder-only ASR 的训练基础研究。

⭐ 评分 : 6/10


▌2024:爆发期——流式框架、多任务、工程化

2024 年是流式 LLM-ASR 真正爆发的一年。BESTOW 确立了 read-write policy 框架,Transducer-Llama 给出 RNN-T 下最优 LLM 集成方案,Seed-ASR 展示了工业 LLM-ASR 的真实边界。


4. BESTOW: Efficient and Streamable Speech Language Model ⭐⭐

arXiv ID : 2406.19954

发布日期 : 2024-06-28

发表状态 : Interspeech 2024 / NeurIPS 2024 Workshop

机构 : NVIDIA

论文链接 : https://arxiv.org/abs/2406.19954

代码链接 : https://github.com/NVIDIA/NeMo(含 BESTOW 实现)

📌 简介

提出 BESTOW 架构,将 GPT-style(预拼接音频 embedding)和 T5-style(逐层 cross-attention)的优点融合。核心是用文本 query + 音频 key/value 的 cross-attention 替代音频 prefix 拼接,既保持高效率又天然支持流式。将流式 SpeechLLM 重新定义为 read-write policy 问题,统一离线与流式研究框架。

🔧 架构示意

音频流 → 流式 Speech Encoder → 音频特征(Key/Value)
                                        ↓
文本 Prompt → LLM 内各层 Cross-Attention(文本作 Query)
                                        ↓
                         read-write policy 网络
                     (决定何时输出 token,何时继续 read)
                                        ↓
                              流式多任务输出(ASR/AST/SQA)

💡 关键创新

  • 首个同时支持流式和多任务(ASR/AST/SQA)的开源 SpeechLLM
  • 将流式问题转化为 read-write policy,借鉴同步翻译领域成熟研究
  • text query 驱动音频 cross-attention,效率优于 GPT-style prefix 拼接
  • 87k 小时数据规模,一天内可完成训练

📊 训练数据&实验结果

  • 数据:87,000 小时多语言语音(公开 + 私有)
  • ASR、AST、SQA 多任务 SOTA;LibriSpeech test-clean WER 1.9%

☠️ 犀利点评

2024 年流式 LLM-ASR 里最值得精读的论文,没有之一。它把”流式 SpeechLLM”的问题空间定义清楚了——read-write policy——并给出了第一个能跑、能开源的多任务流式解法。但 87k 小时数据不是普通团队能复现的,且流式性能上没有做细致的延迟分析(只说”支持流式”,没给具体 latency 数字)。研究者必读;工程师注意数据门槛。

⭐ 评分 : 8/10


5. Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition

arXiv ID : 2407.04675

发布日期 : 2024-07-05

发表状态 : ICASSP 2025

机构 : ByteDance / Seed Team

论文链接 : https://arxiv.org/abs/2407.04675

📌 简介

字节跳动 Seed 团队的大规模工业 LLM-ASR 系统报告。将 LLM 与语音编码器深度融合,支持上下文感知识别(热词、场景提示)、多方言、噪声鲁棒。采用分阶段训练:预训练弥合模态差距、SFT 对齐、RLHF 提升质量。注:论文本身为离线系统 ,不涉及 流式架构设计或流式实验 。

🔧 架构示意

音频 → 大规模 Speech Encoder(Conformer/类似结构)
                    ↓ Adapter
             LLM(Decoder-Only)
                    ├── 预训练:弥合模态差距
                    ├── SFT:任务对齐
                    └── RLHF:识别质量与鲁棒性提升
                    ↓
    上下文 Prompt(热词/领域/方言信息)→ 注入 LLM 输入
                    ↓
               离线转录输出(论文不涉及流式推理)

💡 关键创新

  • 工业级 LLM-ASR 全流程:从预训练到 RLHF 的完整 pipeline
  • 上下文感知:支持 prompt 注入热词和领域信息,无需重新训练
  • RLHF 首次系统应用于 ASR 质量提升
  • 多方言、噪声鲁棒大规模验证(论文不涉及流式)

📊 训练数据&实验结果

  • 数据:数十万小时中英双语(字节内部,规模未完全公开)
  • 内部多场景 benchmark SOTA,普通话 CER 和英语 WER 均优于 Whisper-v3

☠️ 犀利点评

字节在 LLM-ASR 上的第一次全面亮相,工程深度足。上下文 prompt 注入对产品场景特别有用——会议、垂直领域的识别质量问题本质是”模型不懂这些词”,prompt 是性价比最高的解法。但 RLHF 在 ASR 里的 reward 设计细节披露不够。论文本身为离线系统,不涉及流式内容,纳入本调研是作为重要工业离线 LLM-ASR 参考基线。

⭐ 评分 : 7/10


6. Transducer-Llama: Integrating LLMs into Streamable Transducer-based ASR ⭐

arXiv ID : 2412.16464

发布日期 : 2024-12-21

发表状态 : ICASSP 2025

机构 : Meta AI

论文链接 : https://arxiv.org/abs/2412.16464

📌 简介

将 LLM 集成到 Factorized Transducer(FT)框架中,天然继承 RNN-T 的流式能力。提出”弱到强 LM swap”策略:先用弱 LM 做 RNN-T 训练,再替换为强 LLM 预测器,通过 MWER loss 微调完成集成。还引入词汇表适配技术缓解 LLM 大词汇表带来的数据稀疏问题。

🔧 架构示意

音频流 → 流式 Conformer/Emformer Encoder
                    ↓
         Factorized Transducer
    ┌────────────────────────────────┐
    │   Blank Predictor(轻量网络)   │
    │   Non-Blank Predictor(LLM)   │← 弱→强 swap
    │   Joint Network(sigmoid/softmax混合)│
    └────────────────────────────────┘
                    ↓ MWER 微调
               流式转录输出

💡 关键创新

  • “弱到强 LM swap”:先用弱 LM 训 RNN-T,再换 LLM——绕过联合训练的优化陷阱
  • 词汇表适配:将 LLM 大词表映射到语音系统词表,降低训练代价
  • MWER loss 端到端调优 LLM 集成效果

📊 训练数据 & 实验结果

  • 数据:LibriSpeech(960h 英语)+ MLS 多语言(en 44.7k h、fr 1.1k h、it 0.2k h、nl 1.6k h)
  • 相对 FT baseline WER -17%;相对 RNN-T baseline -32%(LibriSpeech)

☠️ 犀利点评

这篇方法论含金量最高。”弱到强 swap”直接击中 RNN-T+LLM 联合训练效果差的核心原因——强 LM 在 RNN-T loss 训练期间会让 encoder 偷懒靠语言先验而不好好学声学信息,swap 后 MWER 才能把 LLM 能力真正释放出来。词汇表适配技巧也务实,工程里直接能用。但 Meta 的数据资源(44.7k 小时英语)不是普通团队能比的,中文等其他语系泛化性存疑。

⭐ 评分 : 8/10

7. Multi-token Prediction for Faster Speech LLaMA Decoding

arXiv ID : 2409.12116

发布日期 : 2024-09

发表状态 : Interspeech 2024 Workshop

机构 : JHU / Meta AI

论文链接 : https://arxiv.org/abs/2409.12116

📌 简介

针对 decoder-only LLM-ASR 推理速度慢的问题,引入 multi-token prediction:每个解码步骤同时预测多个未来 token。利用 ASR 任务的特殊性——音频条件化使 token 间依赖比纯语言建模弱——使多 token 预测接受率更高。

🔧 架构示意

音频 → Encoder → Embedding
                    ↓
           Decoder-Only LLM
                    ↓
     每步预测 K 个未来 token(并行解码头)
                    ↓
       验证接受 → 推进 K 步;拒绝 → 回退

💡 关键创新

  • Multi-token prediction 应用于 LLM-ASR 解码加速
  • 利用 ASR 任务中音频条件化降低 token 间强依赖的特性,保证接受率
  • LibriSpeech 上 ~3.2x 解码速度提升,WER 无损

📊 训练数据&实验结果

  • 数据:LibriSpeech(960h)
  • 3.2x 解码加速,WER 不变

☠️ 犀利点评

和后来的 SpecASR 方向相近,但发布更早、思路更简单直接。Multi-token prediction 没有专门为 ASR 特性设计,更像是把 NLP 领域 speculative decoding 的前身直接迁移。SpecASR 后来做得更系统,工程价值已被超越。这篇的贡献在于”第一个在 LLM-ASR 上想到并实现了这个方向”。

⭐ 评分 : 6/10

PS:阶跃 StepAudio 2.5 ASR,模型的核心突破在于速度与精度的兼得。我们率先将大语言模型(LLM)的推理加速技术引入语音识别领域,基于 ASR+MTP-5 深度融合架构,实测推理速度提升 400%、时延降低 60%,推理峰值达 500 tokens/s,推理成本直降 80%。传统语音识别模型受限于自回归生成机制,必须逐个 Token 依次输出,就像打字员一个字一个字地敲键盘。StepAudio 2.5 ASR 将 Step 3.5 Flash 同款的 MTP(多 Token 预测)技术移植至语音识别领域,使模型能够一次预测多个候选 Token,并通过并行验证机制快速确认结果。

StepAudio 2.5 ASR MTP-5

▌2025:成熟期——推理加速、端侧部署、多任务融合

2025 年流式 LLM-ASR 已经成熟,核心问题变成:怎么更快、更省、更全能 。推理加速、端侧部署、多任务联合成为三条主线。

8. MFLA: Monotonic Finite Look-ahead Attention for Streaming Speech Recognition ⭐

arXiv ID : 2506.03722

发布日期 : 2025-06-04

发表状态 : Interspeech 2025

机构 : Honor Device Co. / 上海交通大学

论文链接 : https://arxiv.org/abs/2506.03722

📌 简介

提出 Streaming-Whisper 框架:在 Whisper 上通过 LoRA fine-tune 实现流式识别,无需从头训练。核心是将 CIF(Continuous Integrate-and-Fire)机制引入 LLM-ASR,让模型自己学习”音频帧到 token 的软对齐”,用 MFLA(Monotonic Finite Look-ahead Attention)让 decoder 每个 token 在解码时看到无限左上下文 + 有限右上下文 ,替代传统固定 chunk 切割,从根本上缓解切块边界截断问题。

🔧 架构示意

音频流 → Whisper Encoder(MoChA chunk 自注意力,chunk size 均匀采样 [32,128])
                    ↓ hidden states H
         CIF Predictor(两层线性 + ReLU)
         ├── 预测每帧权重 α,累积触发 token 边界(MRE loss)
         └── 推理时追踪解码进度、防止边界幻觉
                    ↓ 动态分段对齐
         Decoder(Whisper Decoder + MFLA)
         ├── 每个 token 可见:无限左上下文 + 有限右上下文(look-ahead span ~ Poisson(λ=3))
         ├── 训练:hybrid-attention(full-attention + MFLA 混合)
         └── 推理:wait-k decoding(wait-3 为默认)
                    ↓
               流式转录输出(可延续 buffer state 减少重复计算)
扩展 SpeechLLM 版本:
音频 → Whisper-Large-V3 Encoder → Adapter(2层 cross-attention)→ Qwen2.5-3B-Instruct → 流式转录

💡 关键创新

  • CIF-driven 软对齐 :用 CIF predictor 估计帧级 token 权重,建立准单调对齐,替代 fixed-chunk 硬切割,缓解边界截断问题
  • MFLA :有限右上下文注意力机制,每个 token 动态决定看多少右侧音频帧,实现 prefix-to-prefix 训练范式
  • wait-k + buffer state 延续 :wait-3† 方案在 decoder buffer 中保留状态,比 Local Agreement baseline 减少 60.86% 冗余计算,延迟 1.41s
  • 统一离线/在线框架 :look-ahead span→∞ 即退化为离线系统,单模型同时支持两种模式
  • SpeechLLM 扩展验证 :接入 Qwen2.5-3B,在线解码 WER 仅比离线高 0.98%

📊 训练数据 & 实验结果

  • 数据:WenetSpeech4TTS Premium + LibriSpeech + MLS + VoxPopuli,覆盖中/英/德/西语
  • Whisper-Large-V3-Turbo:离线 WER 5.63%,在线 WER 7.17%(1s chunk,wait-3),差距 1.54%
  • 延迟对比(vs Local Agreement baseline DAL=1.65s):wait-3 DAL=1.41s(-14.5%),wait-1 DAL=0.93s(-43.6%)
  • SpeechLLM 在线 WER:WenetSpeech4TTS Premium 3.41%,LibriSpeech test-clean 2.38%

☠️ 犀利点评

CIF + 有限右上下文注意力这个组合是对的,比 fixed-chunk 切割聪明——让模型自己学对齐而不是按时钟切。wait-3† 的 buffer state 延续把 FLOPs 压到 12.77G(vs baseline 37.56G),工程上非常实用。但两个核心局限论文自己也承认:CIF predictor 太简单(只有两个线性层),帧级权重估计有偏差;LoRA fine-tune 对 encoder 的流式适配效果有限,online 和 offline WER 差距(1.54%)还是显著。更根本的问题是:CIF 感知的是”该输出第几个 token 了”,并不是真正的语义/韵律边界——说话人停顿、重读、换气这些信息 predictor 感知不到,只是比 fixed-chunk 随机切割好一点而不是彻底解决了边界问题。SpeechLLM 扩展部分只用了 LibriSpeech + WenetSpeech4TTS 评测,覆盖场景有限。整体是一篇把正确思路做出来了但还没做完的工作,predictor 升级和 encoder 流式改造是明显的后续方向。

⭐ 评分 : 7/10


9. SpecASR: Accelerating LLM-based ASR via Speculative Decoding ⭐

arXiv ID : 2507.18181

发布日期 : 2025-07-24

发表状态 : DAC 2025

机构 : 厦门大学 / 多校联合

论文链接 : https://arxiv.org/abs/2507.18181

📌 简介

针对 LLM-ASR 的推测解码框架。核心观察:ASR 解码是音频条件化的,小模型与大模型输出对齐率极高。提出自适应草稿序列生成(动态调整草稿长度)、草稿序列复用策略(减少草稿模型延迟)和两步稀疏 token 树生成算法。

🔧 架构示意

音频 → 小型 Draft LLM-ASR(快速生成候选 token 树)
                    ↓ 自适应长度控制
       大型 Target LLM-ASR(并行验证 token 树)
                    ├── 音频条件化保障高接受率
                    └── 稀疏 token 树减少 draft 开销
                    ↓
               加速后流式转录输出

💡 关键创新

  • ASR 专用推测解码:利用音频条件化保障 draft/target 高对齐率
  • 自适应草稿长度:动态调节 draft 长度,平衡验证开销与接受率
  • 两步稀疏 token 树:减少 draft 模型的冗余计算

📊 训练数据 & 实验结果

  • 数据:LibriSpeech + 多个英文公开 benchmark(评测数据集)
  • 3.04x–3.79x 加速(vs 自回归基线),1.25x–1.84x(vs 标准推测解码),精度零损失

☠️ 犀利点评

推测解码在 LLM 推理加速里已经成熟,这篇把它移植到 LLM-ASR 是顺理成章,但做了足够多的 ASR 专有设计。3.04x–3.79x 加速是真实 end-to-end 数字,不是理论上界。但前提是你已经有一个 LLM-ASR 系统,且能负担同时运行一大一小两个 LLM。资源受限场景帮助有限;draft 模型选型和训练策略披露也不够细致。

⭐ 评分 : 8/10

10. WhisperKit: On-device Real-time ASR with Billion-Scale Transformers ⭐

arXiv ID : 2507.10860

发布日期 : 2025-07-14

发表状态 : ICML 2025 On-Device Learning Workshop

机构 : Argmax

论文链接 : https://arxiv.org/abs/2507.10860

代码链接 : https://github.com/argmaxinc/WhisperKit

📌 简介

面向端侧部署的 Whisper 实时 ASR 推理优化系统。在 Apple 设备本地运行,匹配甚至超越云端 gpt-4o-transcribe、Deepgram nova-3 的精度,延迟低至 0.46s,WER 仅 2.2%。核心贡献是块对角 mask 自蒸馏、Apple ANE 极致优化和量化压缩。

🔧 架构示意

原始 Whisper Large v3 Turbo
    ↓ 块对角 mask 自蒸馏(d750:15s block)
流式化 Audio Encoder(块对角自注意力,静音缓存)
    ↓
Text Decoder + LocalAgreement 流式确认策略
    ↓ 量化(1.6GB → 0.6GB)
Apple Neural Engine(ANE)原生加速部署
    ↓
0.46s 延迟端侧实时转录

💡 关键创新

  • 块对角 mask 自蒸馏:原生支持 Whisper 流式推理,静音缓存减少无效前向
  • 量化 1.6GB→0.6GB,WER 损失 <1%
  • Apple ANE 近峰值硬件利用率,端侧超越云端 baseline

📊 训练数据 & 实验结果

  • 数据:CommonVoice 17(5 语种 fine-tune);LibriSpeech + earnings22 评测
  • WER 2.2%,延迟 0.46s;超越 gpt-4o-transcribe 和 Deepgram nova-3

☠️ 犀利点评

最接近纯工程论文的形态,每步都有充分 ablation 支撑——真实的工程成就。但整体是工程优化论文,不是算法创新论文:块对角 mask 引用自刘等人的先验工作,LocalAgreement 也是既有方法。价值在于”把现有技术栈在 Apple ANE 上极致优化”。如果你不做苹果端侧部署,快速浏览即可。

⭐ 评分 : 7/10

11. Train Short, Infer Long: Speech-LLM Enables Zero-Shot Streamable Joint ASR and Diarization(JEDIS-LLM)⭐

arXiv ID : 2511.16046

发布日期 : 2025-11-20

发表状态 : ICASSP 2026

机构 : 微软 UCLA

📌 简介

论文链接 : https://arxiv.org/abs/2511.16046

JEDIS-LLM:端到端 Speech-LLM,支持联合流式说话人分离(Diarization)+ ASR。模型仅在 ≤20s 短音频上训练,但可零样本泛化到任意长度长音频流式推理。通过 Speaker Prompt Cache(SPC)机制实现跨 chunk 说话人一致性传播,并支持预注册说话人 profile。

🔧 架构示意

音频流 → 流式 Speech Encoder
         ├── Spk-Decoder(Word-level Speaker Supervision)
         └── Projector
                    ↓
              LLM(LoRA 适配)
                    ↓
    流式 chunk 推理:
    Speaker Prompt Cache(SPC)
    ┌─────────────────────────────┐
    │ 每个说话人存储代表音频片段    │
    │ 跨 chunk 传递,实时更新      │
    └─────────────────────────────┘
                    ↓
         说话人归属转录("谁说了什么")

💡 关键创新

  • 首个零样本流式长音频联合 ASR + 说话人分离 Speech-LLM
  • SPC:借助 LLM 自回归 KV cache 机制,无需后处理全局聚类即可保持跨 chunk 说话人一致性
  • Word-level Speaker Supervision:单词级说话人标签增强 encoder 说话人判别能力
  • 仅短音频(≤20s)训练,零样本泛化到任意长音频

📊 训练数据 & 实验结果

  • 数据:内部多说话人数据(短音频 ≤20s);CALLHOME / AMI 标准 benchmark 评测
  • 超越 Sortformer、Meta-Cat(短音频场景);超越 DiarizationLM(长音频场景)

☠️ 犀利点评

这篇解决了一个真实且棘手的问题——流式长音频多说话人转录。SPC 设计优雅:用 LLM 自回归的 KV cache 机制天然延伸到说话人一致性跨 chunk 传播,不需要后处理全局聚类,也不需要重新训练。”仅在 <20s 短音频训练但零样本泛化到长音频”如果可复现,非常有价值。但实验数据集(CALLHOME、AMI)并非最新最难的 benchmark,和 DiarizationLM 的对比有主场优势之嫌(后者是 cascade 系统)。chunk size、SPC 更新频率的 ablation 还不够充分。

⭐ 评分 : 8/10

12. Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing(Whisper-LLaDA)

arXiv ID : 2509.16622

发布日期 : 2025-09-20

发表状态 : ICASSP 2026

机构 : IDIAP Research Institute / 多校联合

论文链接 : https://arxiv.org/abs/2509.16622

代码链接 : https://github.com/liuzhan22/Diffusion-ASR

📌 简介

将扩散 LLM(LLaDA-8B)引入 ASR,探索非自回归解码路径。首先作为 Whisper-LLaMA 转录的外部 deliberation 模块,利用 LLaDA 的双向注意力 + 去噪能力修正转录错误。进一步验证 LLaDA 作为独立 ASR 解码器时,扩散解码比自回归更快,但精度略低。

🔧 架构示意

音频 → Whisper-Large-v3 Encoder(冻结)
                    ↓
        Q-Former(44 trainable queries,0.33s window)
                    ↓ Projection
            LLaDA-8B-Instruct(LoRA 微调)
            ├── 模式1:Deliberation(修正 Whisper-LLaMA 初始转录)
            │   ├── 随机 mask 策略
            │   ├── 最低置信度 mask 策略
            │   └── 半自回归策略
            └── 模式2:独立 ASR 解码器(扩散解码/半自回归解码)

💡 关键创新

  • 首次系统验证扩散 LLM 用于 ASR 任务
  • 音频条件化嵌入是关键:纯文本 LLaDA(无声学特征)做 deliberation 无效
  • 半自回归解码策略:平衡扩散解码的速度与精度

📊 训练数据 & 实验结果

  • 数据:LibriSpeech(960h 英语)
  • 最佳级联 WER:test-clean 2.25% / test-other 4.94%(vs Whisper-LLaMA baseline -12.3%)
  • 独立扩散解码:速度快于 AR,但精度略低

☠️ 犀利点评

态度很诚实的探索性论文——明确说”扩散 LLM 做 ASR 的精度比自回归低,但速度更快”,没有粉饰结果。核心 insight 有价值:音频条件化嵌入对扩散 LLM 有效运作是必要条件。但实验只在 LibriSpeech 上(960h 英语有声书,难度偏低),无法说明噪声/口音/真实对话场景的鲁棒性。”更快但不够好”对生产场景吸引力有限。更适合定位为”验证可行性的技术报告”。

⭐ 评分 : 7/10

▌2026 Q1:持续演进期——统一架构、生产落地、全双工

13. Streaming Speech Recognition with Decoder-Only LLMs and Latency Optimization(MoCha-ASR)⭐

arXiv ID : 2601.22779

发布日期 : 2026-01-30

发表状态 : ICASSP 2026

机构 : 合肥工业大学 / 多校

论文链接 : https://arxiv.org/abs/2601.22779

📌 简介

提出将 read/write 策略网络与 MoChA(Monotonic Chunkwise Attention,单调分块注意力)结合,让 Decoder-Only LLM 支持流式 ASR。引入最小延迟训练目标(minLT loss),token 生成延迟降低 62.5%,无需 CTC 强制对齐,端到端可优化。

🔧 架构示意

音频流 → 流式 Conformer Encoder(context-sensitive chunking)
                    ↓ LoRA 微调
         MoChA Policy Network(决定 read/write)
              ├── read:继续接收音频帧
              └── write:触发 LLM 生成下一 token
                    ↓
         Qwen2.5-1.5B(Decoder-Only LLM)
         音频/文本 token 交错输入
                    ↓
    minLT loss 约束对齐边界 → 延迟降低 62.5%

💡 关键创新

  • 端到端流式 LLM-ASR,无需 CTC 强制对齐
  • minLT(Minimum Latency Training)损失约束对齐边界,显著压缩生成延迟
  • 流式/非流式模型参数共享,联合训练降低开发成本

📊 训练数据 & 实验结果

  • 数据:AISHELL-1(165h)+ AISHELL-2(1000h)+ 内部多领域数据
  • AISHELL-1 CER 5.1% / AISHELL-2 CER 5.5%,优于所有流式 baseline;token 生成延迟降低 62.5%

☠️ 犀利点评

踏实的工作。别人做流式 LLM-ASR 要么靠外挂 CTC 对齐、要么用 wait-k 硬切块,它真的用 MoChA 自适应分段、端到端训练。minLT loss 把延迟压了 62.5% 这个数字有真实工程价值。但实验只在中文数据集(AISHELL-1/2)上跑,基线列表里 BESTOW 是他们自己复现的,存在选择性对比嫌疑。MoChA 本身并不新,核心贡献是把它接到 LLM 上——有价值,但不算突破性创新。

⭐ 评分 : 8/10

14. Chunk-wise Attention Transducers(CHAT)for Fast and Accurate Streaming Speech-to-Text

arXiv ID : 2602.24245

发布日期 : 2026-02-27(提交于 2025 年底)

发表状态 : ICASSP 2026

机构 : Apple / Google

论文链接 : https://arxiv.org/abs/2602.24245

📌 简介

提出 CHAT,将 RNN-T 的逐帧 additive joiner 替换为 chunk 内 cross-attention joiner。保留 RNN-T 流式能力同时引入局部对齐建模的灵活性,无需对齐时间戳信息。对语音翻译(ST)的提升尤其显著。

🔧 架构示意

音频流 → 流式 FastConformer Encoder(chunk-aware)
                    ↓ 按固定 chunk 输出
         CHAT Joiner(替换原 RNN-T joiner)
         ┌─────────────────────────────────────┐
         │ Predictor 输出(文本历史)→ Query     │
         │ Encoder chunk 输出(音频)→ Key/Value │
         │   ↓ cross-attention(chunk 内)       │
         │   ↓ + Predictor 残差 + ReLU           │
         │   ↓ → 词表空间概率分布                │
         └─────────────────────────────────────┘
                    ↓ blank → 下一 chunk;非 blank → 输出 token

💡 关键创新

  • chunk 内 cross-attention joiner 放宽 RNN-T 严格单调对齐约束
  • 无需时间戳信息训练,改动极小但效果稳健
  • 对语音翻译(ST)提升尤其显著(+18% BLEU)

📊 训练数据 & 实验结果

  • 数据:NeMo 多语种数据;语音翻译:MuST-C v2
  • ASR WER -6.3%;ST BLEU +18.0%;训练内存 -46.2%;训练速度 1.36x;推理速度 1.69x

☠️ 犀利点评

增量但扎实。chunk 内交叉注意力在 AED 框架里早就做过了,迁移到 Transducer joiner 上有工程价值但创新幅度有限。实验在 NeMo 框架内做,没有和 LLM-ASR 系统正面对比,不清楚在最新 LLM-based pipeline 中是否还有竞争力。对语音翻译(ST)的提升(+18% BLEU)更惊艳——RNN-T 严格单调约束对翻译是真正的硬伤,这篇有效解决了这个问题。

⭐ 评分 : 7/10

15. Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming ASR

arXiv ID : 2603.11123

发布日期 : 2026-03-11

发表状态 : Submitted to Interspeech 2026

机构 : 科大讯飞 / 多校

论文链接 : https://arxiv.org/abs/2603.11123

📌 简介

提出 Uni-ASR,用统一 LLM 框架同时支持非流式和流式语音识别,无需任何架构改动即可切换两种模式。引入三种训练范式联合训练(NS/SS/CS)和 latest-token fallback 解码策略,在不增加延迟的前提下提升流式精度。

🔧 架构示意

音频 → FireRedASR Conformer Encoder(full + dynamic chunk attention)
                    ↓ Adapter
         Qwen3-1.7B(Decoder-Only LLM)

训练时:NS / SS / CS 三范式 1:1:1 采样
    ├── NS:非流式,全序列输入
    ├── SS:流式,强制对齐切块,speech-text interleaved
    └── CS:context-aware 流式,输入最后 token 置 <pad>,学跨 chunk 重解码

推理时:
    流式:KV Cache 跨 chunk 增量复用
          latest-token fallback(最后 token 等下一 chunk 再确认)
    非流式:直接全序列解码

💡 关键创新

  • 单模型统一流式/非流式,三范式 1:1:1 联合训练
  • context-aware streaming(CS)训练范式消除训练推理 mismatch
  • latest-token fallback 解码策略:边界 token 延一 chunk 确认,实测无额外延迟

📊 训练数据 & 实验结果

  • 数据:中英双语混合——WeNetSpeech(10000h+)+ AISHELL + LibriSpeech + GigaSpeech + 内部数据
  • 流式 AISHELL-1 CER 2.15% / LibriSpeech test-clean WER 2.44%(1000ms chunk)
  • 超越 Speech ReaLLM、SpeechLLM-XL、MoCha-ASR

☠️ 犀利点评

“大而全”路线的代表作,工程细心度高。但本质是既有技术的精心组合:interleaved speech-text(借鉴 CosyVoice2)、hold-n 策略(已有)、KV cache reuse(已有)。fallback 解码的 idea 小而实用,但不算重大创新。Qwen3-ASR-1.7B 在他的 streaming benchmark 里数字更好,但 Qwen3 是靠重复非流式解码凑出来的流式,计算量差了一个数量级——Uni-ASR 没把计算复杂度公平列出是一个败笔。

⭐ 评分 : 7/10

https://mp.weixin.qq.com/s/rSk0WBc4VjW0dkqBspKofA

16. NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR ⭐

arXiv ID : 2604.18105

发布日期 : 2026-04-20

机构 : NIO / 蔚来汽车

论文链接 : https://arxiv.org/abs/2604.18105

📌 简介

面向生产部署的 LLM-ASR 框架,系统解决轻量化、幻觉抑制、热词定制三大痛点。基于 phoneme-level encoder 预训练减少模态差距,引入 Iterative Asynchronous SFT(IA-SFT)防止 representation drift,设计 ASR 专用 RL 提升识别质量,并以 phoneme RAG 实现百万量级热词定制。

🔧 架构示意

音频 → 600M Conformer Encoder(phoneme CTC 预训练,CKA 监控 drift)
                    ├── 流式:dynamic-chunk mechanism(预训练期内嵌)
                    └── phoneme CTC head → 音素假设
         MLP Adapter(4x 下采样,160ms/token)
                    ↓
              Qwen3-1.7B(LLM 解码器)
                    ↑
         Phoneme RAG:音素假设 → 检索热词数据库(<1ms)→ Prompt 注入

训练 pipeline:
    Stage1: Encoder 预训练(phoneme CTC,CR-CTC)
    Stage2: Alignment(仅训练 Adapter,冻结其余)
    Stage3: IA-SFT(异步并行,CKA 监控 encoder 稳定性)
    Stage4+5: Late Joint SFT + Context SFT + ASR-RL

💡 关键创新

  • Phoneme-level encoder 预训练:低熵表示减少模态差距,天然支持流式
  • IA-SFT:异步 SFT 在对齐阶段即开始,CKA 监控防止 representation drift
  • ASR-RL:专为 ASR 设计的强化学习,进一步提升识别质量和幻觉鲁棒性
  • Phoneme RAG:百万热词定制,检索延迟小于1ms

📊 训练数据 & 实验结果

  • 数据:25 个 benchmark(15 公开 + 10 内部);中英双语大规模内部数据
  • 2.3B 参数达到多个公开 benchmark SOTA;内部 entity-intensive 场景大幅领先

☠️ 犀利点评

NIO 车载场景出发的工业论文,工程诚意十足。phoneme-level encoder 预训练、IA-SFT 防 drift、ASR-RL、百万热词 RAG——每个模块都是真实生产痛点的解法。CKA 动态监控 encoder 表示偏移这个手段很细。但核心数据不公开,学术可复现性为零;”25 个 benchmark SOTA”要打折——主要赢在内部实体密集场景;Streaming 支持是”优化了”而非”重新设计了”,技术细节披露克制。

⭐ 评分 : 8/10

17. UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction

arXiv ID : 2604.19221

发布日期 : 2026-04-21

机构 : NIO / 蔚来汽车

论文链接 : https://arxiv.org/abs/2604.19221

📌 简介

提出第一个面向全双工语音系统的统一音频前端 LLM(UAF)。将 VAD、轮换检测(TD)、说话人识别(SR)、ASR、QA 等多种前端任务统一为单一自回归序列预测问题,以 600ms 固定时长流式音频块为输入,输出控制状态 token 驱动系统状态机。

🔧 架构示意

音频流(600ms 固定块)
    ↓
音频编码器 → 特征提取
    ↓
LLM(自回归)
    ├── 语义 token(转录内容)
    └── 控制 token(VAD状态/说话人切换/打断信号/QA触发)
    ↓
全双工系统状态机(接收控制 token 驱动)

💡 关键创新

  • 首个统一全双工前端任务的 LLM 方案(VAD + TD + SR + ASR + QA)
  • 600ms 块级流式输入,覆盖打断检测等实时控制场景
  • 控制 token 与语义 token 联合自回归生成,端到端降低系统延迟

📊 训练数据 & 实验结果

  • 数据:内部全双工系统数据(规模未公开)
  • 全双工响应延迟和打断检测精度显著改善(具体数值未完整披露)

☠️ 犀利点评

方向正确,全双工语音系统是当下最热的方向,把 VAD、轮换检测、说话人识别、ASR 统一成一个 LLM 在实际部署里最省事。600ms 块级输入跑打断检测,延迟在可接受范围。但这篇信息密度偏低,关键性能数字语焉不详(”显著改善”没有具体数值),训练数据完全不透明,和 Moshi、Mini-Omni2 等全双工系统的横向对比缺失。暂时更像一篇系统描述报告,不是严谨研究论文。值得关注方向,不值得深度跟踪。

⭐ 评分 : 7/10

全景速览对比表(17 篇)

# 论文 / 系统 年份 机构 核心方法 关键创新 数据规模 流式支持 主要效果 评分
1 Prompting LLMs with Speech (2307.11795) 2023 Meta AI GPT-style: Conformer prefix + LLaMA-7B 首批验证 Speech+LLM 范式;冻结 LLM 可学多语言 MLS 44.5k h WER 4.3%(MLS en) 6/10
2 Chunked AED Streaming (2309.08436) 2023 RWTH/Google EOC token 驱动 chunk-wise AED AED ≈ Transducer 理论统一;长音频泛化 LibriSpeech 960h ✅ chunk WER 2.7%(test-clean) 7/10
3 SLD Decoder-Only ASR (2311.04534) 2023 Alibaba DAMO 离散 token + KL 散度 SLD 训练损失 优化音频 token 自回归建模训练目标 LibriSpeech 960h 超越 Loss Masking 6/10
4 BESTOW (2406.19954) 2024 NVIDIA text query cross-attention + read-write policy 首个开源多任务流式 SpeechLLM 87k h 多语言 ✅ adaptive WER 1.9%(LibriSpeech clean) 8/10
5 Seed-ASR (2407.04675) 2024 ByteDance 预训练→SFT→RLHF + 上下文 prompt RLHF 用于 ASR;prompt 注入热词/领域 数十万 h 中英 ❌ 离线 内部多场景 SOTA 7/10
6 Transducer-Llama (2412.16464) 2024 Meta AI Factorized Transducer + 弱到强 LM swap swap 绕过 RNN-T+LLM 联合训练陷阱 MLS 44.7k h 多语言 ✅ Transducer WER -32% vs RNN-T 8/10
7 Multi-token Prediction (2409.12116) 2024 JHU / Meta 每步预测多个未来 token ASR 条件化使多 token 接受率高 LibriSpeech 960h 3.2x 加速,WER 无损 6/10
8 MFLA (2506.03722) 2025 Honor / 上交 CIF predictor + MFLA 有限右上下文 CIF 软对齐替代 fixed-chunk;统一离线/在线 WenetSpeech4TTS + LibriSpeech + MLS ✅ wait-k 在线 WER 7.17%;延迟 -14.5% 7/10
9 SpecASR (2507.18181) 2025 厦大 / 多校 Draft+Target LLM 推测解码 自适应草稿长度;稀疏 token 树 公开 benchmark 3.04x–3.79x 加速,精度零损失 8/10
10 WhisperKit (2507.10860) 2025 Argmax 块对角 mask 自蒸馏 + ANE 量化 端侧原生流式;静音缓存;1.6G→0.6G CommonVoice 17 ✅ 0.46s WER 2.2%,超越云端 GPT-4o 7/10
11 JEDIS-LLM (2511.16046) 2025 阿里巴巴 SPC + Word-level Speaker Supervision 首个零样本流式长音频联合 ASR+说话人分离 短音频 ≤20s ✅ chunk 超越 Sortformer/DiarizationLM 8/10
12 Whisper-LLaDA (2509.16622) 2025 IDIAP / 多校 Whisper encoder + LLaDA-8B 扩散解码 首次验证扩散 LLM 用于 ASR;音频条件化是关键 LibriSpeech 960h 级联 WER 2.25%/4.94%;扩散更快但精度略低 7/10
13 MoCha-ASR (2601.22779) 2026 合工大 / 多校 MoChA 策略网络 + Qwen2.5 + minLT loss 端到端无 CTC 对齐流式 LLM-ASR AISHELL-1/2 + 内部 ✅ adaptive AISHELL-1 CER 5.1%;延迟 -62.5% 8/10
14 CHAT (2602.24245) 2026 Apple / Google Chunk 内 cross-attention joiner 放宽 RNN-T 严格单调约束;AST 显著提升 NeMo 多语言 ✅ chunk WER -6.3%;BLEU +18%;推理 1.69x 7/10
15 Uni-ASR (2603.11123) 2026 科大讯飞 / 多校 NS/SS/CS 三范式联合训练 + fallback 解码 单模型统一流式/非流式 WeNetSpeech 10k h+ ✅ 多 chunk size AISHELL-1 CER 2.15%(1s chunk) 7/10
16 NIM4-ASR (2604.18105) 2026 NIO / 蔚来 phoneme CTC 预训练 + IA-SFT + RL + RAG 百万热词 RAG小于1ms;IA-SFT 防 drift 25 benchmark + 内部大规模 ✅ chunk 2.3B 多 benchmark SOTA 8/10
17 UAF (2604.19221) 2026 NIO / 蔚来 600ms chunk LLM + 多任务统一 首个全双工前端 LLM;控制 token 驱动状态机 内部全双工数据 ✅ 600ms 全双工延迟和打断精度改善(未披露具体数值) 7/10

趋势演变与技术脉络

三条主线演进路径

① 解码框架进化 :GPT-style prefix(2023)→ read-write policy BESTOW(2024)→ MoChA adaptive MoCha-ASR(2026)→ 统一 NS/SS/CS Uni-ASR(2026)

② 效率工程化 :Multi-token prediction(2024)→ Speculative Decoding SpecASR(2025)→ 端侧 ANE 极致优化 WhisperKit(2025)→ 热词 Phoneme RAG NIM4-ASR(2026)

③ 多任务融合 :单纯 ASR(2023)→ 上下文感知 Seed-ASR(2024)→ 联合说话人分离 JEDIS-LLM(2025)→ 全双工前端统一 UAF(2026)

里程碑节点

  • 2023 : LLM-ASR 范式成立(Speech Prompt + LLM),流式是空白
  • 2024 : BESTOW 确立 read-write policy 框架,Transducer-Llama 给出 RNN-T 最优解,Seed-ASR 工业化落地
  • 2025 : 推理加速爆发(SpecASR 3x+),端侧部署成熟(WhisperKit 0.46s),多任务融合(JEDIS-LLM)
  • 2026 : 统一架构(Uni-ASR),生产全功能(NIM4-ASR),全双工前端(UAF)

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注