流式 LLM-ASR 模型优化论文全景（2022–2026）

最早系统验证”把小音频编码器直接接到冻结 LLM 前端做 ASR”这个 GPT-style 范式可行的论文之一。将 Conformer encoder 输出作为 prefix embedding 拼接到 LLaMA-7B 的 text token 前，验证多语言 ASR 能力，以及 LLM 冻结时是否仍可学到多语言识别。

🔧 架构示意

音频 → Conformer Encoder → Prefix Embedding
                                    ↓
                文本 Token Embedding → LLaMA-7B (可冻结) → 转录输出

💡 关键创新

建立了”Speech Prompt + LLM”的 GPT-style baseline 范式
验证：LLM 冻结 + 仅训练 encoder 时仍有效，无需 LLM 参与 ASR 训练
大步长 striding（~1s）下仍保持多语言识别能力

📊 训练数据&实验结果

数据：Multilingual LibriSpeech（MLS，44.5k h，多语言）
MLS 英语 WER 4.3%，多语言超过 monolingual baseline 18%

☠️ 犀利点评

这篇的历史价值在于”第一批验证者”而非”创新者”。Encoder 接 LLM 做 ASR 这件事大家都在想，它只是第一批做出来并写清楚的。不支持流式是硬伤——GPT-style 必须把整段音频先编好再喂 LLM，实时场景完全用不了。论文本身偏工程报告，ablation 也比较粗糙。不过作为这个方向的开山之作必须了解。

⭐ 评分 : 6/10

2. Chunked Attention-based Encoder-Decoder for Streaming Speech Recognition ⭐

arXiv ID : 2309.08436

发布日期 : 2023-09-15

发表状态 : ICASSP 2024

机构 : RWTH Aachen / Google

论文链接 : https://arxiv.org/abs/2309.08436

📌 简介

将 AED（Attention Encoder-Decoder）模型改造为 chunk-wise 流式模型，用特殊的 End-of-Chunk（EOC）符号代替传统 EOS 符号驱动 chunk 间跳转。理论分析表明 Chunked-AED 等价于一个 chunk 级别的 Transducer （RNN-T）。同时研究了长音频泛化、beam size、length normalization 等实际部署问题。

PS: RNN-T consists of three major building blocks:

🔧 架构示意

音频流 → Chunk-aware Encoder（限制未来帧可见范围）
                    ↓
       Chunk-wise Decoder（EOC token 驱动 chunk 跳转）
                    ↓
              流式转录输出（chunk-by-chunk）

💡 关键创新

AED 流式改造：EOC token 替换 EOS，使 decoder 可 chunk-wise 生成
理论证明 Chunked-AED ≈ Chunk-level Transducer，统一两类模型
长音频泛化：串联短音频序列训练，无需专门长音频数据

📊 训练数据&实验结果

数据：LibriSpeech（960h）+ TED-LIUM-v2
LibriSpeech test-clean 流式 WER 2.7%，与非流式差距极小

☠️ 犀利点评

这篇的意义被低估了。它把 AED 和 Transducer 的理论关系说清楚了，后续很多流式 LLM-ASR 设计都是这个思路的变体。但它本身并没有引入 LLM，是”流式 AED 优化”论文，和”LLM-ASR”严格来说不在一个赛道。CHAT（2602.24245）可以直接看作这篇的 LLM 时代续作。

⭐ 评分 : 7/10

3. Smoothed Label Distillation for Decoder-Only ASR（SLD）

arXiv ID : 2311.04534

发布日期 : 2023-11-08

发表状态 : ICASSP 2024

机构 : Alibaba DAMO Academy

论文链接 : https://arxiv.org/abs/2311.04534

代码链接 : https://github.com/alibaba-damo-academy/SpokenNLP

📌 简介

研究 decoder-only Transformer（GPT-style）做 ASR 时如何处理离散语音 token 的训练损失问题。发现直接在音频 token 上用 CE loss 并不稳定，提出 Smoothed Label Distillation（SLD），用 KL 散度 + 平滑标签对音频 token 进行自回归建模。

🔧 架构示意

音频 → 离散化（HuBERT/EnCodec等） → 音频离散 token
                                            ↓
                  Decoder-Only Transformer（GPT-style）
                            ↓                    ↓
                    音频 token 预测        文本 token 预测
                  （SLD: KL散度+平滑标签） （标准 CE loss）

💡 关键创新

指出 Loss Masking（忽略音频 token 的 loss）和直接 CE 都不是最优的
SLD：KL 散度 + 平滑标签，让模型学到音频 token 间的自回归依赖
对 SpeechGPT 等离散 token ASR 范式的训练目标优化有指导意义

📊 训练数据&实验结果

数据：LibriSpeech（960h）
超越 Loss Masking 策略，在多种语音离散化方法下一致改善

☠️ 犀利点评

这是一篇”找到真正问题并解决它”的小而精的工作。离散 token ASR 的训练损失该怎么设计这个问题在当时没人仔细研究，它认真研究了。但离散 token ASR 的精度上限本来就比连续特征差，SLD 改善的是”训练方式”而非”架构上限”。流式能力没有涉及，属于 decoder-only ASR 的训练基础研究。

⭐ 评分 : 6/10

▌2024：爆发期——流式框架、多任务、工程化

2024 年是流式 LLM-ASR 真正爆发的一年。BESTOW 确立了 read-write policy 框架，Transducer-Llama 给出 RNN-T 下最优 LLM 集成方案，Seed-ASR 展示了工业 LLM-ASR 的真实边界。

4. BESTOW: Efficient and Streamable Speech Language Model ⭐⭐

arXiv ID : 2406.19954

发布日期 : 2024-06-28

发表状态 : Interspeech 2024 / NeurIPS 2024 Workshop

机构 : NVIDIA

论文链接 : https://arxiv.org/abs/2406.19954

代码链接 : https://github.com/NVIDIA/NeMo（含 BESTOW 实现）

📌 简介

提出 BESTOW 架构，将 GPT-style（预拼接音频 embedding）和 T5-style（逐层 cross-attention）的优点融合。核心是用文本 query + 音频 key/value 的 cross-attention 替代音频 prefix 拼接，既保持高效率又天然支持流式。将流式 SpeechLLM 重新定义为 read-write policy 问题，统一离线与流式研究框架。

🔧 架构示意

音频流 → 流式 Speech Encoder → 音频特征（Key/Value）
                                        ↓
文本 Prompt → LLM 内各层 Cross-Attention（文本作 Query）
                                        ↓
                         read-write policy 网络
                     （决定何时输出 token，何时继续 read）
                                        ↓
                              流式多任务输出（ASR/AST/SQA）

💡 关键创新

首个同时支持流式和多任务（ASR/AST/SQA）的开源 SpeechLLM
将流式问题转化为 read-write policy，借鉴同步翻译领域成熟研究
text query 驱动音频 cross-attention，效率优于 GPT-style prefix 拼接
87k 小时数据规模，一天内可完成训练

📊 训练数据&实验结果

数据：87,000 小时多语言语音（公开 + 私有）
ASR、AST、SQA 多任务 SOTA；LibriSpeech test-clean WER 1.9%

☠️ 犀利点评

2024 年流式 LLM-ASR 里最值得精读的论文，没有之一。它把”流式 SpeechLLM”的问题空间定义清楚了——read-write policy——并给出了第一个能跑、能开源的多任务流式解法。但 87k 小时数据不是普通团队能复现的，且流式性能上没有做细致的延迟分析（只说”支持流式”，没给具体 latency 数字）。研究者必读；工程师注意数据门槛。

⭐ 评分 : 8/10

5. Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition

arXiv ID : 2407.04675

发布日期 : 2024-07-05

发表状态 : ICASSP 2025

机构 : ByteDance / Seed Team

论文链接 : https://arxiv.org/abs/2407.04675

📌 简介

字节跳动 Seed 团队的大规模工业 LLM-ASR 系统报告。将 LLM 与语音编码器深度融合，支持上下文感知识别（热词、场景提示）、多方言、噪声鲁棒。采用分阶段训练：预训练弥合模态差距、SFT 对齐、RLHF 提升质量。注：论文本身为离线系统 ，不涉及 流式架构设计或流式实验 。

🔧 架构示意

音频 → 大规模 Speech Encoder（Conformer/类似结构）
                    ↓ Adapter
             LLM（Decoder-Only）
                    ├── 预训练：弥合模态差距
                    ├── SFT：任务对齐
                    └── RLHF：识别质量与鲁棒性提升
                    ↓
    上下文 Prompt（热词/领域/方言信息）→ 注入 LLM 输入
                    ↓
               离线转录输出（论文不涉及流式推理）

💡 关键创新

工业级 LLM-ASR 全流程：从预训练到 RLHF 的完整 pipeline
上下文感知：支持 prompt 注入热词和领域信息，无需重新训练
RLHF 首次系统应用于 ASR 质量提升
多方言、噪声鲁棒大规模验证（论文不涉及流式）

📊 训练数据&实验结果

数据：数十万小时中英双语（字节内部，规模未完全公开）
内部多场景 benchmark SOTA，普通话 CER 和英语 WER 均优于 Whisper-v3

☠️ 犀利点评

字节在 LLM-ASR 上的第一次全面亮相，工程深度足。上下文 prompt 注入对产品场景特别有用——会议、垂直领域的识别质量问题本质是”模型不懂这些词”，prompt 是性价比最高的解法。但 RLHF 在 ASR 里的 reward 设计细节披露不够。论文本身为离线系统，不涉及流式内容，纳入本调研是作为重要工业离线 LLM-ASR 参考基线。

⭐ 评分 : 7/10

6. Transducer-Llama: Integrating LLMs into Streamable Transducer-based ASR ⭐

arXiv ID : 2412.16464

发布日期 : 2024-12-21

发表状态 : ICASSP 2025

机构 : Meta AI

论文链接 : https://arxiv.org/abs/2412.16464

📌 简介

将 LLM 集成到 Factorized Transducer（FT）框架中，天然继承 RNN-T 的流式能力。提出”弱到强 LM swap”策略：先用弱 LM 做 RNN-T 训练，再替换为强 LLM 预测器，通过 MWER loss 微调完成集成。还引入词汇表适配技术缓解 LLM 大词汇表带来的数据稀疏问题。

🔧 架构示意

音频流 → 流式 Conformer/Emformer Encoder
                    ↓
         Factorized Transducer
    ┌────────────────────────────────┐
    │   Blank Predictor（轻量网络）   │
    │   Non-Blank Predictor（LLM）   │← 弱→强 swap
    │   Joint Network（sigmoid/softmax混合）│
    └────────────────────────────────┘
                    ↓ MWER 微调
               流式转录输出

💡 关键创新

“弱到强 LM swap”：先用弱 LM 训 RNN-T，再换 LLM——绕过联合训练的优化陷阱
词汇表适配：将 LLM 大词表映射到语音系统词表，降低训练代价
MWER loss 端到端调优 LLM 集成效果

📊 训练数据 & 实验结果

数据：LibriSpeech（960h 英语）+ MLS 多语言（en 44.7k h、fr 1.1k h、it 0.2k h、nl 1.6k h）
相对 FT baseline WER -17%；相对 RNN-T baseline -32%（LibriSpeech）

☠️ 犀利点评

这篇方法论含金量最高。”弱到强 swap”直接击中 RNN-T+LLM 联合训练效果差的核心原因——强 LM 在 RNN-T loss 训练期间会让 encoder 偷懒靠语言先验而不好好学声学信息，swap 后 MWER 才能把 LLM 能力真正释放出来。词汇表适配技巧也务实，工程里直接能用。但 Meta 的数据资源（44.7k 小时英语）不是普通团队能比的，中文等其他语系泛化性存疑。

⭐ 评分 : 8/10

7. Multi-token Prediction for Faster Speech LLaMA Decoding

arXiv ID : 2409.12116

发布日期 : 2024-09

发表状态 : Interspeech 2024 Workshop

机构 : JHU / Meta AI

论文链接 : https://arxiv.org/abs/2409.12116

📌 简介

针对 decoder-only LLM-ASR 推理速度慢的问题，引入 multi-token prediction：每个解码步骤同时预测多个未来 token。利用 ASR 任务的特殊性——音频条件化使 token 间依赖比纯语言建模弱——使多 token 预测接受率更高。

🔧 架构示意

音频 → Encoder → Embedding
                    ↓
           Decoder-Only LLM
                    ↓
     每步预测 K 个未来 token（并行解码头）
                    ↓
       验证接受 → 推进 K 步；拒绝 → 回退

💡 关键创新

Multi-token prediction 应用于 LLM-ASR 解码加速
利用 ASR 任务中音频条件化降低 token 间强依赖的特性，保证接受率
LibriSpeech 上 ~3.2x 解码速度提升，WER 无损

📊 训练数据&实验结果

数据：LibriSpeech（960h）
3.2x 解码加速，WER 不变

☠️ 犀利点评

和后来的 SpecASR 方向相近，但发布更早、思路更简单直接。Multi-token prediction 没有专门为 ASR 特性设计，更像是把 NLP 领域 speculative decoding 的前身直接迁移。SpecASR 后来做得更系统，工程价值已被超越。这篇的贡献在于”第一个在 LLM-ASR 上想到并实现了这个方向”。

⭐ 评分 : 6/10

PS:阶跃 StepAudio 2.5 ASR,模型的核心突破在于速度与精度的兼得。我们率先将大语言模型（LLM）的推理加速技术引入语音识别领域，基于 ASR+MTP-5 深度融合架构，实测推理速度提升 400%、时延降低 60%，推理峰值达 500 tokens/s，推理成本直降 80%。传统语音识别模型受限于自回归生成机制，必须逐个 Token 依次输出，就像打字员一个字一个字地敲键盘。StepAudio 2.5 ASR 将 Step 3.5 Flash 同款的 MTP（多 Token 预测）技术移植至语音识别领域，使模型能够一次预测多个候选 Token，并通过并行验证机制快速确认结果。

▌2025：成熟期——推理加速、端侧部署、多任务融合

2025 年流式 LLM-ASR 已经成熟，核心问题变成：怎么更快、更省、更全能 。推理加速、端侧部署、多任务联合成为三条主线。

8. MFLA: Monotonic Finite Look-ahead Attention for Streaming Speech Recognition ⭐

arXiv ID : 2506.03722

发布日期 : 2025-06-04

发表状态 : Interspeech 2025

机构 : Honor Device Co. / 上海交通大学

论文链接 : https://arxiv.org/abs/2506.03722

📌 简介

提出 Streaming-Whisper 框架：在 Whisper 上通过 LoRA fine-tune 实现流式识别，无需从头训练。核心是将 CIF（Continuous Integrate-and-Fire）机制引入 LLM-ASR，让模型自己学习”音频帧到 token 的软对齐”，用 MFLA（Monotonic Finite Look-ahead Attention）让 decoder 每个 token 在解码时看到无限左上下文 + 有限右上下文 ，替代传统固定 chunk 切割，从根本上缓解切块边界截断问题。

🔧 架构示意

音频流 → Whisper Encoder（MoChA chunk 自注意力，chunk size 均匀采样 [32,128]）
                    ↓ hidden states H
         CIF Predictor（两层线性 + ReLU）
         ├── 预测每帧权重 α，累积触发 token 边界（MRE loss）
         └── 推理时追踪解码进度、防止边界幻觉
                    ↓ 动态分段对齐
         Decoder（Whisper Decoder + MFLA）
         ├── 每个 token 可见：无限左上下文 + 有限右上下文（look-ahead span ~ Poisson(λ=3)）
         ├── 训练：hybrid-attention（full-attention + MFLA 混合）
         └── 推理：wait-k decoding（wait-3 为默认）
                    ↓
               流式转录输出（可延续 buffer state 减少重复计算）
扩展 SpeechLLM 版本：
音频 → Whisper-Large-V3 Encoder → Adapter（2层 cross-attention）→ Qwen2.5-3B-Instruct → 流式转录

💡 关键创新

CIF-driven 软对齐 ：用 CIF predictor 估计帧级 token 权重，建立准单调对齐，替代 fixed-chunk 硬切割，缓解边界截断问题
MFLA ：有限右上下文注意力机制，每个 token 动态决定看多少右侧音频帧，实现 prefix-to-prefix 训练范式
wait-k + buffer state 延续 ：wait-3† 方案在 decoder buffer 中保留状态，比 Local Agreement baseline 减少 60.86% 冗余计算，延迟 1.41s
统一离线/在线框架 ：look-ahead span→∞ 即退化为离线系统，单模型同时支持两种模式
SpeechLLM 扩展验证 ：接入 Qwen2.5-3B，在线解码 WER 仅比离线高 0.98%

📊 训练数据 & 实验结果

数据：WenetSpeech4TTS Premium + LibriSpeech + MLS + VoxPopuli，覆盖中/英/德/西语
Whisper-Large-V3-Turbo：离线 WER 5.63%，在线 WER 7.17%（1s chunk，wait-3），差距 1.54%
延迟对比（vs Local Agreement baseline DAL=1.65s）：wait-3 DAL=1.41s（-14.5%），wait-1 DAL=0.93s（-43.6%）
SpeechLLM 在线 WER：WenetSpeech4TTS Premium 3.41%，LibriSpeech test-clean 2.38%

☠️ 犀利点评

CIF + 有限右上下文注意力这个组合是对的，比 fixed-chunk 切割聪明——让模型自己学对齐而不是按时钟切。wait-3† 的 buffer state 延续把 FLOPs 压到 12.77G（vs baseline 37.56G），工程上非常实用。但两个核心局限论文自己也承认：CIF predictor 太简单（只有两个线性层），帧级权重估计有偏差；LoRA fine-tune 对 encoder 的流式适配效果有限，online 和 offline WER 差距（1.54%）还是显著。更根本的问题是：CIF 感知的是”该输出第几个 token 了”，并不是真正的语义/韵律边界——说话人停顿、重读、换气这些信息 predictor 感知不到，只是比 fixed-chunk 随机切割好一点而不是彻底解决了边界问题。SpeechLLM 扩展部分只用了 LibriSpeech + WenetSpeech4TTS 评测，覆盖场景有限。整体是一篇把正确思路做出来了但还没做完的工作，predictor 升级和 encoder 流式改造是明显的后续方向。

⭐ 评分 : 7/10

9. SpecASR: Accelerating LLM-based ASR via Speculative Decoding ⭐

arXiv ID : 2507.18181

发布日期 : 2025-07-24

发表状态 : DAC 2025

机构 : 厦门大学 / 多校联合

论文链接 : https://arxiv.org/abs/2507.18181

📌 简介

针对 LLM-ASR 的推测解码框架。核心观察：ASR 解码是音频条件化的，小模型与大模型输出对齐率极高。提出自适应草稿序列生成（动态调整草稿长度）、草稿序列复用策略（减少草稿模型延迟）和两步稀疏 token 树生成算法。

🔧 架构示意

音频 → 小型 Draft LLM-ASR（快速生成候选 token 树）
                    ↓ 自适应长度控制
       大型 Target LLM-ASR（并行验证 token 树）
                    ├── 音频条件化保障高接受率
                    └── 稀疏 token 树减少 draft 开销
                    ↓
               加速后流式转录输出

💡 关键创新

ASR 专用推测解码：利用音频条件化保障 draft/target 高对齐率
自适应草稿长度：动态调节 draft 长度，平衡验证开销与接受率
两步稀疏 token 树：减少 draft 模型的冗余计算

📊 训练数据 & 实验结果

数据：LibriSpeech + 多个英文公开 benchmark（评测数据集）
3.04x–3.79x 加速（vs 自回归基线），1.25x–1.84x（vs 标准推测解码），精度零损失

☠️ 犀利点评

推测解码在 LLM 推理加速里已经成熟，这篇把它移植到 LLM-ASR 是顺理成章，但做了足够多的 ASR 专有设计。3.04x–3.79x 加速是真实 end-to-end 数字，不是理论上界。但前提是你已经有一个 LLM-ASR 系统，且能负担同时运行一大一小两个 LLM。资源受限场景帮助有限；draft 模型选型和训练策略披露也不够细致。

⭐ 评分 : 8/10

10. WhisperKit: On-device Real-time ASR with Billion-Scale Transformers ⭐

arXiv ID : 2507.10860

发布日期 : 2025-07-14

发表状态 : ICML 2025 On-Device Learning Workshop

机构 : Argmax

论文链接 : https://arxiv.org/abs/2507.10860

代码链接 : https://github.com/argmaxinc/WhisperKit

📌 简介

面向端侧部署的 Whisper 实时 ASR 推理优化系统。在 Apple 设备本地运行，匹配甚至超越云端 gpt-4o-transcribe、Deepgram nova-3 的精度，延迟低至 0.46s，WER 仅 2.2%。核心贡献是块对角 mask 自蒸馏、Apple ANE 极致优化和量化压缩。

🔧 架构示意

原始 Whisper Large v3 Turbo
    ↓ 块对角 mask 自蒸馏（d750：15s block）
流式化 Audio Encoder（块对角自注意力，静音缓存）
    ↓
Text Decoder + LocalAgreement 流式确认策略
    ↓ 量化（1.6GB → 0.6GB）
Apple Neural Engine（ANE）原生加速部署
    ↓
0.46s 延迟端侧实时转录

💡 关键创新

块对角 mask 自蒸馏：原生支持 Whisper 流式推理，静音缓存减少无效前向
量化 1.6GB→0.6GB，WER 损失 <1%
Apple ANE 近峰值硬件利用率，端侧超越云端 baseline

📊 训练数据 & 实验结果

数据：CommonVoice 17（5 语种 fine-tune）；LibriSpeech + earnings22 评测
WER 2.2%，延迟 0.46s；超越 gpt-4o-transcribe 和 Deepgram nova-3

☠️ 犀利点评

最接近纯工程论文的形态，每步都有充分 ablation 支撑——真实的工程成就。但整体是工程优化论文，不是算法创新论文：块对角 mask 引用自刘等人的先验工作，LocalAgreement 也是既有方法。价值在于”把现有技术栈在 Apple ANE 上极致优化”。如果你不做苹果端侧部署，快速浏览即可。

⭐ 评分 : 7/10

11. Train Short, Infer Long: Speech-LLM Enables Zero-Shot Streamable Joint ASR and Diarization（JEDIS-LLM）⭐

arXiv ID : 2511.16046

发布日期 : 2025-11-20

发表状态 : ICASSP 2026

机构 : 微软 UCLA

📌 简介

论文链接 : https://arxiv.org/abs/2511.16046

JEDIS-LLM：端到端 Speech-LLM，支持联合流式说话人分离（Diarization）+ ASR。模型仅在 ≤20s 短音频上训练，但可零样本泛化到任意长度长音频流式推理。通过 Speaker Prompt Cache（SPC）机制实现跨 chunk 说话人一致性传播，并支持预注册说话人 profile。

🔧 架构示意

音频流 → 流式 Speech Encoder
         ├── Spk-Decoder（Word-level Speaker Supervision）
         └── Projector
                    ↓
              LLM（LoRA 适配）
                    ↓
    流式 chunk 推理：
    Speaker Prompt Cache（SPC）
    ┌─────────────────────────────┐
    │ 每个说话人存储代表音频片段    │
    │ 跨 chunk 传递，实时更新      │
    └─────────────────────────────┘
                    ↓
         说话人归属转录（"谁说了什么"）

💡 关键创新

首个零样本流式长音频联合 ASR + 说话人分离 Speech-LLM
SPC：借助 LLM 自回归 KV cache 机制，无需后处理全局聚类即可保持跨 chunk 说话人一致性
Word-level Speaker Supervision：单词级说话人标签增强 encoder 说话人判别能力
仅短音频（≤20s）训练，零样本泛化到任意长音频

📊 训练数据 & 实验结果

数据：内部多说话人数据（短音频 ≤20s）；CALLHOME / AMI 标准 benchmark 评测
超越 Sortformer、Meta-Cat（短音频场景）；超越 DiarizationLM（长音频场景）

☠️ 犀利点评

这篇解决了一个真实且棘手的问题——流式长音频多说话人转录。SPC 设计优雅：用 LLM 自回归的 KV cache 机制天然延伸到说话人一致性跨 chunk 传播，不需要后处理全局聚类，也不需要重新训练。”仅在 <20s 短音频训练但零样本泛化到长音频”如果可复现，非常有价值。但实验数据集（CALLHOME、AMI）并非最新最难的 benchmark，和 DiarizationLM 的对比有主场优势之嫌（后者是 cascade 系统）。chunk size、SPC 更新频率的 ablation 还不够充分。

⭐ 评分 : 8/10

12. Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing（Whisper-LLaDA）

arXiv ID : 2509.16622

发布日期 : 2025-09-20

发表状态 : ICASSP 2026

机构 : IDIAP Research Institute / 多校联合

论文链接 : https://arxiv.org/abs/2509.16622

代码链接 : https://github.com/liuzhan22/Diffusion-ASR

📌 简介

将扩散 LLM（LLaDA-8B）引入 ASR，探索非自回归解码路径。首先作为 Whisper-LLaMA 转录的外部 deliberation 模块，利用 LLaDA 的双向注意力 + 去噪能力修正转录错误。进一步验证 LLaDA 作为独立 ASR 解码器时，扩散解码比自回归更快，但精度略低。

🔧 架构示意

音频 → Whisper-Large-v3 Encoder（冻结）
                    ↓
        Q-Former（44 trainable queries，0.33s window）
                    ↓ Projection
            LLaDA-8B-Instruct（LoRA 微调）
            ├── 模式1：Deliberation（修正 Whisper-LLaMA 初始转录）
            │   ├── 随机 mask 策略
            │   ├── 最低置信度 mask 策略
            │   └── 半自回归策略
            └── 模式2：独立 ASR 解码器（扩散解码/半自回归解码）

💡 关键创新

首次系统验证扩散 LLM 用于 ASR 任务
音频条件化嵌入是关键：纯文本 LLaDA（无声学特征）做 deliberation 无效
半自回归解码策略：平衡扩散解码的速度与精度

📊 训练数据 & 实验结果

数据：LibriSpeech（960h 英语）
最佳级联 WER：test-clean 2.25% / test-other 4.94%（vs Whisper-LLaMA baseline -12.3%）
独立扩散解码：速度快于 AR，但精度略低

☠️ 犀利点评

态度很诚实的探索性论文——明确说”扩散 LLM 做 ASR 的精度比自回归低，但速度更快”，没有粉饰结果。核心 insight 有价值：音频条件化嵌入对扩散 LLM 有效运作是必要条件。但实验只在 LibriSpeech 上（960h 英语有声书，难度偏低），无法说明噪声/口音/真实对话场景的鲁棒性。”更快但不够好”对生产场景吸引力有限。更适合定位为”验证可行性的技术报告”。

⭐ 评分 : 7/10

▌2026 Q1：持续演进期——统一架构、生产落地、全双工

13. Streaming Speech Recognition with Decoder-Only LLMs and Latency Optimization（MoCha-ASR）⭐

arXiv ID : 2601.22779

发布日期 : 2026-01-30

发表状态 : ICASSP 2026

机构 : 合肥工业大学 / 多校

论文链接 : https://arxiv.org/abs/2601.22779

📌 简介

提出将 read/write 策略网络与 MoChA（Monotonic Chunkwise Attention，单调分块注意力）结合，让 Decoder-Only LLM 支持流式 ASR。引入最小延迟训练目标（minLT loss），token 生成延迟降低 62.5%，无需 CTC 强制对齐，端到端可优化。

🔧 架构示意

音频流 → 流式 Conformer Encoder（context-sensitive chunking）
                    ↓ LoRA 微调
         MoChA Policy Network（决定 read/write）
              ├── read：继续接收音频帧
              └── write：触发 LLM 生成下一 token
                    ↓
         Qwen2.5-1.5B（Decoder-Only LLM）
         音频/文本 token 交错输入
                    ↓
    minLT loss 约束对齐边界 → 延迟降低 62.5%

💡 关键创新

端到端流式 LLM-ASR，无需 CTC 强制对齐
minLT（Minimum Latency Training）损失约束对齐边界，显著压缩生成延迟
流式/非流式模型参数共享，联合训练降低开发成本

📊 训练数据 & 实验结果

数据：AISHELL-1（165h）+ AISHELL-2（1000h）+ 内部多领域数据
AISHELL-1 CER 5.1% / AISHELL-2 CER 5.5%，优于所有流式 baseline；token 生成延迟降低 62.5%

☠️ 犀利点评

踏实的工作。别人做流式 LLM-ASR 要么靠外挂 CTC 对齐、要么用 wait-k 硬切块，它真的用 MoChA 自适应分段、端到端训练。minLT loss 把延迟压了 62.5% 这个数字有真实工程价值。但实验只在中文数据集（AISHELL-1/2）上跑，基线列表里 BESTOW 是他们自己复现的，存在选择性对比嫌疑。MoChA 本身并不新，核心贡献是把它接到 LLM 上——有价值，但不算突破性创新。

⭐ 评分 : 8/10

14. Chunk-wise Attention Transducers（CHAT）for Fast and Accurate Streaming Speech-to-Text

arXiv ID : 2602.24245

发布日期 : 2026-02-27（提交于 2025 年底）

发表状态 : ICASSP 2026

机构 : Apple / Google

论文链接 : https://arxiv.org/abs/2602.24245

📌 简介

提出 CHAT，将 RNN-T 的逐帧 additive joiner 替换为 chunk 内 cross-attention joiner。保留 RNN-T 流式能力同时引入局部对齐建模的灵活性，无需对齐时间戳信息。对语音翻译（ST）的提升尤其显著。

🔧 架构示意

音频流 → 流式 FastConformer Encoder（chunk-aware）
                    ↓ 按固定 chunk 输出
         CHAT Joiner（替换原 RNN-T joiner）
         ┌─────────────────────────────────────┐
         │ Predictor 输出（文本历史）→ Query     │
         │ Encoder chunk 输出（音频）→ Key/Value │
         │   ↓ cross-attention（chunk 内）       │
         │   ↓ + Predictor 残差 + ReLU           │
         │   ↓ → 词表空间概率分布                │
         └─────────────────────────────────────┘
                    ↓ blank → 下一 chunk；非 blank → 输出 token

💡 关键创新

chunk 内 cross-attention joiner 放宽 RNN-T 严格单调对齐约束
无需时间戳信息训练，改动极小但效果稳健
对语音翻译（ST）提升尤其显著（+18% BLEU）

📊 训练数据 & 实验结果

数据：NeMo 多语种数据；语音翻译：MuST-C v2
ASR WER -6.3%；ST BLEU +18.0%；训练内存 -46.2%；训练速度 1.36x；推理速度 1.69x

☠️ 犀利点评

增量但扎实。chunk 内交叉注意力在 AED 框架里早就做过了，迁移到 Transducer joiner 上有工程价值但创新幅度有限。实验在 NeMo 框架内做，没有和 LLM-ASR 系统正面对比，不清楚在最新 LLM-based pipeline 中是否还有竞争力。对语音翻译（ST）的提升（+18% BLEU）更惊艳——RNN-T 严格单调约束对翻译是真正的硬伤，这篇有效解决了这个问题。

⭐ 评分 : 7/10

15. Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming ASR

arXiv ID : 2603.11123

发布日期 : 2026-03-11

发表状态 : Submitted to Interspeech 2026

机构 : 科大讯飞 / 多校

论文链接 : https://arxiv.org/abs/2603.11123

📌 简介

提出 Uni-ASR，用统一 LLM 框架同时支持非流式和流式语音识别，无需任何架构改动即可切换两种模式。引入三种训练范式联合训练（NS/SS/CS）和 latest-token fallback 解码策略，在不增加延迟的前提下提升流式精度。

🔧 架构示意

音频 → FireRedASR Conformer Encoder（full + dynamic chunk attention）
                    ↓ Adapter
         Qwen3-1.7B（Decoder-Only LLM）

训练时：NS / SS / CS 三范式 1:1:1 采样
    ├── NS：非流式，全序列输入
    ├── SS：流式，强制对齐切块，speech-text interleaved
    └── CS：context-aware 流式，输入最后 token 置 <pad>，学跨 chunk 重解码

推理时：
    流式：KV Cache 跨 chunk 增量复用
          latest-token fallback（最后 token 等下一 chunk 再确认）
    非流式：直接全序列解码

💡 关键创新

单模型统一流式/非流式，三范式 1:1:1 联合训练
context-aware streaming（CS）训练范式消除训练推理 mismatch
latest-token fallback 解码策略：边界 token 延一 chunk 确认，实测无额外延迟

📊 训练数据 & 实验结果

数据：中英双语混合——WeNetSpeech（10000h+）+ AISHELL + LibriSpeech + GigaSpeech + 内部数据
流式 AISHELL-1 CER 2.15% / LibriSpeech test-clean WER 2.44%（1000ms chunk）
超越 Speech ReaLLM、SpeechLLM-XL、MoCha-ASR

☠️ 犀利点评

“大而全”路线的代表作，工程细心度高。但本质是既有技术的精心组合：interleaved speech-text（借鉴 CosyVoice2）、hold-n 策略（已有）、KV cache reuse（已有）。fallback 解码的 idea 小而实用，但不算重大创新。Qwen3-ASR-1.7B 在他的 streaming benchmark 里数字更好，但 Qwen3 是靠重复非流式解码凑出来的流式，计算量差了一个数量级——Uni-ASR 没把计算复杂度公平列出是一个败笔。

⭐ 评分 : 7/10

https://mp.weixin.qq.com/s/rSk0WBc4VjW0dkqBspKofA

16. NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR ⭐

arXiv ID : 2604.18105

发布日期 : 2026-04-20

机构 : NIO / 蔚来汽车

论文链接 : https://arxiv.org/abs/2604.18105

📌 简介

面向生产部署的 LLM-ASR 框架，系统解决轻量化、幻觉抑制、热词定制三大痛点。基于 phoneme-level encoder 预训练减少模态差距，引入 Iterative Asynchronous SFT（IA-SFT）防止 representation drift，设计 ASR 专用 RL 提升识别质量，并以 phoneme RAG 实现百万量级热词定制。

🔧 架构示意

音频 → 600M Conformer Encoder（phoneme CTC 预训练，CKA 监控 drift）
                    ├── 流式：dynamic-chunk mechanism（预训练期内嵌）
                    └── phoneme CTC head → 音素假设
         MLP Adapter（4x 下采样，160ms/token）
                    ↓
              Qwen3-1.7B（LLM 解码器）
                    ↑
         Phoneme RAG：音素假设 → 检索热词数据库（<1ms）→ Prompt 注入

训练 pipeline：
    Stage1: Encoder 预训练（phoneme CTC，CR-CTC）
    Stage2: Alignment（仅训练 Adapter，冻结其余）
    Stage3: IA-SFT（异步并行，CKA 监控 encoder 稳定性）
    Stage4+5: Late Joint SFT + Context SFT + ASR-RL

💡 关键创新

Phoneme-level encoder 预训练：低熵表示减少模态差距，天然支持流式
IA-SFT：异步 SFT 在对齐阶段即开始，CKA 监控防止 representation drift
ASR-RL：专为 ASR 设计的强化学习，进一步提升识别质量和幻觉鲁棒性
Phoneme RAG：百万热词定制，检索延迟小于1ms

📊 训练数据 & 实验结果

数据：25 个 benchmark（15 公开 + 10 内部）；中英双语大规模内部数据
2.3B 参数达到多个公开 benchmark SOTA；内部 entity-intensive 场景大幅领先

☠️ 犀利点评

NIO 车载场景出发的工业论文，工程诚意十足。phoneme-level encoder 预训练、IA-SFT 防 drift、ASR-RL、百万热词 RAG——每个模块都是真实生产痛点的解法。CKA 动态监控 encoder 表示偏移这个手段很细。但核心数据不公开，学术可复现性为零；”25 个 benchmark SOTA”要打折——主要赢在内部实体密集场景；Streaming 支持是”优化了”而非”重新设计了”，技术细节披露克制。

⭐ 评分 : 8/10

17. UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction

arXiv ID : 2604.19221

发布日期 : 2026-04-21

机构 : NIO / 蔚来汽车

论文链接 : https://arxiv.org/abs/2604.19221

📌 简介

提出第一个面向全双工语音系统的统一音频前端 LLM（UAF）。将 VAD、轮换检测（TD）、说话人识别（SR）、ASR、QA 等多种前端任务统一为单一自回归序列预测问题，以 600ms 固定时长流式音频块为输入，输出控制状态 token 驱动系统状态机。

🔧 架构示意

音频流（600ms 固定块）
    ↓
音频编码器 → 特征提取
    ↓
LLM（自回归）
    ├── 语义 token（转录内容）
    └── 控制 token（VAD状态/说话人切换/打断信号/QA触发）
    ↓
全双工系统状态机（接收控制 token 驱动）

💡 关键创新

首个统一全双工前端任务的 LLM 方案（VAD + TD + SR + ASR + QA）
600ms 块级流式输入，覆盖打断检测等实时控制场景
控制 token 与语义 token 联合自回归生成，端到端降低系统延迟

📊 训练数据 & 实验结果

数据：内部全双工系统数据（规模未公开）
全双工响应延迟和打断检测精度显著改善（具体数值未完整披露）

☠️ 犀利点评

方向正确，全双工语音系统是当下最热的方向，把 VAD、轮换检测、说话人识别、ASR 统一成一个 LLM 在实际部署里最省事。600ms 块级输入跑打断检测，延迟在可接受范围。但这篇信息密度偏低，关键性能数字语焉不详（”显著改善”没有具体数值），训练数据完全不透明，和 Moshi、Mini-Omni2 等全双工系统的横向对比缺失。暂时更像一篇系统描述报告，不是严谨研究论文。值得关注方向，不值得深度跟踪。

⭐ 评分 : 7/10

全景速览对比表（17 篇）

#	论文 / 系统	年份	机构	核心方法	关键创新	数据规模	流式支持	主要效果	评分
1	Prompting LLMs with Speech (2307.11795)	2023	Meta AI	GPT-style: Conformer prefix + LLaMA-7B	首批验证 Speech+LLM 范式；冻结 LLM 可学多语言	MLS 44.5k h	❌	WER 4.3%（MLS en）	6/10
2	Chunked AED Streaming (2309.08436)	2023	RWTH/Google	EOC token 驱动 chunk-wise AED	AED ≈ Transducer 理论统一；长音频泛化	LibriSpeech 960h	✅ chunk	WER 2.7%（test-clean）	7/10
3	SLD Decoder-Only ASR (2311.04534)	2023	Alibaba DAMO	离散 token + KL 散度 SLD 训练损失	优化音频 token 自回归建模训练目标	LibriSpeech 960h	❌	超越 Loss Masking	6/10
4	BESTOW (2406.19954)	2024	NVIDIA	text query cross-attention + read-write policy	首个开源多任务流式 SpeechLLM	87k h 多语言	✅ adaptive	WER 1.9%（LibriSpeech clean）	8/10
5	Seed-ASR (2407.04675)	2024	ByteDance	预训练→SFT→RLHF + 上下文 prompt	RLHF 用于 ASR；prompt 注入热词/领域	数十万 h 中英	❌ 离线	内部多场景 SOTA	7/10
6	Transducer-Llama (2412.16464)	2024	Meta AI	Factorized Transducer + 弱到强 LM swap	swap 绕过 RNN-T+LLM 联合训练陷阱	MLS 44.7k h 多语言	✅ Transducer	WER -32% vs RNN-T	8/10
7	Multi-token Prediction (2409.12116)	2024	JHU / Meta	每步预测多个未来 token	ASR 条件化使多 token 接受率高	LibriSpeech 960h	✅	3.2x 加速，WER 无损	6/10
8	MFLA (2506.03722)	2025	Honor / 上交	CIF predictor + MFLA 有限右上下文	CIF 软对齐替代 fixed-chunk；统一离线/在线	WenetSpeech4TTS + LibriSpeech + MLS	✅ wait-k	在线 WER 7.17%；延迟 -14.5%	7/10
9	SpecASR (2507.18181)	2025	厦大 / 多校	Draft+Target LLM 推测解码	自适应草稿长度；稀疏 token 树	公开 benchmark	✅	3.04x–3.79x 加速，精度零损失	8/10
10	WhisperKit (2507.10860)	2025	Argmax	块对角 mask 自蒸馏 + ANE 量化	端侧原生流式；静音缓存；1.6G→0.6G	CommonVoice 17	✅ 0.46s	WER 2.2%，超越云端 GPT-4o	7/10
11	JEDIS-LLM (2511.16046)	2025	阿里巴巴	SPC + Word-level Speaker Supervision	首个零样本流式长音频联合 ASR+说话人分离	短音频 ≤20s	✅ chunk	超越 Sortformer/DiarizationLM	8/10
12	Whisper-LLaDA (2509.16622)	2025	IDIAP / 多校	Whisper encoder + LLaDA-8B 扩散解码	首次验证扩散 LLM 用于 ASR；音频条件化是关键	LibriSpeech 960h	❌	级联 WER 2.25%/4.94%；扩散更快但精度略低	7/10
13	MoCha-ASR (2601.22779)	2026	合工大 / 多校	MoChA 策略网络 + Qwen2.5 + minLT loss	端到端无 CTC 对齐流式 LLM-ASR	AISHELL-1/2 + 内部	✅ adaptive	AISHELL-1 CER 5.1%；延迟 -62.5%	8/10
14	CHAT (2602.24245)	2026	Apple / Google	Chunk 内 cross-attention joiner	放宽 RNN-T 严格单调约束；AST 显著提升	NeMo 多语言	✅ chunk	WER -6.3%；BLEU +18%；推理 1.69x	7/10
15	Uni-ASR (2603.11123)	2026	科大讯飞 / 多校	NS/SS/CS 三范式联合训练 + fallback 解码	单模型统一流式/非流式	WeNetSpeech 10k h+	✅ 多 chunk size	AISHELL-1 CER 2.15%（1s chunk）	7/10
16	NIM4-ASR (2604.18105)	2026	NIO / 蔚来	phoneme CTC 预训练 + IA-SFT + RL + RAG	百万热词 RAG小于1ms；IA-SFT 防 drift	25 benchmark + 内部大规模	✅ chunk	2.3B 多 benchmark SOTA	8/10
17	UAF (2604.19221)	2026	NIO / 蔚来	600ms chunk LLM + 多任务统一	首个全双工前端 LLM；控制 token 驱动状态机	内部全双工数据	✅ 600ms	全双工延迟和打断精度改善（未披露具体数值）	7/10

趋势演变与技术脉络

三条主线演进路径

① 解码框架进化 ：GPT-style prefix（2023）→ read-write policy BESTOW（2024）→ MoChA adaptive MoCha-ASR（2026）→ 统一 NS/SS/CS Uni-ASR（2026）

② 效率工程化 ：Multi-token prediction（2024）→ Speculative Decoding SpecASR（2025）→ 端侧 ANE 极致优化 WhisperKit（2025）→ 热词 Phoneme RAG NIM4-ASR（2026）

③ 多任务融合 ：单纯 ASR（2023）→ 上下文感知 Seed-ASR（2024）→ 联合说话人分离 JEDIS-LLM（2025）→ 全双工前端统一 UAF（2026）

里程碑节点

2023 : LLM-ASR 范式成立（Speech Prompt + LLM），流式是空白
2024 : BESTOW 确立 read-write policy 框架，Transducer-Llama 给出 RNN-T 最优解，Seed-ASR 工业化落地
2025 : 推理加速爆发（SpecASR 3x+），端侧部署成熟（WhisperKit 0.46s），多任务融合（JEDIS-LLM）
2026 : 统一架构（Uni-ASR），生产全功能（NIM4-ASR），全双工前端（UAF）

2022–2023：奠基期——LLM 如何接管 ASR

1. Prompting Large Language Models with Speech Recognition Abilities ⭐

2. Chunked Attention-based Encoder-Decoder for Streaming Speech Recognition ⭐

3. Smoothed Label Distillation for Decoder-Only ASR（SLD）

▌2024：爆发期——流式框架、多任务、工程化

4. BESTOW: Efficient and Streamable Speech Language Model ⭐⭐

5. Seed-ASR: Understanding Diverse Speech and Contexts with LLM-based Speech Recognition

6. Transducer-Llama: Integrating LLMs into Streamable Transducer-based ASR ⭐

7. Multi-token Prediction for Faster Speech LLaMA Decoding

▌2025：成熟期——推理加速、端侧部署、多任务融合

8. MFLA: Monotonic Finite Look-ahead Attention for Streaming Speech Recognition ⭐

9. SpecASR: Accelerating LLM-based ASR via Speculative Decoding ⭐

10. WhisperKit: On-device Real-time ASR with Billion-Scale Transformers ⭐

11. Train Short, Infer Long: Speech-LLM Enables Zero-Shot Streamable Joint ASR and Diarization（JEDIS-LLM）⭐

12. Audio-Conditioned Diffusion LLMs for ASR and Deliberation Processing（Whisper-LLaDA）

▌2026 Q1：持续演进期——统一架构、生产落地、全双工

13. Streaming Speech Recognition with Decoder-Only LLMs and Latency Optimization（MoCha-ASR）⭐

14. Chunk-wise Attention Transducers（CHAT）for Fast and Accurate Streaming Speech-to-Text

15. Uni-ASR: Unified LLM-Based Architecture for Non-Streaming and Streaming ASR

16. NIM4-ASR: Towards Efficient, Robust, and Customizable Real-Time LLM-Based ASR ⭐

17. UAF: A Unified Audio Front-end LLM for Full-Duplex Speech Interaction

全景速览对比表（17 篇）

趋势演变与技术脉络

相关文章：

发表评论 取消回复

发表评论取消回复