The implementation of Minimum Word Error Rate Training loss (MWER) based on negative sampling strategy from <Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition>
[1] Xie, Zhifei, et al. “Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models.” arXiv preprint arXiv:2503.02318.
[2] Ma, Ziyang, et al. “Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model.” arXiv preprint arXiv:2501.07246.
[3] Li, Gang, et al. “Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering.” arXiv preprint arXiv:2503.11197
2024年6月,中国科学院计算技术研究所自然语言处理团队发布“All in One”流式语音模型——StreamSpeech。该模型可以在用户说话的同时,以端到端的方式实现语音识别、语音翻译、语音合成的多任务实时处理,延时低至320毫秒。StreamSpeech是能够以端到端方式同时完成多项离线和流式语音任务的开源模型。StreamSpeech可以部署在手机、耳机、AR眼镜等设备,助力国际会议、跨国旅行等场景下的低延时跨语言交流需求。
同步文本解码器: 在流式编码器之后,文本解码器通过关注源语音隐藏状态 H ,同时生成目标文本 Y 。为了实现这一点,StreamSpeech 需要一个策略来决定何时生成每个目标标记(即,解码器可以关注多少个语音状态)。合理的策略应该确保模型等到识别源语音中的源文本(读取),然后再生成相应的目标文本(写入)。
Simultaneous Text Decoder(同步文本解码器)是在流式语音编码器之后,边接收源语音隐藏状态 H,边生成目标文本 Y。为实现低延迟输出,需要一个策略(policy)来判断:
forced_align 函数通过动态规划算法(如 Viterbi)在所有可能的对齐路径中寻找概率最高的路径。该算法通过填充一个大小为 (S, T) 的矩阵(其中 S 是目标序列长度,T 是时间帧数),并记录每个状态的最优前驱,以便在填充完成后回溯得到最优路径。
3. 输出结果
alignment:每个时间步对应的标签索引,形状为 (T,)。
scores:每个时间步对应标签的对数概率,形状为 (T,)。
通过这些输出,可以确定每个字符在音频中的时间位置,实现字级别的对齐。
🔧 实际应用
为了简化强制对齐的流程,torchaudio 提供了高级 API torchaudio.pipelines.Wav2Vec2FABundle,该 API 集成了预训练的 Wav2Vec2 模型和 forced_align 函数,用户只需提供音频和对应的文本,即可获取每个词或字符的时间戳。该工具支持多语言对齐,适用于各种语音处理任务。
MCP(Model Context Protocol,模型上下文协议) ,2024年11月底,由 Anthropic 推出的一种开放标准,旨在统一大模型与外部数据源和工具之间的通信协议。MCP 的主要目的在于解决当前 AI 模型因数据孤岛限制而无法充分发挥潜力的难题,MCP 使得 AI 应用能够安全地访问和操作本地及远程数据,为 AI 应用提供了连接万物的接口。
Function Calling是AI模型调用函数的机制,MCP是一个标准协议,使大模型与API无缝交互,而AI Agent是一个自主运行的智能系统,利用Function Calling和MCP来分析和执行任务,实现特定目标。