Qwen3-ASR：语音识别大模型

ModelScope：https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo
HuggingFace: https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo
阿里云百炼API：https://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031

Qwen3-ASR-Flash实现了⾼精度⾼鲁棒性的语⾳识别性能，⽀持11种语⾔和多种⼝⾳。与众不同的是，Qwen3-ASR-Flash⽀持⽤户以任意格式提供⽂本上下⽂，从⽽获得定制化的 ASR 结果，同时还⽀持歌声识别。

Qwen3-ASR-Flash 单模型支持多种语言、方言和口音的精准转录：

中文：包括普通话以及四川话、闽南语、吴语、粤语等主要方言。
英语：支持英式、美式及多种其他地区口音。
其他支持语言：法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语和阿拉伯语。

为获得定制化的ASR结果，用户可提供任意格式的背景文本来获得倾向性ASR结果，Qwen3-ASR-Flash无需对上下文信息进行格式预处理。

支持的格式包括但不限于：

简单的关键词或热词列表。
任意长度和来源的完整段落或整篇文档。
以任意格式混合的关键词列表与全文段落。
无关甚至无意义的文本(模型对无关上下文的负面影响具有高度鲁棒性)。

性能表现：

核心特性：

领先的识别准确率：Qwen3-ASR-Flash在多个中英文，多语种benchmark测试中表现最优。
惊艳的歌声识别能力：支持歌唱识别，包括清唱与带bgm的整歌识别，实测错误率低于8%。
定制化识别：用户可以以任意格式（如词汇表、段落或完整文档）提供背景文本，模型能智能利用该上下文识别并匹配命名实体和其他关键术语，输出定制化的识别结果。
语种识别与非人声拒识：模型能精确分辨语音的语种，自动过滤非语音片段，包括静音和背景噪声。
鲁棒性：面对长难句、句中语言切换和重复词语等困难文本模式，以及在复杂的声学环境中，模型仍能保持高准确率。

发表评论取消回复