
低资源方言的语音处理仍然是构建包容性强、鲁棒性高的语音技术过程中面临的一项基础性挑战。尽管中文吴语在语言学研究中具有重要地位,且使用人群规模庞大,但长期以来,其发展一直受限于大规模语音数据匮乏、缺乏统一的评测基准以及公开可用模型不足等问题。
本文提出 WenetSpeech-Wu,这是首个面向吴语的大规模、多维度标注的开源语音语料库,包含约 8000 小时来源多样的语音数据。
Datapipline Overview

ASR Leaderboard

TTS Evaluation


低资源方言的语音处理仍然是构建包容性强、鲁棒性高的语音技术过程中面临的一项基础性挑战。尽管中文吴语在语言学研究中具有重要地位,且使用人群规模庞大,但长期以来,其发展一直受限于大规模语音数据匮乏、缺乏统一的评测基准以及公开可用模型不足等问题。
本文提出 WenetSpeech-Wu,这是首个面向吴语的大规模、多维度标注的开源语音语料库,包含约 8000 小时来源多样的语音数据。
Datapipline Overview

ASR Leaderboard

TTS Evaluation
