语音识别数据集汇总:
https://github.com/double22a/speech_dataset/tree/main?tab=readme-ov-file
Chinese
name | duration/h | address | remark | application |
---|---|---|---|---|
THCHS-30 | 30 | https://openslr.org/18/ | ||
Aishell | 150 | https://openslr.org/33/ | ||
ST-CMDS | 110 | https://openslr.org/38/ | ||
Primewords | 99 | https://openslr.org/47/ | ||
aidatatang | 200 | https://openslr.org/62/ | ||
MagicData | 755 | https://openslr.org/68/ | ||
ASR&SD | 160 | http://ncmmsc2021.org/competition2.html | if available | |
Aishell2 | 1000 | http://www.aishelltech.com/aishell_2 | if available | |
TAL ASR | 100 | https://ai.100tal.com/dataset | ||
Common Voice | 63 | https://commonvoice.mozilla.org/zh-CN/datasets | Common Voice Corpus 7.0 | |
ASRU2019 ASR | 500 | https://www.datatang.com/competition | if available | |
2021 SLT CSRC | 398 | https://www.data-baker.com/csrc_challenge.html | if available | |
aidatatang_1505zh | 1505 | https://datatang.com/opensource | if available | |
WenetSpeech | 10000 | https://github.com/wenet-e2e/WenetSpeech | ||
KeSpeech | 1542 | https://openreview.net/forum?id=b3Zoeq2sCLq | speech recognition, speaker verification, subdialect identification, voice conversion | |
MagicData-RAMC | 180 | https://arxiv.org/pdf/2203.16844.pdf | conversational speech data recorded from native speakers of Mandarin Chinese | |
Mandarin Heavy Accent Conversational Speech Corpus | 58.78 | https://magichub.com/datasets/mandarin-heavy-accent-conversational-speech-corpus/ | ||
Free ST Chinese Mandarin Corpus | – | https://openslr.org/38/ |
English
name | duration/h | address | remark |
---|---|---|---|
Common Voice | 2015 | https://commonvoice.mozilla.org/zh-CN/datasets | Common Voice Corpus 7.0 |
LibriSpeech | 960 | https://openslr.org/12/ | |
ST-AEDS-20180100 | 4.7 | http://www.openslr.org/45/ | |
TED-LIUM Release 3 | 430 | https://openslr.org/51/ | |
Multilingual LibriSpeech | 44659 | https://openslr.org/94/ | limited supervision |
SPGISpeech | 5000 | https://datasets.kensho.com/datasets/scribe | if available |
Speech Commands | 10 | https://www.kaggle.com/c/tensorflow-speech-recognition-challenge/data | |
2020AESRC | 160 | https://datatang.com/INTERSPEECH2020 | if available |
GigaSpeech | 10000 | https://github.com/SpeechColab/GigaSpeech | |
The People’s Speech | 31400 | https://openreview.net/pdf?id=R8CwidgJ0yT | |
Earnings-21 | 39 | https://arxiv.org/abs/2104.11348 | |
VoxPopuli | 24100+543 | https://arxiv.org/pdf/2101.00390.pdf | 24100(unlabeled), 543(transcribed) |
CMU Wilderness Multilingual Speech Dataset | 13 | http://festvox.org/cmu_wilderness/ | Multilingual |
MSR-86K | 9795.46 | https://huggingface.co/datasets/Alex-Song/MSR-86K | Multilingual |
Chinese-English
name | duration/h | address | remark |
---|---|---|---|
SEAME | 30 | https://www.isca-speech.org/archive_v0/archive_papers/interspeech_2010/i10_1986.pdf | |
TAL CSASR | 587 | https://ai.100tal.com/dataset | |
ASRU2019 CSASR | 200 | https://www.datatang.com/competition | if available |
ASCEND | 10.62 | https://arxiv.org/pdf/2112.06223.pdf |
Japanese (ja-JP)
name | duration/h | address | remark |
---|---|---|---|
Common Voice | 26 | https://commonvoice.mozilla.org/zh-CN/datasets | Common Voice Corpus 7.0 |
Japanese_Scripted_Speech_Corpus_Daily_Use_Sentence | 18 | https://magichub.io/cn/datasets/japanese-scripted-speech-corpus-daily-use-sentence/ | |
LaboroTVSpeech | 2000 | https://arxiv.org/pdf/2103.14736.pdf | |
CSJ | 650 | https://github.com/kaldi-asr/kaldi/tree/master/egs/csj | |
JTubeSpeech | 1300 | https://arxiv.org/pdf/2112.09323.pdf | |
MSR-86K | 1779.03 | https://huggingface.co/datasets/Alex-Song/MSR-86K | Multilingual |
Korean (ko-KR)
name | duration/h | address | remark |
---|---|---|---|
korean-scripted-speech-corpus-daily-use-sentence | 4.3 | https://magichub.io/cn/datasets/korean-scripted-speech-corpus-daily-use-sentence/ | |
korean-conversational-speech-corpus | 5.22 | https://magichub.io/cn/datasets/korean-conversational-speech-corpus/ | |
MSR-86K | 10338.66 | https://huggingface.co/datasets/Alex-Song/MSR-86K | Multilingual |
Russian (ru-RU)
name | duration/h | address | remark |
---|---|---|---|
Common Voice | 148 | https://commonvoice.mozilla.org/zh-CN/datasets | Common Voice Corpus 7.0 |
OpenSTT | 20000 | https://arxiv.org/pdf/2006.08274.pdf | limited supervision |
MSR-86K | 3188.52 | https://huggingface.co/datasets/Alex-Song/MSR-86K | Multilingual |
French (fr-Fr)
name | duration/h | address | remark |
---|---|---|---|
MediaSpeech | 10 | https://arxiv.org/pdf/2103.16193.pdf | ASR system evaluation dataset |
MSR-86K | 8316.70 | https://huggingface.co/datasets/Alex-Song/MSR-86K | Multilingual |
Spanish (es-ES)
name | duration/h | address | remark |
---|---|---|---|
MediaSpeech | 10 | https://arxiv.org/pdf/2103.16193.pdf | ASR system evaluation dataset |
MSR-86K | 13976.84 | https://huggingface.co/datasets/Alex-Song/MSR-86K | Multilingual |
Turkish (tr-TR)
name | duration/h | address | remark |
---|---|---|---|
MediaSpeech | 10 | https://arxiv.org/pdf/2103.16193.pdf | ASR system evaluation dataset |
Arabic (ar)
name | duration/h | address | remark |
---|---|---|---|
MediaSpeech | 10 | https://arxiv.org/pdf/2103.16193.pdf | ASR system evaluation dataset |
MSR-86K | 873.84 | https://huggingface.co/datasets/Alex-Song/MSR-86K | Multilingual |
noise & nonspeech
name | duration/h | address | remark |
---|---|---|---|
MUSAN | – | https://openslr.org/17/ | |
Room Impulse Response and Noise Database | – | https://openslr.org/28/ | |
AudioSet | – | https://ieeexplore.ieee.org/document/7952261 |
The Dataset of Speech Synthesis
Chinese
name | duration/h | address | remark |
---|---|---|---|
Aishell3 | 85 | https://openslr.org/93/ | |
Opencpop | – | https://wenet.org.cn/opencpop/download/ | Singing Voice Synthesis |
English
name | duration/h | address | remark |
---|---|---|---|
Hi-Fi Multi-Speaker English TTS Dataset | 291.6 | https://openslr.org/109/ | |
LibriTTS corpus | 585 | https://openslr.org/60/ | |
Speechocean762 | – | https://www.openslr.org/101/ | |
RyanSpeech | 10 | http://mohammadmahoor.com/ryanspeech/ |
The Dataset of Speech Recognition & Speaker Diarization
Chinese
name | duration/h | address | remark | application |
---|---|---|---|---|
Aishell4 | 120 | https://openslr.org/111/ | 8-channel, conference scenarios | speech recognition, speaker diarization |
ASR&SD | 160 | http://ncmmsc2021.org/competition2.html | if available | speech recognition, speaker diarization |
zhijiangcup | – | https://zhijiangcup.zhejianglab.com/zhijiang/match/details/id/6.html | if available | speech recognition, speaker diarization |
M2MET | 120 | https://arxiv.org/pdf/2110.07393.pdf | 8-channel, conference scenarios | speech recognition, speaker diarization |
English
name | duration/h | address | remark | application |
---|---|---|---|---|
CHiME-6 | – | https://chimechallenge.github.io/chime6/download.html | if available | speech recognition, speaker diarization |
The Dataset of Speaker Recognition
Chinese
name | duration/h | address | remark | application |
---|---|---|---|---|
CN-Celeb | – | https://openslr.org/82/ | ||
KeSpeech | 1542 | https://openreview.net/forum?id=b3Zoeq2sCLq | speech recognition, speaker verification, subdialect identification, voice conversion | |
MTASS | 55.6 | https://github.com/Windstudent/Complex-MTASSNet | ||
THCHS-30 | 40 | http://www.openslr.org/18/ |
English
name | duration/h | address | remark |
---|---|---|---|
VoxCeleb Data | – | http://www.robots.ox.ac.uk/~vgg/data/voxceleb/ |
中文语音识别数据集总结
OpenSLR国内镜像
http://openslr.magicdatatech.com/
Free ST Chinese Mandarin Corpus
1)基本信息:
参与者:855人
这个语料库是用手机在室内安静的环境中录制的。它有855个speakers。每个演讲者有120个话语。所有的话语都经过人仔细的转录和核对。保证转录精度
语料库包含:
1音频文件;
2转录;
3元数据;
2)链接
下载:(8.2G)
http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz
国内镜像:
http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz
Primewords Chinese Corpus Set 1
1)基本信息
参与人数:296人
时长:178小时
这个免费的中文普通话语料库由上海普力信息技术有限公司发布。(www.primewords.cn)包含178个小时的数据。该语料由296名以中文为母语的人的智能手机录制。转录精度大于 98%,置信度为 95%。免费用于学术用途。转述和词句之间的映射以 JSON 格式提供。
2)链接
下载:(9.0G)
http://www.openslr.org/resources/47/primewords_md_2018_set1.tar.gz
国内镜像:
http://cn-mirror.openslr.org/resources/47/primewords_md_2018_set1.tar.gz
爱数智慧中文手机录音音频语料库(Mandarin Chinese Read Speech )
1)基本信息
时长:755小时
参与人数:1000人
音频格式:PCM
MagicData中文手机录音音频语料库包含755小时的中文普通话朗读语音数据,其中分为训练集712.09小时、开发集14.84小时和测试集28.08小时。本语料库的录制文本覆盖多样化的使用场景,包括互动问答、音乐搜索、口语短信信息、家居命令控制等。采集方式为手机录音,涵盖多种类型的安卓手机;录音输出为PCM格式。1000名来自中国不同口音区域的发言人参与采集。MagicData中文手机录音音频语料库由MagicData有限公司开发,免费发布供非商业使用。
2)链接
https://freedata.oss-cn-beijing.aliyuncs.com/MAGICDATA_Mandarin_Chinese_Speech.zip
下载地址
http://www.imagicdatatech.com/index.php/home/dataopensource/data_info/id/101
THCHS30
1)基本信息
时长:40余小时
THCHS30是一个经典的中文语音数据集,包含了1万余条语音文件,通过单个碳粒麦克风录取,大约40小时的中文语音数据,内容以文章诗句为主,全部为女声。它是由清华大学语音与语言技术中心(CSLT)出版的开放式中文语音数据库。原创录音于2002年由朱晓燕教授在清华大学计算机科学系智能与系统重点实验室监督下进行,原名“TCMSD”,代表“清华连续”普通话语音数据库’。13年后的出版由王东博士发起,并得到了朱晓燕教授的支持。他们希望为语音识别领域的新入门的研究人员提供玩具级别的数据库,因此,数据库对学术用户完全免费。
2)链接
国内镜像:
https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz
国外镜像:
https://link.ailemon.me/?target=http://www.openslr.org/resources/18/data_thchs30.tgz
ST-CMDS
1)基本信息:
时长:100余小时
参与人数:855人
ST-CMDS是由一个AI数据公司发布的中文语音数据集,包含10万余条语音文件,大约100余小时的语音数据。数据内容以平时的网上语音聊天和智能语音控制语句为主,855个不同说话者,同时有男声和女声,适合多种场景下使用。
2)链接
下载地址:
国内镜像:
国外镜像:
https://link.ailemon.me/?target=http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz
MAGICDATA Mandarin Chinese Read Speech Corpus
1)基本信息
时长:755小时
参与人数:1080人
应用:语音识别,机器翻译,说话人识别和其他语音相关领域
Magic Data技术有限公司的语料库,语料库包含755小时的语音数据,其主要是移动终端的录音数据。邀请来自中国不同重点区域的1080名演讲者参与录制。句子转录准确率高于98%。录音在安静的室内环境中进行。数据库分为训练集,验证集和测试集,比例为51:1:2。诸如语音数据编码和说话者信息的细节信息被保存在元数据文件中。录音文本领域多样化,包括互动问答,音乐搜索,SNS信息,家庭指挥和控制等。还提供了分段的成绩单。该语料库旨在支持语音识别,机器翻译,说话人识别和其他语音相关领域的研究人员。因此,语料库完全免费用于学术用途。
2)链接
下载地址见参考:
https://blog.ailemon.me/2018/11/21/free-open-source-chinese-speech-datasets/
镜像:
http://www.openslr.org/68/
AISHELL
AISHELL开源版1
1)基本信息
时长:178小时
参与人数:400人
采样:44.1kHz & 16kHz 16bit
AISHELL是由北京希尔公司发布的一个中文语音数据集,其中包含约178小时的开源版数据。该数据集包含400个来自中国不同地区、具有不同的口音的人的声音。录音是在安静的室内环境中同时使用3种不同设备: 高保真麦克风(44.1kHz,16-bit);Android系统手机(16kHz,16-bit);iOS系统手机(16kHz,16-bit)。进行录音,并采样降至16kHz,用于制作AISHELL-ASR0009-OS1。通过专业的语音注释和严格的质量检查,手动转录准确率达到95%以上。该数据免费供学术使用。他们希望为语音识别领域的新研究人员提供适量的数据。
2)链接
下载地址:
http://www.aishelltech.com/kysjcp
AISHELL-2 开源中文语音数据库
1)基本信息
时长:1000小时
参与人数:1991人
希尔贝壳中文普通话语音数据库AISHELL-2的语音时长为1000小时,其中718小时来自AISHELL-ASR0009-[ZH-CN],282小时来自AISHELL-ASR0010-[ZH-CN]。录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。录制过程在安静室内环境中, 同时使用3种不同设备: 高保真麦克风(44.1kHz,16bit);Android系统手机(16kHz,16bit);iOS系统手机(16kHz,16bit)。AISHELL-2采用iOS系统手机录制的语音数据。1991名来自中国不同口音区域的发言人参与录制。经过专业语音校对人员转写标注,并通过严格质量检验,此数据库文本正确率在96%以上。(支持学术研究,未经允许禁止商用。)
2)链接
下载地址:
http://www.aishelltech.com/aishell_2
AISHELL-翻译机录制语音数据库
1)基本信息
时长:31.2小时
参与人数:12人
采样: 44.1kHz & 16kHz 16bit
文件:wav
来自AISHELL的开源语音数据产品:翻译机录制语音数据库
2)链接
下载地址:
http://www.aishelltech.com/aishell_2019C_eval
AISHELL-家居环境近远讲同步语音数据库
1)基本信息
时长:24.3小时
参与人数:50人
采样: 44.1kHz & 16kHz 16bit
文件:wav
AISHELL-2019A-EVAL 随机抽取 50 个发音人。每人从位置 A(高保真 44.1kHz,16bit)与位置 F(Android 系统手机 16kHz,16bit)中,各选取 232 句到 237 句。
此数据库经过专业语音校对人员转写标注,并通过严格质量检验,文本正确率 100%。
AISHELL-2019A-EVAL 是 AISHELL-ASR0010 的子库,共 24.3 小时。
2)链接
下载地址:
http://www.aishelltech.com/aishell_2019A_eval
AISHELL-语音唤醒词数据库
1)基本信息
时长:437.67小时
参与人数:86人
采样: 44.1kHz & 16kHz 16bit
文件:wav
来自希尔贝壳的语音唤醒词数据库
2)链接
下载地址:
http://www.aishelltech.com/aishell_2019B_eval
AISHELL-3 语音合成数据集
1)基本信息
希尔贝壳中文普通话语音数据库AISHELL-3的语音时长为85小时88035句,可做为多说话人合成系统。录制过程在安静室内环境中, 使用高保真麦克风(44.1kHz,16bit)。218名来自中国不同口音区域的发言人参与录制。专业语音校对人员进行拼音和韵律标注,并通过严格质量检验,此数据库音字确率在98%以上。(支持学术研究,未经允许禁止商用。)
2)下载链接
国内镜像: https://openslr.magicdatatech.com/resources/93/data_aishell3.tgz
国外镜像:https://www.openslr.org/resources/93/data_aishell3.tgz
Aidatatang
aidatatang_1505zh(完整的1505小时中文普通话语音数据集)
1)基本信息
参与人数:6408人
时长:1505小时
包含6408位来自中国不同地区的说话人、总计1505小时时长共3万条语音、经过人工精心标注的中文普通话语料集可以对中文语音识别研究提供良好的数据支持。采集区域覆盖全国34个省级行政区域。经过专业语音校对人员转写标注,并通过严格质量检验,句标注准确率达98%以上,是行业内句准确率的最高标准。
2)使用效果:
3)链接
数据申请:
https://www.datatang.com/webfront/opensource.html
Aidatatang_200zh(基于完整数据集精选的200小时中文普通话语音数据集)
1)基本信息
时长:200小时
参与人数:600人
采样: 16kHz 16bit
Aidatatang_200zh是由北京数据科技有限公司(数据堂)提供的开放式中文普通话电话语音库。语料库长达200小时,由Android系统手机(16kHz,16位)和iOS系统手机(16kHz,16位)记录。邀请来自中国不同重点区域的600名演讲者参加录音,录音是在安静的室内环境或环境中进行,其中包含不影响语音识别的背景噪音。参与者的性别和年龄均匀分布。语料库的语言材料是设计为音素均衡的口语句子。每个句子的手动转录准确率大于98%。数据库按7:1:2的比例分为训练集、验证集和测试集。在元数据文件中保存诸如语音数据编码和扬声器信息等详细信息。还提供分段转录本。
2)特点
该语料库旨在为语音识别、机器翻译、声纹识别等语音相关领域的研究人员提供支持。因此,该语料库完全免费供学术使用。
数据堂精选了200小时中文普通话语音数据在OpenSLR发布,并在Kaldi平台提供了训练代码,对应的训练方法也在github平台发布。
3)链接
训练:
https://github.com/datatang-ailab/aidatatang_200zh/blob/master/README.md
国内镜像:
https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/62/aidatatang_200zh.tgz
国外镜像:https://link.ailemon.me/?target=http://www.openslr.org/resources/62/aidatatang_200zh.tgz
hkust
- 基本信息
200h,16khz,16bit。中文电话数据集,电话对话,espnet,kaldi里面都有egs。
2)链接下载链接:http://catalog.ldc.upenn.edu/LDC2005S15
Speechocean 10小时中文普通话语音识别语料库
1)基本信息
这是一个10.33小时的语料库,它同时通过4个不同的麦克风收集。在安静的办公室中,由20位说话者(10位男性和10位女性)录制了该语料库。每个扬声器在一个通道中记录了大约120声。包括转录文件。句子的转录精度高于98%。它完全免费用于学术目的。
2)下载链接
百度云盘(提取码:sktk):https://pan.baidu.com/share/init?surl=1glZHlKIXjlPOOht6_yQXQ
cn-celeb
1)基本信息
此数据是“在野外”收集的大规模说话人识别数据集。该数据集包含来自1000位中国名人的13万种语音,涵盖了现实世界中的11种不同流派。所有音频文件都编码为单通道,并以16位精度以16kHz采样。数据收集过程由清华大学语音与语言技术中心组织。它也由国家自然科学基金61633013和博士后科学基金2018M640133资助。
2)下载链接
HI-MIA
1)基本信息
内容为中文和英文的唤醒词“嗨,米娅”。使用麦克风阵列和Hi-Fi麦克风在实际家庭环境中收集数据。下文描述了基准系统的收集过程和开发。挑战中使用的数据是从1个高保真麦克风和1/3/5米的16通道圆形麦克风阵列中提取的。内容是中文唤醒词。整个集合分为火车(254人),开发(42人)和测试(44人)子集。测试子集提供了成对的目标/非目标答案,以评估验证结果。
2)下载链接
国内镜像(train) :http://openslr.magicdatatech.com/resources/85/train.tar.gz
国内镜像(dev) :http://openslr.magicdatatech.com/resources/85/dev.tar.gz
国内镜像(test) :http://openslr.magicdatatech.com/resources/85/test_v2.tar.gz
国内镜像(filename_mapping):http://openslr.magicdatatech.com/resources/85/filename_mapping.tar.gz
MobvoiHotwords
1)基本信息
MobvoiHotwords是从Mobvoi的商业智能扬声器收集的唤醒单词的语料库。它由关键字和非关键字语音组成。对于关键字数据,将收集包含“ Hi xiaowen”或“ Nihao Wenwen”的关键字语音。对于每个关键字,大约有36k语音。所有关键字数据均收集自788名年龄在3-65岁之间的受试者,这些受试者与智能扬声器的距离(1、3和5米)不同。在采集过程中,具有不同声压级的不同噪声(例如音乐和电视等典型的家庭环境噪声)会在后台播放。
2)下载链接
国内镜像 :http://openslr.magicdatatech.com/resources/87/mobvoi_hotword_dataset.tgz
国外镜像:http://www.openslr.org/resources/87/mobvoi_hotword_dataset.tgz
zhvoice: Chinese voice corpus
1)基本信息
zhvoice语料由8个开源数据集,经过降噪和去除静音处理而成,说话人约3200个,音频约900小时,文本约113万条,共有约1300万字。
zhvoice语料比较原始数据而言,更加清晰和自然,减少了噪声的干扰,减少了因说话人说话不连贯造成的不自然。
zhvoice语料包含文本、语音和说话人3个方面的信息,可适用于多种语音相关的任务。
zhvoice语料由智浪淘沙清洗和处理。
2)下载链接
https://github.com/fighting41love/zhvoice