The Dataset of Speech Recognition数据集

语音识别数据集汇总:

https://github.com/double22a/speech_dataset/tree/main?tab=readme-ov-file

Chinese

name duration/h address remark application
THCHS-30 30 https://openslr.org/18/
Aishell 150 https://openslr.org/33/
ST-CMDS 110 https://openslr.org/38/
Primewords 99 https://openslr.org/47/
aidatatang 200 https://openslr.org/62/
MagicData 755 https://openslr.org/68/
ASR&SD 160 http://ncmmsc2021.org/competition2.html if available
Aishell2 1000 http://www.aishelltech.com/aishell_2 if available
TAL ASR 100 https://ai.100tal.com/dataset
Common Voice 63 https://commonvoice.mozilla.org/zh-CN/datasets Common Voice Corpus 7.0
ASRU2019 ASR 500 https://www.datatang.com/competition if available
2021 SLT CSRC 398 https://www.data-baker.com/csrc_challenge.html if available
aidatatang_1505zh 1505 https://datatang.com/opensource if available
WenetSpeech 10000 https://github.com/wenet-e2e/WenetSpeech
KeSpeech 1542 https://openreview.net/forum?id=b3Zoeq2sCLq speech recognition, speaker verification, subdialect identification, voice conversion
MagicData-RAMC 180 https://arxiv.org/pdf/2203.16844.pdf conversational speech data recorded from native speakers of Mandarin Chinese
Mandarin Heavy Accent Conversational Speech Corpus 58.78 https://magichub.com/datasets/mandarin-heavy-accent-conversational-speech-corpus/
Free ST Chinese Mandarin Corpus https://openslr.org/38/

English

name duration/h address remark
Common Voice 2015 https://commonvoice.mozilla.org/zh-CN/datasets Common Voice Corpus 7.0
LibriSpeech 960 https://openslr.org/12/
ST-AEDS-20180100 4.7 http://www.openslr.org/45/
TED-LIUM Release 3 430 https://openslr.org/51/
Multilingual LibriSpeech 44659 https://openslr.org/94/ limited supervision
SPGISpeech 5000 https://datasets.kensho.com/datasets/scribe if available
Speech Commands 10 https://www.kaggle.com/c/tensorflow-speech-recognition-challenge/data
2020AESRC 160 https://datatang.com/INTERSPEECH2020 if available
GigaSpeech 10000 https://github.com/SpeechColab/GigaSpeech
The People’s Speech 31400 https://openreview.net/pdf?id=R8CwidgJ0yT
Earnings-21 39 https://arxiv.org/abs/2104.11348
VoxPopuli 24100+543 https://arxiv.org/pdf/2101.00390.pdf 24100(unlabeled), 543(transcribed)
CMU Wilderness Multilingual Speech Dataset 13 http://festvox.org/cmu_wilderness/ Multilingual
MSR-86K 9795.46 https://huggingface.co/datasets/Alex-Song/MSR-86K Multilingual

Chinese-English

name duration/h address remark
SEAME 30 https://www.isca-speech.org/archive_v0/archive_papers/interspeech_2010/i10_1986.pdf
TAL CSASR 587 https://ai.100tal.com/dataset
ASRU2019 CSASR 200 https://www.datatang.com/competition if available
ASCEND 10.62 https://arxiv.org/pdf/2112.06223.pdf

Japanese (ja-JP)

name duration/h address remark
Common Voice 26 https://commonvoice.mozilla.org/zh-CN/datasets Common Voice Corpus 7.0
Japanese_Scripted_Speech_Corpus_Daily_Use_Sentence 18 https://magichub.io/cn/datasets/japanese-scripted-speech-corpus-daily-use-sentence/
LaboroTVSpeech 2000 https://arxiv.org/pdf/2103.14736.pdf
CSJ 650 https://github.com/kaldi-asr/kaldi/tree/master/egs/csj
JTubeSpeech 1300 https://arxiv.org/pdf/2112.09323.pdf
MSR-86K 1779.03 https://huggingface.co/datasets/Alex-Song/MSR-86K Multilingual

Korean (ko-KR)

name duration/h address remark
korean-scripted-speech-corpus-daily-use-sentence 4.3 https://magichub.io/cn/datasets/korean-scripted-speech-corpus-daily-use-sentence/
korean-conversational-speech-corpus 5.22 https://magichub.io/cn/datasets/korean-conversational-speech-corpus/
MSR-86K 10338.66 https://huggingface.co/datasets/Alex-Song/MSR-86K Multilingual

Russian (ru-RU)

name duration/h address remark
Common Voice 148 https://commonvoice.mozilla.org/zh-CN/datasets Common Voice Corpus 7.0
OpenSTT 20000 https://arxiv.org/pdf/2006.08274.pdf limited supervision
MSR-86K 3188.52 https://huggingface.co/datasets/Alex-Song/MSR-86K Multilingual

French (fr-Fr)

name duration/h address remark
MediaSpeech 10 https://arxiv.org/pdf/2103.16193.pdf ASR system evaluation dataset
MSR-86K 8316.70 https://huggingface.co/datasets/Alex-Song/MSR-86K Multilingual

Spanish (es-ES)

name duration/h address remark
MediaSpeech 10 https://arxiv.org/pdf/2103.16193.pdf ASR system evaluation dataset
MSR-86K 13976.84 https://huggingface.co/datasets/Alex-Song/MSR-86K Multilingual

Turkish (tr-TR)

name duration/h address remark
MediaSpeech 10 https://arxiv.org/pdf/2103.16193.pdf ASR system evaluation dataset

Arabic (ar)

name duration/h address remark
MediaSpeech 10 https://arxiv.org/pdf/2103.16193.pdf ASR system evaluation dataset
MSR-86K 873.84 https://huggingface.co/datasets/Alex-Song/MSR-86K Multilingual

noise & nonspeech

name duration/h address remark
MUSAN https://openslr.org/17/
Room Impulse Response and Noise Database https://openslr.org/28/
AudioSet https://ieeexplore.ieee.org/document/7952261

The Dataset of Speech Synthesis

Chinese

name duration/h address remark
Aishell3 85 https://openslr.org/93/
Opencpop https://wenet.org.cn/opencpop/download/ Singing Voice Synthesis

English

name duration/h address remark
Hi-Fi Multi-Speaker English TTS Dataset 291.6 https://openslr.org/109/
LibriTTS corpus 585 https://openslr.org/60/
Speechocean762 https://www.openslr.org/101/
RyanSpeech 10 http://mohammadmahoor.com/ryanspeech/

The Dataset of Speech Recognition & Speaker Diarization

Chinese

name duration/h address remark application
Aishell4 120 https://openslr.org/111/ 8-channel, conference scenarios speech recognition, speaker diarization
ASR&SD 160 http://ncmmsc2021.org/competition2.html if available speech recognition, speaker diarization
zhijiangcup https://zhijiangcup.zhejianglab.com/zhijiang/match/details/id/6.html if available speech recognition, speaker diarization
M2MET 120 https://arxiv.org/pdf/2110.07393.pdf 8-channel, conference scenarios speech recognition, speaker diarization

English

name duration/h address remark application
CHiME-6 https://chimechallenge.github.io/chime6/download.html if available speech recognition, speaker diarization

The Dataset of Speaker Recognition

Chinese

name duration/h address remark application
CN-Celeb https://openslr.org/82/
KeSpeech 1542 https://openreview.net/forum?id=b3Zoeq2sCLq speech recognition, speaker verification, subdialect identification, voice conversion
MTASS 55.6 https://github.com/Windstudent/Complex-MTASSNet
THCHS-30 40 http://www.openslr.org/18/

English

name duration/h address remark
VoxCeleb Data http://www.robots.ox.ac.uk/~vgg/data/voxceleb/

中文语音识别数据集总结

OpenSLR国内镜像

http://openslr.magicdatatech.com/

Free ST Chinese Mandarin Corpus

1)基本信息:
参与者:855人
这个语料库是用手机在室内安静的环境中录制的。它有855个speakers。每个演讲者有120个话语。所有的话语都经过人仔细的转录和核对。保证转录精度

语料库包含:
1音频文件;
2转录;
3元数据;

2)链接

下载:(8.2G)

http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

国内镜像:

http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

Primewords Chinese Corpus Set 1

1)基本信息
参与人数:296人
时长:178小时

这个免费的中文普通话语料库由上海普力信息技术有限公司发布。(www.primewords.cn)包含178个小时的数据。该语料由296名以中文为母语的人的智能手机录制。转录精度大于 98%,置信度为 95%。免费用于学术用途。转述和词句之间的映射以 JSON 格式提供。

2)链接

下载:(9.0G)

http://www.openslr.org/resources/47/primewords_md_2018_set1.tar.gz

国内镜像:

http://cn-mirror.openslr.org/resources/47/primewords_md_2018_set1.tar.gz

爱数智慧中文手机录音音频语料库(Mandarin Chinese Read Speech )

1)基本信息

时长:755小时

参与人数:1000人

音频格式:PCM

MagicData中文手机录音音频语料库包含755小时的中文普通话朗读语音数据,其中分为训练集712.09小时、开发集14.84小时和测试集28.08小时。本语料库的录制文本覆盖多样化的使用场景,包括互动问答、音乐搜索、口语短信信息、家居命令控制等。采集方式为手机录音,涵盖多种类型的安卓手机;录音输出为PCM格式。1000名来自中国不同口音区域的发言人参与采集。MagicData中文手机录音音频语料库由MagicData有限公司开发,免费发布供非商业使用。

2)链接

包:

https://freedata.oss-cn-beijing.aliyuncs.com/MAGICDATA_Mandarin_Chinese_Speech.zip

下载地址

http://www.imagicdatatech.com/index.php/home/dataopensource/data_info/id/101

THCHS30

1)基本信息

时长:40余小时

THCHS30是一个经典的中文语音数据集,包含了1万余条语音文件,通过单个碳粒麦克风录取,大约40小时的中文语音数据,内容以文章诗句为主,全部为女声。它是由清华大学语音与语言技术中心(CSLT)出版的开放式中文语音数据库。原创录音于2002年由朱晓燕教授在清华大学计算机科学系智能与系统重点实验室监督下进行,原名“TCMSD”,代表“清华连续”普通话语音数据库’。13年后的出版由王东博士发起,并得到了朱晓燕教授的支持。他们希望为语音识别领域的新入门的研究人员提供玩具级别的数据库,因此,数据库对学术用户完全免费。

2)链接

国内镜像:

https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz

国外镜像:

https://link.ailemon.me/?target=http://www.openslr.org/resources/18/data_thchs30.tgz

ST-CMDS

1)基本信息:

时长:100余小时

参与人数:855人

ST-CMDS是由一个AI数据公司发布的中文语音数据集,包含10万余条语音文件,大约100余小时的语音数据。数据内容以平时的网上语音聊天和智能语音控制语句为主,855个不同说话者,同时有男声和女声,适合多种场景下使用。

2)链接

下载地址:

国内镜像:

https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

国外镜像:

https://link.ailemon.me/?target=http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

MAGICDATA Mandarin Chinese Read Speech Corpus

1)基本信息

时长:755小时

参与人数:1080人

应用:语音识别,机器翻译,说话人识别和其他语音相关领域

Magic Data技术有限公司的语料库,语料库包含755小时的语音数据,其主要是移动终端的录音数据。邀请来自中国不同重点区域的1080名演讲者参与录制。句子转录准确率高于98%。录音在安静的室内环境中进行。数据库分为训练集,验证集和测试集,比例为51:1:2。诸如语音数据编码和说话者信息的细节信息被保存在元数据文件中。录音文本领域多样化,包括互动问答,音乐搜索,SNS信息,家庭指挥和控制等。还提供了分段的成绩单。该语料库旨在支持语音识别,机器翻译,说话人识别和其他语音相关领域的研究人员。因此,语料库完全免费用于学术用途。

2)链接

下载地址见参考:
https://blog.ailemon.me/2018/11/21/free-open-source-chinese-speech-datasets/
镜像:
http://www.openslr.org/68/

AISHELL

AISHELL开源版1

1)基本信息

时长:178小时

参与人数:400人

采样:44.1kHz & 16kHz 16bit

AISHELL是由北京希尔公司发布的一个中文语音数据集,其中包含约178小时的开源版数据。该数据集包含400个来自中国不同地区、具有不同的口音的人的声音。录音是在安静的室内环境中同时使用3种不同设备: 高保真麦克风(44.1kHz,16-bit);Android系统手机(16kHz,16-bit);iOS系统手机(16kHz,16-bit)。进行录音,并采样降至16kHz,用于制作AISHELL-ASR0009-OS1。通过专业的语音注释和严格的质量检查,手动转录准确率达到95%以上。该数据免费供学术使用。他们希望为语音识别领域的新研究人员提供适量的数据。

2)链接

下载地址:

http://www.aishelltech.com/kysjcp

AISHELL-2 开源中文语音数据库

1)基本信息

时长:1000小时

参与人数:1991人

希尔贝壳中文普通话语音数据库AISHELL-2的语音时长为1000小时,其中718小时来自AISHELL-ASR0009-[ZH-CN],282小时来自AISHELL-ASR0010-[ZH-CN]。录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。录制过程在安静室内环境中, 同时使用3种不同设备: 高保真麦克风(44.1kHz,16bit);Android系统手机(16kHz,16bit);iOS系统手机(16kHz,16bit)。AISHELL-2采用iOS系统手机录制的语音数据。1991名来自中国不同口音区域的发言人参与录制。经过专业语音校对人员转写标注,并通过严格质量检验,此数据库文本正确率在96%以上。(支持学术研究,未经允许禁止商用。)

2)链接

下载地址:

http://www.aishelltech.com/aishell_2

AISHELL-翻译机录制语音数据库

1)基本信息

时长:31.2小时

参与人数:12人

采样: 44.1kHz & 16kHz 16bit

文件:wav

来自AISHELL的开源语音数据产品:翻译机录制语音数据库

2)链接

下载地址:

http://www.aishelltech.com/aishell_2019C_eval

AISHELL-家居环境近远讲同步语音数据库

1)基本信息

时长:24.3小时

参与人数:50人

采样: 44.1kHz & 16kHz 16bit

文件:wav

AISHELL-2019A-EVAL 随机抽取 50 个发音人。每人从位置 A(高保真 44.1kHz,16bit)与位置 F(Android 系统手机 16kHz,16bit)中,各选取 232 句到 237 句。
此数据库经过专业语音校对人员转写标注,并通过严格质量检验,文本正确率 100%。

AISHELL-2019A-EVAL 是 AISHELL-ASR0010 的子库,共 24.3 小时。

2)链接

下载地址:

http://www.aishelltech.com/aishell_2019A_eval

AISHELL-语音唤醒词数据库

1)基本信息

时长:437.67小时

参与人数:86人

采样: 44.1kHz & 16kHz 16bit

文件:wav

来自希尔贝壳的语音唤醒词数据库

2)链接

下载地址:

http://www.aishelltech.com/aishell_2019B_eval

AISHELL-3 语音合成数据集

1)基本信息
希尔贝壳中文普通话语音数据库AISHELL-3的语音时长为85小时88035句,可做为多说话人合成系统。录制过程在安静室内环境中, 使用高保真麦克风(44.1kHz,16bit)。218名来自中国不同口音区域的发言人参与录制。专业语音校对人员进行拼音和韵律标注,并通过严格质量检验,此数据库音字确率在98%以上。(支持学术研究,未经允许禁止商用。)
2)下载链接
国内镜像: https://openslr.magicdatatech.com/resources/93/data_aishell3.tgz
国外镜像:https://www.openslr.org/resources/93/data_aishell3.tgz

Aidatatang

aidatatang_1505zh(完整的1505小时中文普通话语音数据集)

1)基本信息

参与人数:6408人

时长:1505小时

包含6408位来自中国不同地区的说话人、总计1505小时时长共3万条语音、经过人工精心标注的中文普通话语料集可以对中文语音识别研究提供良好的数据支持。采集区域覆盖全国34个省级行政区域。经过专业语音校对人员转写标注,并通过严格质量检验,句标注准确率达98%以上,是行业内句准确率的最高标准。

2)使用效果:

3)链接

数据申请:

https://www.datatang.com/webfront/opensource.html

Aidatatang_200zh(基于完整数据集精选的200小时中文普通话语音数据集)

1)基本信息
时长:200小时

参与人数:600人

采样: 16kHz 16bit

Aidatatang_200zh是由北京数据科技有限公司(数据堂)提供的开放式中文普通话电话语音库。语料库长达200小时,由Android系统手机(16kHz,16位)和iOS系统手机(16kHz,16位)记录。邀请来自中国不同重点区域的600名演讲者参加录音,录音是在安静的室内环境或环境中进行,其中包含不影响语音识别的背景噪音。参与者的性别和年龄均匀分布。语料库的语言材料是设计为音素均衡的口语句子。每个句子的手动转录准确率大于98%。数据库按7:1:2的比例分为训练集、验证集和测试集。在元数据文件中保存诸如语音数据编码和扬声器信息等详细信息。还提供分段转录本。

2)特点

该语料库旨在为语音识别、机器翻译、声纹识别等语音相关领域的研究人员提供支持。因此,该语料库完全免费供学术使用。

数据堂精选了200小时中文普通话语音数据在OpenSLR发布,并在Kaldi平台提供了训练代码,对应的训练方法也在github平台发布。

3)链接

训练:

https://github.com/datatang-ailab/aidatatang_200zh/blob/master/README.md

国内镜像:

https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/62/aidatatang_200zh.tgz

国外镜像:https://link.ailemon.me/?target=http://www.openslr.org/resources/62/aidatatang_200zh.tgz

hkust

  1. 基本信息
    200h,16khz,16bit。中文电话数据集,电话对话,espnet,kaldi里面都有egs。
    2)链接下载链接:http://catalog.ldc.upenn.edu/LDC2005S15

Speechocean 10小时中文普通话语音识别语料库

1)基本信息
这是一个10.33小时的语料库,它同时通过4个不同的麦克风收集。在安静的办公室中,由20位说话者(10位男性和10位女性)录制​​了该语料库。每个扬声器在一个通道中记录了大约120声。包括转录文件。句子的转录精度高于98%。它完全免费用于学术目的。
2)下载链接
百度云盘(提取码:sktk):https://pan.baidu.com/share/init?surl=1glZHlKIXjlPOOht6_yQXQ

cn-celeb

1)基本信息
此数据是“在野外”收集的大规模说话人识别数据集。该数据集包含来自1000位中国名人的13万种语音,涵盖了现实世界中的11种不同流派。所有音频文件都编码为单通道,并以16位精度以16kHz采样。数据收集过程由清华大学语音与语言技术中心组织。它也由国家自然科学基金61633013和博士后科学基金2018M640133资助。
2)下载链接

HI-MIA

1)基本信息
内容为中文和英文的唤醒词“嗨,米娅”。使用麦克风阵列和Hi-Fi麦克风在实际家庭环境中收集数据。下文描述了基准系统的收集过程和开发。挑战中使用的数据是从1个高保真麦克风和1/3/5米的16通道圆形麦克风阵列中提取的。内容是中文唤醒词。整个集合分为火车(254人),开发(42人)和测试(44人)子集。测试子集提供了成对的目标/非目标答案,以评估验证结果。
2)下载链接
国内镜像(train) :http://openslr.magicdatatech.com/resources/85/train.tar.gz
国内镜像(dev) :http://openslr.magicdatatech.com/resources/85/dev.tar.gz
国内镜像(test) :http://openslr.magicdatatech.com/resources/85/test_v2.tar.gz
国内镜像(filename_mapping):http://openslr.magicdatatech.com/resources/85/filename_mapping.tar.gz

MobvoiHotwords

1)基本信息
MobvoiHotwords是从Mobvoi的商业智能扬声器收集的唤醒单词的语料库。它由关键字和非关键字语音组成。对于关键字数据,将收集包含“ Hi xiaowen”或“ Nihao Wenwen”的关键字语音。对于每个关键字,大约有36k语音。所有关键字数据均收集自788名年龄在3-65岁之间的受试者,这些受试者与智能扬声器的距离(1、3和5米)不同。在采集过程中,具有不同声压级的不同噪声(例如音乐和电视等典型的家庭环境噪声)会在后台播放。

2)下载链接
国内镜像 :http://openslr.magicdatatech.com/resources/87/mobvoi_hotword_dataset.tgz
国外镜像:http://www.openslr.org/resources/87/mobvoi_hotword_dataset.tgz

zhvoice: Chinese voice corpus

1)基本信息
zhvoice语料由8个开源数据集,经过降噪和去除静音处理而成,说话人约3200个,音频约900小时,文本约113万条,共有约1300万字。

zhvoice语料比较原始数据而言,更加清晰和自然,减少了噪声的干扰,减少了因说话人说话不连贯造成的不自然。

zhvoice语料包含文本、语音和说话人3个方面的信息,可适用于多种语音相关的任务。

zhvoice语料由智浪淘沙清洗和处理。
2)下载链接
https://github.com/fighting41love/zhvoice

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注