The Dataset of Speech Recognition数据集

语音识别数据集汇总：

https://github.com/double22a/speech_dataset/tree/main?tab=readme-ov-file

Chinese

name	duration/h	address	remark	application
THCHS-30	30	https://openslr.org/18/
Aishell	150	https://openslr.org/33/
ST-CMDS	110	https://openslr.org/38/
Primewords	99	https://openslr.org/47/
aidatatang	200	https://openslr.org/62/
MagicData	755	https://openslr.org/68/
ASR&SD	160	http://ncmmsc2021.org/competition2.html	if available
Aishell2	1000	http://www.aishelltech.com/aishell_2	if available
TAL ASR	100	https://ai.100tal.com/dataset
Common Voice	63	https://commonvoice.mozilla.org/zh-CN/datasets	Common Voice Corpus 7.0
ASRU2019 ASR	500	https://www.datatang.com/competition	if available
2021 SLT CSRC	398	https://www.data-baker.com/csrc_challenge.html	if available
aidatatang_1505zh	1505	https://datatang.com/opensource	if available
WenetSpeech	10000	https://github.com/wenet-e2e/WenetSpeech
KeSpeech	1542	https://openreview.net/forum?id=b3Zoeq2sCLq		speech recognition, speaker verification, subdialect identification, voice conversion
MagicData-RAMC	180	https://arxiv.org/pdf/2203.16844.pdf	conversational speech data recorded from native speakers of Mandarin Chinese
Mandarin Heavy Accent Conversational Speech Corpus	58.78	https://magichub.com/datasets/mandarin-heavy-accent-conversational-speech-corpus/
Free ST Chinese Mandarin Corpus	–	https://openslr.org/38/

English

name	duration/h	address	remark
Common Voice	2015	https://commonvoice.mozilla.org/zh-CN/datasets	Common Voice Corpus 7.0
LibriSpeech	960	https://openslr.org/12/
ST-AEDS-20180100	4.7	http://www.openslr.org/45/
TED-LIUM Release 3	430	https://openslr.org/51/
Multilingual LibriSpeech	44659	https://openslr.org/94/	limited supervision
SPGISpeech	5000	https://datasets.kensho.com/datasets/scribe	if available
Speech Commands	10	https://www.kaggle.com/c/tensorflow-speech-recognition-challenge/data
2020AESRC	160	https://datatang.com/INTERSPEECH2020	if available
GigaSpeech	10000	https://github.com/SpeechColab/GigaSpeech
The People’s Speech	31400	https://openreview.net/pdf?id=R8CwidgJ0yT
Earnings-21	39	https://arxiv.org/abs/2104.11348
VoxPopuli	24100+543	https://arxiv.org/pdf/2101.00390.pdf	24100(unlabeled), 543(transcribed)
CMU Wilderness Multilingual Speech Dataset	13	http://festvox.org/cmu_wilderness/	Multilingual
MSR-86K	9795.46	https://huggingface.co/datasets/Alex-Song/MSR-86K	Multilingual

Chinese-English

name	duration/h	address	remark
SEAME	30	https://www.isca-speech.org/archive_v0/archive_papers/interspeech_2010/i10_1986.pdf
TAL CSASR	587	https://ai.100tal.com/dataset
ASRU2019 CSASR	200	https://www.datatang.com/competition	if available
ASCEND	10.62	https://arxiv.org/pdf/2112.06223.pdf

Japanese (ja-JP)

name	duration/h	address	remark
Common Voice	26	https://commonvoice.mozilla.org/zh-CN/datasets	Common Voice Corpus 7.0
Japanese_Scripted_Speech_Corpus_Daily_Use_Sentence	18	https://magichub.io/cn/datasets/japanese-scripted-speech-corpus-daily-use-sentence/
LaboroTVSpeech	2000	https://arxiv.org/pdf/2103.14736.pdf
CSJ	650	https://github.com/kaldi-asr/kaldi/tree/master/egs/csj
JTubeSpeech	1300	https://arxiv.org/pdf/2112.09323.pdf
MSR-86K	1779.03	https://huggingface.co/datasets/Alex-Song/MSR-86K	Multilingual

Korean (ko-KR)

name	duration/h	address	remark
korean-scripted-speech-corpus-daily-use-sentence	4.3	https://magichub.io/cn/datasets/korean-scripted-speech-corpus-daily-use-sentence/
korean-conversational-speech-corpus	5.22	https://magichub.io/cn/datasets/korean-conversational-speech-corpus/
MSR-86K	10338.66	https://huggingface.co/datasets/Alex-Song/MSR-86K	Multilingual

Russian (ru-RU)

name	duration/h	address	remark
Common Voice	148	https://commonvoice.mozilla.org/zh-CN/datasets	Common Voice Corpus 7.0
OpenSTT	20000	https://arxiv.org/pdf/2006.08274.pdf	limited supervision
MSR-86K	3188.52	https://huggingface.co/datasets/Alex-Song/MSR-86K	Multilingual

French (fr-Fr)

name	duration/h	address	remark
MediaSpeech	10	https://arxiv.org/pdf/2103.16193.pdf	ASR system evaluation dataset
MSR-86K	8316.70	https://huggingface.co/datasets/Alex-Song/MSR-86K	Multilingual

Spanish (es-ES)

name	duration/h	address	remark
MediaSpeech	10	https://arxiv.org/pdf/2103.16193.pdf	ASR system evaluation dataset
MSR-86K	13976.84	https://huggingface.co/datasets/Alex-Song/MSR-86K	Multilingual

Turkish (tr-TR)

name	duration/h	address	remark
MediaSpeech	10	https://arxiv.org/pdf/2103.16193.pdf	ASR system evaluation dataset

Arabic (ar)

name	duration/h	address	remark
MediaSpeech	10	https://arxiv.org/pdf/2103.16193.pdf	ASR system evaluation dataset
MSR-86K	873.84	https://huggingface.co/datasets/Alex-Song/MSR-86K	Multilingual

noise & nonspeech

name	duration/h	address
MUSAN	–	https://openslr.org/17/
Room Impulse Response and Noise Database	–	https://openslr.org/28/
AudioSet	–	https://ieeexplore.ieee.org/document/7952261

The Dataset of Speech Synthesis

Chinese

name	duration/h	address	remark
Aishell3	85	https://openslr.org/93/
Opencpop	–	https://wenet.org.cn/opencpop/download/	Singing Voice Synthesis

English

name	duration/h	address
Hi-Fi Multi-Speaker English TTS Dataset	291.6	https://openslr.org/109/
LibriTTS corpus	585	https://openslr.org/60/
Speechocean762	–	https://www.openslr.org/101/
RyanSpeech	10	http://mohammadmahoor.com/ryanspeech/

The Dataset of Speech Recognition & Speaker Diarization

Chinese

name	duration/h	address	remark	application
Aishell4	120	https://openslr.org/111/	8-channel, conference scenarios	speech recognition, speaker diarization
ASR&SD	160	http://ncmmsc2021.org/competition2.html	if available	speech recognition, speaker diarization
zhijiangcup	–	https://zhijiangcup.zhejianglab.com/zhijiang/match/details/id/6.html	if available	speech recognition, speaker diarization
M2MET	120	https://arxiv.org/pdf/2110.07393.pdf	8-channel, conference scenarios	speech recognition, speaker diarization

English

name	duration/h	address	remark	application
CHiME-6	–	https://chimechallenge.github.io/chime6/download.html	if available	speech recognition, speaker diarization

The Dataset of Speaker Recognition

Chinese

name	duration/h	address	application
CN-Celeb	–	https://openslr.org/82/
KeSpeech	1542	https://openreview.net/forum?id=b3Zoeq2sCLq	speech recognition, speaker verification, subdialect identification, voice conversion
MTASS	55.6	https://github.com/Windstudent/Complex-MTASSNet
THCHS-30	40	http://www.openslr.org/18/

English

name	duration/h	address	remark
VoxCeleb Data	–	http://www.robots.ox.ac.uk/~vgg/data/voxceleb/

中文语音识别数据集总结

OpenSLR国内镜像

http://openslr.magicdatatech.com/

Free ST Chinese Mandarin Corpus

1）基本信息：
参与者：855人
这个语料库是用手机在室内安静的环境中录制的。它有855个speakers。每个演讲者有120个话语。所有的话语都经过人仔细的转录和核对。保证转录精度

语料库包含：
1音频文件；
2转录；
3元数据；

2）链接

下载：（8.2G）

http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

国内镜像：

http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

Primewords Chinese Corpus Set 1

1）基本信息
参与人数：296人
时长：178小时

这个免费的中文普通话语料库由上海普力信息技术有限公司发布。(www.primewords.cn)包含178个小时的数据。该语料由296名以中文为母语的人的智能手机录制。转录精度大于 98%，置信度为 95%。免费用于学术用途。转述和词句之间的映射以 JSON 格式提供。

2）链接

下载：（9.0G）

http://www.openslr.org/resources/47/primewords_md_2018_set1.tar.gz

国内镜像：

http://cn-mirror.openslr.org/resources/47/primewords_md_2018_set1.tar.gz

爱数智慧中文手机录音音频语料库（Mandarin Chinese Read Speech ）

1）基本信息

时长：755小时

参与人数：1000人

音频格式：PCM

MagicData中文手机录音音频语料库包含755小时的中文普通话朗读语音数据，其中分为训练集712.09小时、开发集14.84小时和测试集28.08小时。本语料库的录制文本覆盖多样化的使用场景，包括互动问答、音乐搜索、口语短信信息、家居命令控制等。采集方式为手机录音，涵盖多种类型的安卓手机；录音输出为PCM格式。1000名来自中国不同口音区域的发言人参与采集。MagicData中文手机录音音频语料库由MagicData有限公司开发，免费发布供非商业使用。

2）链接

数据包：

https://freedata.oss-cn-beijing.aliyuncs.com/MAGICDATA_Mandarin_Chinese_Speech.zip

下载地址

http://www.imagicdatatech.com/index.php/home/dataopensource/data_info/id/101

THCHS30

1）基本信息

时长:40余小时

THCHS30是一个经典的中文语音数据集，包含了1万余条语音文件，通过单个碳粒麦克风录取，大约40小时的中文语音数据，内容以文章诗句为主，全部为女声。它是由清华大学语音与语言技术中心（CSLT）出版的开放式中文语音数据库。原创录音于2002年由朱晓燕教授在清华大学计算机科学系智能与系统重点实验室监督下进行，原名“TCMSD”，代表“清华连续”普通话语音数据库’。13年后的出版由王东博士发起，并得到了朱晓燕教授的支持。他们希望为语音识别领域的新入门的研究人员提供玩具级别的数据库，因此，数据库对学术用户完全免费。

2）链接

国内镜像：

https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz

国外镜像：

https://link.ailemon.me/?target=http://www.openslr.org/resources/18/data_thchs30.tgz

ST-CMDS

1）基本信息：

时长:100余小时

参与人数：855人

ST-CMDS是由一个AI数据公司发布的中文语音数据集，包含10万余条语音文件，大约100余小时的语音数据。数据内容以平时的网上语音聊天和智能语音控制语句为主，855个不同说话者，同时有男声和女声，适合多种场景下使用。

2）链接

下载地址：

国内镜像：

https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

国外镜像：

https://link.ailemon.me/?target=http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz

MAGICDATA Mandarin Chinese Read Speech Corpus

1）基本信息

时长：755小时

参与人数：1080人

应用：语音识别，机器翻译，说话人识别和其他语音相关领域

Magic Data技术有限公司的语料库，语料库包含755小时的语音数据，其主要是移动终端的录音数据。邀请来自中国不同重点区域的1080名演讲者参与录制。句子转录准确率高于98％。录音在安静的室内环境中进行。数据库分为训练集，验证集和测试集，比例为51：1：2。诸如语音数据编码和说话者信息的细节信息被保存在元数据文件中。录音文本领域多样化，包括互动问答，音乐搜索，SNS信息，家庭指挥和控制等。还提供了分段的成绩单。该语料库旨在支持语音识别，机器翻译，说话人识别和其他语音相关领域的研究人员。因此，语料库完全免费用于学术用途。

2）链接

下载地址见参考：
https://blog.ailemon.me/2018/11/21/free-open-source-chinese-speech-datasets/
镜像：
http://www.openslr.org/68/

AISHELL

AISHELL开源版1

1）基本信息

时长：178小时

参与人数：400人

采样：44.1kHz & 16kHz 16bit

AISHELL是由北京希尔公司发布的一个中文语音数据集，其中包含约178小时的开源版数据。该数据集包含400个来自中国不同地区、具有不同的口音的人的声音。录音是在安静的室内环境中同时使用3种不同设备：高保真麦克风（44.1kHz，16-bit）；Android系统手机（16kHz，16-bit）；iOS系统手机（16kHz，16-bit）。进行录音，并采样降至16kHz，用于制作AISHELL-ASR0009-OS1。通过专业的语音注释和严格的质量检查，手动转录准确率达到95％以上。该数据免费供学术使用。他们希望为语音识别领域的新研究人员提供适量的数据。

2）链接

下载地址：

http://www.aishelltech.com/kysjcp

AISHELL-2 开源中文语音数据库

1）基本信息

时长：1000小时

参与人数：1991人

希尔贝壳中文普通话语音数据库AISHELL-2的语音时长为1000小时，其中718小时来自AISHELL-ASR0009-[ZH-CN]，282小时来自AISHELL-ASR0010-[ZH-CN]。录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。录制过程在安静室内环境中，同时使用3种不同设备：高保真麦克风（44.1kHz，16bit）；Android系统手机（16kHz，16bit）；iOS系统手机（16kHz，16bit）。AISHELL-2采用iOS系统手机录制的语音数据。1991名来自中国不同口音区域的发言人参与录制。经过专业语音校对人员转写标注，并通过严格质量检验，此数据库文本正确率在96%以上。（支持学术研究，未经允许禁止商用。）

2）链接

下载地址：

http://www.aishelltech.com/aishell_2

AISHELL-翻译机录制语音数据库

1）基本信息

时长：31.2小时

参与人数：12人

采样： 44.1kHz & 16kHz 16bit

文件：wav

来自AISHELL的开源语音数据产品：翻译机录制语音数据库

2）链接

下载地址：

http://www.aishelltech.com/aishell_2019C_eval

AISHELL-家居环境近远讲同步语音数据库

1）基本信息

时长：24.3小时

参与人数：50人

采样： 44.1kHz & 16kHz 16bit

文件：wav

AISHELL-2019A-EVAL 随机抽取 50 个发音人。每人从位置 A(高保真 44.1kHz，16bit)与位置 F(Android 系统手机 16kHz，16bit)中，各选取 232 句到 237 句。
此数据库经过专业语音校对人员转写标注，并通过严格质量检验，文本正确率 100%。

AISHELL-2019A-EVAL 是 AISHELL-ASR0010 的子库，共 24.3 小时。

2）链接

下载地址：

http://www.aishelltech.com/aishell_2019A_eval

AISHELL-语音唤醒词数据库

1）基本信息

时长：437．67小时

参与人数：86人

采样： 44.1kHz & 16kHz 16bit

文件：wav

来自希尔贝壳的语音唤醒词数据库

2)链接

下载地址：

http://www.aishelltech.com/aishell_2019B_eval

AISHELL-3 语音合成数据集

1）基本信息
希尔贝壳中文普通话语音数据库AISHELL-3的语音时长为85小时88035句，可做为多说话人合成系统。录制过程在安静室内环境中，使用高保真麦克风（44.1kHz，16bit）。218名来自中国不同口音区域的发言人参与录制。专业语音校对人员进行拼音和韵律标注，并通过严格质量检验，此数据库音字确率在98%以上。（支持学术研究，未经允许禁止商用。）
2）下载链接
国内镜像： https://openslr.magicdatatech.com/resources/93/data_aishell3.tgz
国外镜像：https://www.openslr.org/resources/93/data_aishell3.tgz

Aidatatang

aidatatang_1505zh（完整的1505小时中文普通话语音数据集）

1）基本信息

参与人数：6408人

时长：1505小时

包含6408位来自中国不同地区的说话人、总计1505小时时长共3万条语音、经过人工精心标注的中文普通话语料集可以对中文语音识别研究提供良好的数据支持。采集区域覆盖全国34个省级行政区域。经过专业语音校对人员转写标注，并通过严格质量检验，句标注准确率达98%以上，是行业内句准确率的最高标准。

2）使用效果：

3）链接

数据申请：

https://www.datatang.com/webfront/opensource.html

Aidatatang_200zh（基于完整数据集精选的200小时中文普通话语音数据集）

1）基本信息
时长：200小时

参与人数：600人

采样： 16kHz 16bit

Aidatatang_200zh是由北京数据科技有限公司（数据堂）提供的开放式中文普通话电话语音库。语料库长达200小时，由Android系统手机（16kHz，16位）和iOS系统手机（16kHz，16位）记录。邀请来自中国不同重点区域的600名演讲者参加录音，录音是在安静的室内环境或环境中进行，其中包含不影响语音识别的背景噪音。参与者的性别和年龄均匀分布。语料库的语言材料是设计为音素均衡的口语句子。每个句子的手动转录准确率大于98％。数据库按7:1:2的比例分为训练集、验证集和测试集。在元数据文件中保存诸如语音数据编码和扬声器信息等详细信息。还提供分段转录本。

2）特点

该语料库旨在为语音识别、机器翻译、声纹识别等语音相关领域的研究人员提供支持。因此，该语料库完全免费供学术使用。

数据堂精选了200小时中文普通话语音数据在OpenSLR发布，并在Kaldi平台提供了训练代码，对应的训练方法也在github平台发布。

3）链接

训练：

https://github.com/datatang-ailab/aidatatang_200zh/blob/master/README.md

国内镜像：

https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/62/aidatatang_200zh.tgz

国外镜像：https://link.ailemon.me/?target=http://www.openslr.org/resources/62/aidatatang_200zh.tgz

hkust

基本信息
200h，16khz，16bit。中文电话数据集，电话对话，espnet，kaldi里面都有egs。
2）链接下载链接：http://catalog.ldc.upenn.edu/LDC2005S15

Speechocean 10小时中文普通话语音识别语料库

1）基本信息
这是一个10.33小时的语料库，它同时通过4个不同的麦克风收集。在安静的办公室中，由20位说话者（10位男性和10位女性）录制了该语料库。每个扬声器在一个通道中记录了大约120声。包括转录文件。句子的转录精度高于98％。它完全免费用于学术目的。
2）下载链接
百度云盘(提取码：sktk)：https://pan.baidu.com/share/init?surl=1glZHlKIXjlPOOht6_yQXQ

cn-celeb

1)基本信息
此数据是“在野外”收集的大规模说话人识别数据集。该数据集包含来自1000位中国名人的13万种语音，涵盖了现实世界中的11种不同流派。所有音频文件都编码为单通道，并以16位精度以16kHz采样。数据收集过程由清华大学语音与语言技术中心组织。它也由国家自然科学基金61633013和博士后科学基金2018M640133资助。
2）下载链接

HI-MIA

1）基本信息
内容为中文和英文的唤醒词“嗨，米娅”。使用麦克风阵列和Hi-Fi麦克风在实际家庭环境中收集数据。下文描述了基准系统的收集过程和开发。挑战中使用的数据是从1个高保真麦克风和1/3/5米的16通道圆形麦克风阵列中提取的。内容是中文唤醒词。整个集合分为火车（254人），开发（42人）和测试（44人）子集。测试子集提供了成对的目标/非目标答案，以评估验证结果。
2）下载链接
国内镜像(train) ：http://openslr.magicdatatech.com/resources/85/train.tar.gz
国内镜像(dev) ：http://openslr.magicdatatech.com/resources/85/dev.tar.gz
国内镜像(test) ：http://openslr.magicdatatech.com/resources/85/test_v2.tar.gz
国内镜像(filename_mapping)：http://openslr.magicdatatech.com/resources/85/filename_mapping.tar.gz

MobvoiHotwords

1）基本信息
MobvoiHotwords是从Mobvoi的商业智能扬声器收集的唤醒单词的语料库。它由关键字和非关键字语音组成。对于关键字数据，将收集包含“ Hi xiaowen”或“ Nihao Wenwen”的关键字语音。对于每个关键字，大约有36k语音。所有关键字数据均收集自788名年龄在3-65岁之间的受试者，这些受试者与智能扬声器的距离（1、3和5米）不同。在采集过程中，具有不同声压级的不同噪声（例如音乐和电视等典型的家庭环境噪声）会在后台播放。

2）下载链接
国内镜像：http://openslr.magicdatatech.com/resources/87/mobvoi_hotword_dataset.tgz
国外镜像：http://www.openslr.org/resources/87/mobvoi_hotword_dataset.tgz

zhvoice: Chinese voice corpus

1）基本信息
zhvoice语料由8个开源数据集，经过降噪和去除静音处理而成，说话人约3200个，音频约900小时，文本约113万条，共有约1300万字。

zhvoice语料比较原始数据而言，更加清晰和自然，减少了噪声的干扰，减少了因说话人说话不连贯造成的不自然。

zhvoice语料包含文本、语音和说话人3个方面的信息，可适用于多种语音相关的任务。

zhvoice语料由智浪淘沙清洗和处理。
2）下载链接
https://github.com/fighting41love/zhvoice

AudioPaLM-可以听说的大模型

AudioPaLM，一个用于语音理解和生成的大型语言模型。AudioPaLM融合了基于文本和基于语音的语言模型，将PaLM-2和AudioLM集成到一个统一的多模式架构中，该架构可以处理和生成文本和语音，可以实现包括语音识别和语音到语音翻译。AudioPaLM继承了AudioLM保留说话人身份和语调等非语言信息的能力，以及仅存在于PaLM-2等文本大型语言模型中的语言知识。我们证明，使用纯文本大型语言模型的权重初始化AudioPaLM可以改善语音处理，成功地利用预训练中使用的大量文本训练数据来帮助语音任务。由此产生的模型显著优于现有的语音翻译任务系统，并且能够为许多语言执行零样本语音到文本的翻译，这些语言在训练中没有看到输入/目标语言组合。

https://google-research.github.io/seanet/audiopalm/examples/

https://arxiv.org/html/2306.12925

AudioPaLM的核心是一个联合词汇表，它可以用有限数量的离散tokrn来表示语音和文本，结合任务的基本标记描述，允许在涉及任意交织的语音和文本的混合任务上训练单个仅解码器模型。这包括语音识别、文本到语音合成和语音到语音翻译，将传统上由异构模型解决的任务统一到单个架构和训练运行中。此外，由于AudioPaLM的底层架构是大型Transformer模型，因此我们可以使用在文本上预训练的大型语言模型的权重来初始化其权重，这允许其受益于诸如PaLM的模型的语言和常识知识。

图1：AudioPaLM模型，以语音到语音翻译和自动语音识别为例。我们采用一个预训练的纯文本模型（虚线），并扩展其嵌入矩阵来建模一组新的音频令牌，这里的token基于w2v-BERT 或者USM-v提取的，但token中同时含有语义信息和说话人声学信息【 k-means聚类之前不对嵌入进行归一化，用于保留说话人信息】。模型架构在其他方面没有改变：文本和音频令牌的混合序列作为输入被送入，并且模型解码文本或音频令牌。音频令牌通过后面的AudioLM阶段或SoundStorm转换回原始音频。

我们使用一个只有解码器的Transformer来建模由文本和音频令牌组成的序列。就模型而言，文本和音频只是任意整数的序列，因为输入在馈送到模型之前被标记化，并且任何输出在返回给模型的用户之前都被去token化。通过在有限的词汇表中用离散的标记来表示语音，我们可以构建一个多模态词汇表，它是这个音频词汇表和一个用于表示文本的SentencePiece的结合。因此，原则上，我们的设置和通常的纯文本解码器设置之间几乎没有区别，除了在我们的设置中，一些令牌代表音频和一些文本，并且我们使用预训练的纯文本检查点初始化我们的多模态模型。

方法

音频嵌入和令牌化

将原始波形转换为令牌。这涉及从现有的语音表示模型中提取嵌入，然后将这些嵌入离散化为有限的音频令牌集合。从w2v-BERT模型中提取嵌入，通过K-means进行离散化。在这项工作中，我们实验了以下方法来获得一组离散的音频令牌：

1、我们使用了一个w2v-BERT模型，该模型已经在多语言数据上进行了训练，其次，我们在执行k-means聚类之前不对嵌入进行归一化。虽然Borsos等人发现标准化在不降低性能的情况下删除了说话者身份信息，但我们发现在多语言环境中，标准化确实会导致性能下降【保留了说话人的声学信息，所以这里的token可以认为是声学token+语义token】。该方法以25 Hz的速率产生令牌，令牌词汇表的大小为1024。

2、USM-v1：我们使用更高性能的通用语音模型（USM）编码器执行相同的过程，以替换w2v-BERT编码器。我们使用这个多语言语音编码器的最大2B参数变体，并从中间层提取嵌入。与w2v-BERT类似，该方法以25 Hz的速率生成令牌，令牌词汇表的大小为1024。

修改纯文本解码器以适应文本和音频

在Transformer解码器中，输入预处理后模型的第一层是标记嵌入矩阵 𝐄 ，它将整数值标记映射到密集嵌入;给定 t 标记的词汇表和大小为 m 的嵌入， 𝐄 是 t×m 矩阵，其第 i 行给出第 i 标记的嵌入。另一个嵌入矩阵 𝐄′ 出现在最后的softmax层中，用于计算每个位置上所有标记的logit;它是一个 m×t 矩阵，与模型的 m 维输出相乘，以获得logit的 t 维向量，每个标记一个。在PaLM架构中，这些矩阵具有共享变量，因此一个是另一个的转置，即 𝐄′=𝐄^⊺ 。

解码器架构的其余部分对建模的令牌数量完全无关。因此，我们只需要做一个小的修改，将纯文本模型转换为同时对文本和音频进行建模的模型：我们将嵌入矩阵 𝐄 的大小扩展为大小 (t+a)×m ，其中 a 是音频令牌的数量（ 𝐄′=𝐄^⊺ 的大小相应地改变）。

为了利用预训练的文本模型，我们通过向嵌入矩阵 𝐄 添加 a 新行来更改现有的模型检查点。实现细节是前 t 令牌（从零到 t ）对应于SentencePiece文本令牌，而接下来的 a 令牌（从 t 到 t+a ）表示音频令牌。虽然我们可以重用预训练模型的文本嵌入，但新的音频嵌入是新初始化的，必须经过训练。我们发现有必要训练所有模型参数，而不是保持以前的权重固定。我们使用混合语音和文本任务进行训练。

3、将音频令牌解码为原始音频

为了从音频令牌合成音频波形，我们实验了两种不同的方法：i）自回归解码，遵循AudioLM的设置非自回归解码，ii) 使用最近提出的SoundStorm模型。在这两种情况下，音频令牌首先用于生成声音流令牌，然后用卷积解码器将其转换为音频波形。

AudioLM中的声学生成分两个阶段进行：先将音频token声音流令牌，然后再在合成语音：“阶段2”是仅解码器的Transformer模型，其将AudioPaLM产生的音频令牌和语音调节作为输入，并生成SoundStream令牌，其可用于以所需语音实现语音，但比特率非常低。“阶段3”重建SoundStream的残差矢量量化器的更高级别，这增加了比特率并提高了音频质量。

SoundStorm提出了一种替代的非自回归解码方案，该方案应用了一种迭代方法，该方法在所有令牌上并行进行。SoundStorm产生的音频质量与AudioLM相同，但在语音和声学条件方面具有更高的一致性，同时速度快了两个数量级。

通过提供原始输入语音的一部分作为语音调节，该模型能够在将其语音翻译为不同语言时保留原始说话者的语。

实验

由于 AudioPaLM 是基于 Transformer 模型的大语言模型，它可以使用基础的文本预训练模型来初始化权重，从而受益于 PaLM 或 PaLM 2 等模型的语言和常识知识。由于统一的多模态架构，AudioPaLM 能够使用直接映射或组合任务的方式来解决语音识别、语音合成和语音翻译等问题。单一任务包括自动语音识别（ASR）、自动语音翻译（AST）、语音到语音翻译（S2ST）、文本到语音（TTS）和文本到文本机器翻译（MT）等。为了指定模型在给定输入上执行的任务，可以在输入前加上标签，指定任务和输入语言的英文名称，输出语言也可以选择加上。例如，[ASR French]表示执行法语的自动语音识别任务，[TTS English]表示执行英语的文本到语音任务，[S2ST English French]表示执行从英语到法语的语音到语音翻译任务，而组合任务的标签[ASR AST S2ST English French]表示依次进行从英语到法语的自动语音识别、自动语音翻译、语音到语音翻译。微调使用的数据集包含音频、音频的转录、音频的翻译、音频的翻译文本等。一个数据集可以用于多个任务，将同一数据集中的多个任务结合起来可以提高性能。

AudioPaLM 在语音翻译基准测试中展示了最先进的结果，并在语音识别任务上表现出竞争性能。利用 AudioLM 的语音提示，该模型还可以对未见过的讲话者进行 S2ST，超越现有方法，以客观和主观评估的方式衡量语音质量和声音保持。另外，该模型展示了零样本迁移的能力，可以使用训练中未曾出现过的语音输入/目标语言组合进行 AST。