常见的编解码器模型以及压缩token数

目前主流的音频编解码器的一些指标

数据来源:wavtokenizer: an efficient acoustic discrete codec tokenizer for audio language modeling

计算公式:

假设码本大小2^n,每秒语音的hz=BW/(Nq*n),token=Nq* 每秒语音的hz , 每秒语音的hz =token/Nq

ModelBandwidth Nq 量化器数量
(number of quantizers.)
token/s ↓ 码本大小
GT
DAC 9.0kpbs 99001024
Encodec6.0kbps86001024
Vocos6.0kbps86001024
SpeechTokenizer6.0kpbs86001024
DAC4.0kbps44001024
HiFi-Codec3.0kbps44002^7.5
HiFi-Codec4.0kbps43002^13
Encodec3.0kbps43001024
Vocos3.0kbps 43001024
SpeechTokenizer3.0kbps 43001024
WavTokenizer-small0.5kbps140 4096
WavTokenizer-small0.9kbps175 4096
Mini 1.1kbps81002048

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注