语音多模态大模型汇总–Github

重点关注：

https://github.com/ga642381/speech-trident/

⚡ 语音表示模型：这些模型专注于学习结构性语音表示，然后可以将其量化为离散的语音标记，通常是指语义标记。

⚡ 语音神经编解码器模型：这些模型旨在学习语音和音频离散标记，通常称为声学标记，同时保持重建能力和低比特率。

⚡ 语音大型语言模型：这些模型在语言建模方法的语音和声学标记之上进行训练。他们展示了对语音理解和语音生成任务的熟练程度。

发表评论取消回复