语音多模态大模型汇总–Github

⚡ 语音表示模型:这些模型专注于学习结构性语音表示,然后可以将其量化为离散的语音标记,通常是指语义标记

⚡ 语音神经编解码器模型:这些模型旨在学习语音和音频离散标记,通常称为声学标记,同时保持重建能力和低比特率。

⚡ 语音大型语言模型:这些模型在语言建模方法的语音和声学标记之上进行训练。他们展示了对语音理解和语音生成任务的熟练程度。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注