- 论文标题:Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM
- 论文链接:https://arxiv.org/abs/2411.00774
- 项目主页:https://freeze-omni.github.io/
- 开源代码:https://github.com/VITA-MLLM/Freeze-Omni
GPT-4o提供的全双工语音对话带来了一股研究热潮,目前诸多工作开始研究如何利用LLM来实现端到端的语音到语音(Speech-to-Speech)对话能力,但是目前大部分开源方案存在以下两个问题:
- LLM灾难性遗忘:由于现有方案在语音模态与LLM进行对齐时,会或多或少对LLM进行微调,但由于要采集到与LLM本身训练的文本数据同等量级的语音数据是非常困难的,所以这一微调过程往往会导致LLM出现遗忘现象,造成LLM的聪明度下降
- 语音问答(Spoken Question Answering)任务的评估:多数工作对于语音问答的准确性并没有进行定量评估,从已有的一些评估结果也可以看出同一模型语音问答和文本问答相比准确性会有明显的差距
针对上述这些问题,近日腾讯&西工大&南大的研究人员提出了一种低延迟的端到端语音双工对话模型Freeze-Omni(VITA大模型系列第二个工作),其可以在完全冻结LLM的情况下,为LLM接入语音输入和输出,使其能够支持端到端的语音对话能力,且通过一系列优化使得其具备低延迟的双工对话能力,其主要特性如下:
- 在整个训练过程中,LLM的参数被完全冻结,确保大型语言模型的知识能力被完全保留
- 训练过程中所依赖的数据规模较小,消耗的计算资源也较少。Freeze-Omni仅需要文本-语音配对数据(如ASR和TTS训练数据,比较容易获得)以及仅少量的文本模态的问答数据,语音问答准确性显著超越Moshi与GLM-4-Voice等目前SOTA的模型
- Freeze-Omni 可以支持任何具有文本模态的(多模态)大语言模型,能够保留基底大语言模型的能力,如提示服从和角色扮演等。此外,如果有必要改变大语言模型的领域或者回应方式,只需要用相应的文本数据对大语言模型进行微调即可,不需要采集大量语音的问答和对话数据.
三阶段训练策略实现语音输入输出能力
Freeze-Omni的整体结构如图1所示,其包含有语音编码器(Speech Encoder)和语音解码器(Speech Decoder)以及基底LLM三部分。在运行过程中,流式的语音输入通过语音编码器形成分块(Chunk)特征,然后通过Adapter连接到LLM,LLM生成的Hidden State和文本Token的在分块分割后分别以块的形式送入非自回归前缀语音解码器(NAR Prefix Speech Decoder)和非自回归语音解码器(NAR Speech Decoder)以进行Prefill操作,最后自回归语音解码器(AR Speech Decoder)将会完成Generate操作以生成语音Token,并由Codec Decoder将其流式解码为语音信号输出。
Freeze-Omni各个模块的三阶段训练策略如下:
流式语音编码器的三阶段训练:如图2所示,第一阶段(a)会先使用ASR数据训练一个具有ASR能力的语音编码。第二阶段(b)会以ASR任务为优化目标,将语音编码器与LLM做模态对齐,这个过程中LLM是处于冻结状态的。第三阶段(c)会使用由TTS系统合成的语音输入-文本回答的多轮QA数据进行训练,这里会使用第二阶段训练好的语音编码器,但是其参数保持冻结以保留其语音鲁棒性,而可训练的参数只有每个问题前的Prompt Embedding,用于指导LLM从ASR任务迁移到QA任务中。
流式语音解码器的三阶段训练:
如图3所示,第一阶段(a)会先训练一个单码本的语音编解码模型,使用单码本的目的主要是为了降低计算复杂度和时延。
第二阶段(b)将会训练NAR语音编码器和AR语音编码器,这里会使用文本-语音的TTS数据,其文本会通过基底LLM的Tokenizer转化为Token,再经过基底LLM的Embedding层转化为文本特征,这个过程中Embedding的参数是冻结的,训练目标的语音Token是由第一阶段的语音编码器提供。
第三阶段(c)将会冻结第二阶段训练得到的所有网络,但同时加入了一个NAR Prefix语音编码器,其用于接受LLM输出的Hidden State,并将输出的kv-cache作为第二阶段模型的初始kv-cache,该过程使用的数据是文本输入-语音输出的QA数据,主要目的是为了使得语音编码器迁移到LLM的输出领域中。
双工对话的状态标签训练:如图4所示,为了实现双工交互,Freeze-Omni在语音编码器训练的第三阶段中,会为每个Chunk的最后一个语音帧对应的LLM输出Hidden State加入一个额外的分类层进行多任务训练,其目的主要是为了输出状态标签。当使用VAD激活语音流输入后,状态标签0表示LLM将会继续接受语音Chunk的输入,状态标签1表示LLM将会停止接收语音,且会打断用户并进入LLM的Generate阶段输出回复,状态标签2表示LLM也会停止接收语音,但不会打断用户,相当于对这次语音激活做了拒识。
模型性能测评
训练配置:Freeze-Omni在训练过程中,使用了开源Qwen2-7B-Instruct作为基底模型,语音编码器在训练过程中使用了11万小时中文英文混合的ASR数据,语音解码器训练过程使用了3000小时由TTS系统合成的文本-语音数据,所提到的QA数据是由6万条从moss-003-sft-data中抽取的多轮对话经过TTS系统合成得到的。
语音输入理解能力评估:Freeze-Omni提供了其在常见的英文测试集上的ASR性能测试结果,从中可以看出,其ASR准确性处于较为领先的水平。
语音输出质量评估:Freeze-Omni提供了其在1000条LLM输出的Hidden State与Text Token上语音解码器生成的语音在使用ASR模型测试得到的词错误率(CER),从结果中可以看出NAR Prefix语音解码器的引入会有效降低词错误率,提高生成语音的质量。
语音问答准确性评估:Freeze-Omni提供了其在LlaMA-Questions, Web Questions, 和Trivia QA三个集合上的语音问答准确率评估,从结果中可以看出Freeze-Omni的准确率具有绝对的领先水平,超越Moshi与GLM-4-Voice等目前SOTA的模型,并且其语音模态下的准确率相比其基底模型Qwen2-7B-Instruct的文本问答准确率而言,差距明显相比Moshi与其文本基底模型Helium的要小,足以证明Freeze-Omni的训练方式可以使得LLM在接入语音模态之后,聪明度和知识能力受到的影响最低。
系统延迟评估:Freeze-Omni还提供了端到端时延分析(即用户说完后到LLM输出音频的时间差),作者将其分为了可统计时延和不可统计时延两部分,其中可统计时延的总时长平均数仅为745ms,而作者也提到如果经过测量考虑到网络延迟和不可统计时延部分,则系统的平均响应时延在1.2s左右,在行业内仍为领先水平。