Soul语音大模型重磅升级：实时端到端语音通话 AI虚拟人堪比真人！

https://www.soulapp.cn/media/news/article-2

在国内“AI+社交”这条赛道上，Soul App即将利用AI注入了新的活力!

最近，Soul官方宣布其语音大模型再次升级，上线自研端到端全双工语音通话大模型。

这次升级带来最惊艳的效果是，可以让用户和虚拟人之间的语音通话就像和真人聊天一样自然流畅!

那么，Soul自研端到端语音通话大模型到底有什么特别之处呢?

根据官方描述，其最大的亮点包括:

具备超低交互延迟
快速自动打断
超真实声音表达
情绪感知理解能力等

超低交互延迟能力意味着，你说话的那一瞬间，AI 就能立刻做出反应，没有任何的延迟，瞬间就能拉近你和 AI 之间的距离。想要和它进行真实的交流，根本不需要等待，简直就像在跟真人对话一样。

Soul 的语音大模型支持快速自动打断功能。也就是说，当你和 AI 交流的时候，如果你想插话，它完全能理解你的意思，轻松打断对方，这样的互动真是太有趣了!

再加上超真实的声音表达和情绪感知理解能力，AI 不仅能听懂你的话，还能感知你的情绪，根据情绪给予适当的的回应。

结合官方展示的视频示例，如果这个功能之后全量上线，估计有一大波用户在Soul上体验的时候，可能会连真人和AI虚拟人都傻傻分不清楚。

Soul方面表示，目前其端到端语音通话大模型已应用于“异世界回响”实时通话场景（内测中），并将在后续拓展至AI苟蛋等多个AI陪伴、AI互动场景。

据了解，早在2020年，Soul已经启动了AIGC技术研发，专注于智能对话、语音技术、虚拟人等关键技术的研发，并把这些AI能力深度融入到社交场景中。

在用AI升级社交的过程中，Soul特别注重实现拟人化、自然化的情感陪伴体验。

为了给用户带来更好的情绪反馈和陪伴感，Soul技术团队一直在关注情绪理解和延迟问题。

社交平台Soul App(以下简称“Soul”)语音生成大模型上线，同时自研语音大模型“伶伦”正式升级，现阶段，Soul语音大模型“伶伦”包括了语音生成大模型、语音识别大模型、语音对话大模型、音乐生成大模型等，可支持真实音色生成、语音DIY、多语言切换、多情感拟真人实时对话等能力。目前，“伶伦”已应用于Soul “AI苟蛋”、站内狼人游戏“狼人魅影”AI语音实时互动、独立新产品“异世界回响”等场景。

Soul自研的端到端语音通话大模型上线了，意味着用户可以享受到更自然的人机交互体验。

在语音探索方面，Soul基于平台沉淀丰富且多风格的高质量公域语音数据，推出自研语音大模型“伶伦”，在深度融入站内“AI苟蛋”等场景提供多模态互动体验外，还推出了系列趣味社交玩法和活动。

如Soul于2023年上线了“Soul次元歌手”活动，帮助每个人打造自己的AI歌手分身，让很多热爱音乐但不一定会唱歌的人，也能实现“唱歌自由”;“懒人KTV”活动则在音色克隆的基础上，创新性实现多人UGC“AI合唱”。基于音乐模型个性化的创作能力，平台的“AI帮你出灵魂专辑“活动，使用户自由输入任意作曲的主题关键词，即可一键完成词曲创作。

此次，新升级的“伶伦”在训练数据规模和模型架构上均实现了拓展和创新，实现了更真实自然、更多样性和更细颗粒度的控制效果以及流式超低延迟的生成。特别是上线的语音生成大模型在多风格多情感可控、超自然人声生成、多语言切换等方面表现出色。

具体来说，在多情感可控上，“伶伦”能够实现对情绪的深度理解和模拟，在语音生成和对话中表现出不同情感;在声音颗粒度上，支持包括吸气、喘气、笑声、结巴/重复、咳嗽、叹气、哭声等一系列副语言语音合成，声音效果更真实生动。

未来，Soul 还计划进一步推动多模态端到端大模型能力的建设，让人与 AI 的互动更加有趣、沉浸感更强。

相关文章：

发表评论 取消回复

发表评论取消回复