关于我:

目前从事语音识别、语音多模态大模型工作,同时也有过计算机视觉方向的研究经历。希望能在AI领域做出一点点属于自己的成绩,悄悄努力,慢慢发光。

基本信息

  • 姓名:liangxianchen
  • 研究方向: 语音识别、多模态语音大模型
  • 职业追求:AI改变世界,语音服务世界
  • Email: 1761664682@qq.com
  • 个人主页:http://chenpaopao.tech

教育经历

  • 2021-2024,北京邮电大学,人工智能
  • 2017-2021,北京邮电大学,信息工程

项目经历

语音识别(2024-2025)

  • 从零搭建公司语音识别能力。为输入法、搜索、录音笔、审核等业务提供稳定的中/英语音识别服务,字错误率下降相对20%。
  • 解决专有名词识别差、口音识别差、抗噪能力差的问题,实现高精度、低延迟的语音识别。
  • 通过多个大模型过滤蒸馏以及TTS合成,生成大规模语音-文本数据,解决训练数据不足的问题。
  • 负责各个业务的语音识别算法部署和更新、服务维护,优化离线长音频语音识别速度。
  • 负责海外小语种ASR模型训练和优化,负责搭建语音同声传译服务。

语音多模态大模型(2024-2025)

  • 探索大模型在多语种语音识别、理解、翻译等任务上的表现,负责整体架构设计与技术路线,负责大模型训练任务设计与模型能力提升,实现多个音频任务的性能提升。
  • 解决语音数据不足问题,设计语音-文本自主标注流程,产出15万小时高质量多任务语音数据。
  • 语音大模型在ASR/AST任务上相对开源模型有一定提升。

计算机视觉:新视点合成 (2022-2024 联想研究院)

  • 负责图像分割后处理算法、3D 重建算法、新视点合成、裸眼 3D 视频合成研究。
  • 实现业界首个支持 4K 超高清实时 2D 转 3D 技术,入选 2023 年度联想研究院十大动态科技。
  • 发表图像分割后处理论文,以及2d转3d技术专利。

兴趣爱好:

”牛马“向往草原和高山!