目前从事语音识别、语音多模态大模型工作,同时也有过计算机视觉方向的研究经历。希望能在AI领域做出一点点属于自己的成绩,悄悄努力,慢慢发光。
基本信息
- 姓名:liangxianchen
- 研究方向: 语音识别、多模态语音大模型
- 职业追求:AI改变世界,语音服务世界
- Email: 1761664682@qq.com
- 个人主页:http://chenpaopao.tech
教育经历
- 2021-2024,北京邮电大学,人工智能
- 2017-2021,北京邮电大学,信息工程
项目经历
语音识别(2024-2025)
- 从零搭建公司语音识别能力。为输入法、搜索、录音笔、审核等业务提供稳定的中/英语音识别服务,字错误率下降相对20%。
- 解决专有名词识别差、口音识别差、抗噪能力差的问题,实现高精度、低延迟的语音识别。
- 通过多个大模型过滤蒸馏以及TTS合成,生成大规模语音-文本数据,解决训练数据不足的问题。
- 负责各个业务的语音识别算法部署和更新、服务维护,优化离线长音频语音识别速度。
- 负责海外小语种ASR模型训练和优化,负责搭建语音同声传译服务。
语音多模态大模型(2024-2025)
- 探索大模型在多语种语音识别、理解、翻译等任务上的表现,负责整体架构设计与技术路线,负责大模型训练任务设计与模型能力提升,实现多个音频任务的性能提升。
- 解决语音数据不足问题,设计语音-文本自主标注流程,产出15万小时高质量多任务语音数据。
- 语音大模型在ASR/AST任务上相对开源模型有一定提升。
计算机视觉:新视点合成 (2022-2024 联想研究院)
- 负责图像分割后处理算法、3D 重建算法、新视点合成、裸眼 3D 视频合成研究。
- 实现业界首个支持 4K 超高清实时 2D 转 3D 技术,入选 2023 年度联想研究院十大动态科技。
- 发表图像分割后处理论文,以及2d转3d技术专利。
兴趣爱好:
”牛马“向往草原和高山!
