关于我：

目前从事语音识别、语音多模态大模型工作，同时也有过计算机视觉方向的研究经历。希望能在AI领域做出一点点属于自己的成绩，悄悄努力，慢慢发光。

基本信息

姓名：liangxianchen
研究方向：语音识别、多模态语音大模型
职业追求：AI改变世界，语音服务世界
Email: 1761664682@qq.com
个人主页：http://chenpaopao.tech

教育经历

2021-2024，北京邮电大学，人工智能，硕士学位
2017-2021，北京邮电大学，信息工程，学士学位

项目经历

语音识别（2024-2025）

从零搭建公司语音识别能力。为输入法、搜索、录音笔、审核等业务提供稳定的中/英语音识别服务，字错误率下降相对20%。
解决专有名词识别差、口音识别差、抗噪能力差的问题，实现高精度、低延迟的语音识别。
通过多个大模型过滤蒸馏以及TTS合成，生成大规模语音-文本数据，解决训练数据不足的问题。
负责各个业务的语音识别算法部署和更新、服务维护，优化离线长音频语音识别速度。
负责海外小语种ASR模型训练和优化，负责搭建语音同声传译服务。

语音多模态大模型（2024-2025）

探索大模型在多语种语音识别、理解、翻译等任务上的表现，负责整体架构设计与技术路线，负责大模型训练任务设计与模型能力提升，实现多个音频任务的性能提升。
解决语音数据不足问题，设计语音-文本自主标注流程，产出100万小时高质量多任务语音数据。
ASR语音大模型在开源测评数据集以及业务场景数据集中指标超越豆包等闭源商用ASR大模型。

计算机视觉：新视点合成（2022-2024）

负责图像分割后处理算法、3D 重建算法、新视点合成、裸眼 3D 视频合成研究。
实现业界首个支持 4K 超高清实时 2D 转 3D 技术，入选 2023 年度联想研究院十大动态科技。
发表图像分割后处理论文，以及2d转3d技术专利。

兴趣爱好：

”牛马“向往草原和高山！