修音版本开发 AI声码器算法研究: 效果优化:PWG等开源声码器效果复现,并在此基础上进行效果优化,通过对原有数据集进行扩充,歌声合成 任务上的模型结构优化,输入特征修改,有效实现声码器音质提升并替代原有版本所用的psola变速变调算法。 性能优化:用C语言实现AI声码器工程化开发,通过算法模型结构及算子/指令集层面做性能优化,将AI声 码器在CPU上实时率由50优化到4,在GPU上实时率由0.3优化到0.03。内存占用从2G优化到500M,并进 行声码器流式计算的设计与实现,最终将内存占用降到40M左右。 关键成果:从而使得AI声码器能够在修音2.0项目上落地,并在22年10月成功上线华为音乐app。 歌声合成TTSing(Text to Sing) 效果优化:算法论文结果复现,综合业内TTSing(tarctron/fastspeech等)算法,对现有的论文结果进行复 现,通过模型结构调优,调整输入变量,数据清理及数据量扩充,提升整体音质。完成TTSing声学模型与AI 声码器对接,通过调参及模型结构优化提升音质。 关键成果:为后续歌声合成的算法优化及业务落地HMS core等打下基础 修音2.0版本开发 端侧算法库算法开发:主要负责AI声码器模块效果,切句模块效果优化。 工程化:版本交付Owner,系统集成所有模块及C代码工程化实现,涉及C代码6w+, 并已落地华为音乐,整 体效果MOS分超过业内竞品。 端侧算法库开销优化:通过多种方式实现算法库实时率优化和内存优化。 云侧声码器部署:负责修音歌声声码器网络模型java服务化部署,以及JNI调度代码实现。 关键成果:修音2.0项目于22年10月底上线华为音乐app,并获得广泛好评。 修音1.5版本开发维护 负责修音1.5版本代码质量看护,维护版本C代码超5w行,支持版本发布并首次成功落地华为音乐。 外放空间音频算法开发 基于手机平台做外放空间音效算法开发,提升手机横屏外放立体声双扬声器场景下双声道/5.1声道声音的环 绕感包围感,解决人声声像不集中等问题。 鸿蒙音频编解码开发 参与鸿蒙4.0音频编解码框架开发,涉及内存管理,ffmpeg编解码器调用等,熟悉Client-Server架构和 IPC机制和插件管理架构。