工作内容:负责和参与AIGC文生图、图生图、视频生成、多模态相关业务算法开发和预研,同时是图像安全、
内容/视频理解、AI画质增强方向项目主要负责人,负责相关需求算法开发、工程落地与业务对接。
多模态 &AIGC
独自负责图文多模态在图像安全场景的探索,完成MLLM-图像描述和语义匹配方案的研究工作。
独自负责MBOX虚拟形象生成和AI换装的算法开发工作,参与人像个性化写真形象生成(人像LoRA写真和人像单图写真)算法开发和优化工作,探索风格迁移、视频生成领域的前沿技术与潜在应用。
多模态方案无需微调训练即可支持新增违规类别,额外召回 25%-35% 的抽检系统漏召的图片。
支撑“专属礼物”,“写真抽卡(盲盒)”,“mbox形象生成”,“mbox换装”等玩法。
AI画质增强
独自从0到1进行竖屏MV清晰度提升方案的调研、功能模块选型和算法功能框架搭建。
具体负责超分、人脸修复、画质增强的算法开发、服务搭建和整体框架的轻量化加速工作。
自研方案效果对标腾讯明眸方案,优于集团天琴实验室方案,接入中台赋能音乐平台的视频内容生产。
图像安全
主导从0到1搭建酷狗图像内容安全审核系统和秀场空播识别系统。具体负责涉黄、涉暴、涉赌、OCR、
画面遮挡的算法开发、工程化,对接业务方推动AI功能上线、放量;
内容安全审核系统效果优于竞品腾讯云、阿里云、滤图、图谱;赋能酷狗直播、酷我直播、酷狗唱唱;
荣获集团级“腾讯音乐2022年度成本优化奖”。秀场空播识别系统降低巡查人力60%。
内容/视频理解
独自从0到1搭建视频AI标签体系和算法开发;上线王者荣耀高光时刻识别功能。
负责AI标签视频分类算法开发优化和王者荣耀高光时刻的分类、检测、OCR识别算法开发工作。
自研轻量化视频识别方案优于ActionNet(CVPR2021)方案。完成支撑直播游戏场景的AI功能。