业务方向1:图像短视频及商品内容理解(OCR服务,多模态理解)
算法内容
负责OCR服务整体pipeline,对场景文本模态信息提取
负责clip对文本和图像之间的模态进行对齐
负责基于自研OCR的layoutlm的多模态模型预训练
负责类llava的多模态大语言模型训练
业务内容
短视频及商品场景下OCR文字识别,用于风控等场景内容召回
采用clip模型为短视频打标签和视频去重等
对结构化图像进行特征抽取,用于表格识别等下有任务
商品标题生成,风控场景的zeroshot分类,特殊类别召回
业务方向2:直播及短视频手势特效
算法内容
负责手部的anchor-free的检测模型,用于手的召回;手的跟踪模型,对检测的手进行实时
跟踪;负责手的分类模型,对手的类型进行分类;负责手的关键点模型,对手的21点关键
点进行检测
对手势整体pipeline中的各个模型进行优化,包括int8模型量化感知训练提高推理速度,模
型的知识蒸馏提高模型精度和稳定性,模型的剪枝降低模型计算量
负责模块结果的相关各种后处理逻辑,包括跟踪框和关键点的平滑策略,检测、跟踪和关
键点的跳帧策略等整个demo的完整链路
负责手势移动端pipeline的总体demo的c++编写和工程链路的调优
业务内容
直播场景的手部相关特效业务需求,包括特定手势类别的触发特效以及特定手势类型下的
跟踪特效
为商品理解场景提供手部的召回,为穿衣模特生成场景提供手部关键点位置用于相关约束
业务方向3:影集项目
算法内容
对相册图片进行21个类别模型进行多分类
增加主图回归分支,用于图像主体位置的回归和裁剪
增加美学评分分支,用于图像的美学打分,用于图像的筛选
对模型进行量化感知训练,蒸馏和剪枝等轻量化优化
移动端c++sdk编写及维护
业务内容
为影集项目提供类别标签用于影集主体匹配,在拼小圈中发布用于影集
为其他场景图像类别标签,用于推荐等