团队搭建
从0-1组建趣头条NLP算法团队,支持趣头条推荐的NLP需求;推动搭建50人数据标注团队,
NLP 模型对数据标注需求较多;结合趣头条用户的金诉求,通过金币激励用户众包数据:首创众包视频剧名,每日完成3w+娱乐/影视视频, 剧名准确率96%。
多模态内容similarity服务
内容分为5档:高度重复,高度相似,中度相似,相关和不相关;标注20万数据,集合关键词,实体词,事件,语义相似度,一级分类,二级分类,封面相似度,视频相似度,视频名,作者等信息训练模型,相关分类f1 从58%提到85.5%;实时计算任意文档对的相似得分,写入kv存储共引擎实时使用,kv存储量160亿。
从无到有搭建多维度内容标签体系
搭建图文和视频统一内容体系,类别体系:一级类别(30+),二级类别(150+),三级topic(6000+),实体词(10万数量级)及关键词模块和地域标签;基于图文标题和正文构建SSL任务,学习语义向量;推动研发多项NLP和CV项目。模型在推荐,广告和搜索及审核等业务线落地。
用户画像年龄和性别模型
负责趣头条,米读和火火等9个业务性别年龄模型训练,第三方信息构建标注数据;结合用户行为数据,互联网数据和手机信息构建特征;年龄模型优化模型后 f1 66.49%(绝对提升28%);学生模型f1 61.41%(绝对提升36%);性别模型f1 78.13%(绝对提升19%);均高于行业中最好的个推年龄f1 52.75%,性别f1 72.53%。
低质内容识别项目
负责内容质量和辅助审核模型,提供标题党,低俗识别,负向评论识别,低质评论识别,恶心不适识别等模型;同时负责时效性和地域识别,减少高时效内容持续曝光及强地域内容错误分发。