权威性模型的迭代
目的 依据权威性的标准,给视频作者计算一个刻画权威程度的分数,参与精排排序,满足用户对搜索结果权威性的需求
方案 用三个子模型,加权融合得到权威性分数:1.作者为节点,关注关系建边,基于PageRank得到一个全局的权威性分数;2.以
线上query-author点击为正例,batch内随机打散构建负例,使用双塔模型,得到一个能刻画作者领域相关性的分数;3.根据权威性
标准,标注50w条query-author对,使用query、作者所属领域tag、作者名,以及近期发文频率、作品的点赞、收藏、转发等特征,
基于bert+wnd,训练一个能整体刻画作者权威性的模型
收益 领域权威性模型人工评估累计随机+1.83%(权威性维度+1.41%),长尾+1.24%(+1.18%);基于bert的整体权威性模型随机
+0.14%(+1.3%),长尾0.33%(+1%)
• clickquery&clickterm的挖掘与应用
目的 从视频的有展现query里,挖掘出一批与视频匹配的词,补充到视频文本信号里
方案 制定正负样本标准,标注10w条query-video对;从query、video以及交叉三个维度,设计了约100个特征,在标注数据上训
练LightGBM模型,调整模型分阈值保证在测试集上的准确度;基于MapReduce完成特征生产和预测,过滤掉低于阈值的候选,按点展
比取topk个写到视频的正排信息里
收益 1.作为视频的一个分域,在召回、粗排、精排阶段计算匹配特征,人工评估累计随机+3.21%,长尾+4.13%;2.作为补充文本
参与精排相关性分预测,人工评估随机+0.28%,长尾+2.38%
• 基于CLIP的全品类画风模型
目的 优化经验垂搜画风维度的搜索体验,打压劣质画风结果,缩小与小红书在画风维度的差距
方案 依据画风标准,推进全品类视频&图集的画风标注,在15w标注数据上微调CLIP模型,得到一个刻画视频&图集的画风是否优
质的分数,应用到召回、粗排和精排
收益 训练出的全品类画风模型auc=0.87,f1=0.79,指标达到预期,正在推动落地
• 一些短期项目
目的 通过优化视频内容质量分、合集混排,解决流式评估中发现的badcases
方案 质量分融合收藏率;依据时长、是否搬运以及是否含低质营销视频,调整合集排序;计算合集精排相关性分时,考虑外展视
频title
收益 累计评估收益+0.2%,有效解决了低质合集排序过高的问题