面向传音广告B2平台Eagllwin,前期主要负责Marketing广告dmp特征建设和lookalike功
能实现,后期负责计算广告Ocpc广告的Cvr,主要包括cvr模型和校准等。
项目名称:cvr通用模型迭代
项目内容:Ocpc广告2022年6月接入,6月日均消耗40刀,截止到目前广告主40+,日消耗顶峰1000刀,目前稳定在800刀。基于用户特征不断完善和广告主增加数据日益丰富,迭代线上通用的cvr模型,目前线上大盘模型为Multitower_v1。
项目职责:
1)样本构造:在lr_v006增加用户embedding特征和序列特征,t-32~t-2全部数据做为样本,t-1数据做为oot测试集。
2)模型训练:gbdt_v3基于非游戏用户训练,gbdt_v4基于全部样本,multitower_v1同上一版相同特征
3)模型离线评估:oot测试集auc0.76,广告主copc稳定且保持单调性,与广告主实际cvr打分保持一致性
4)模型上线:GBDT通过阿里云PAI实现,Multitower通过阿里云dataworks实现,Multitower_v1于6月中上线,7月底推全。
5)效果:Multitower在AB实验中对比对照组在整体ecpm相对提升57%,ctcvr相对提升5%,对比实际cvr预估偏差不超过10%,成本偏离度小于12%
项目核心技能:机器学习,LR,GBDT,Multitower,SQL
项目名称:cvr校准迭代
项目内容:基于线上cvr模型打分得到的cvr_raw,结合广告主实际投放近3天的数据,分段计算pcoc,对打分进行实时校准,优化部分高低估case。目前线上校准为by广告主by模型by激活类型的校准。
项目职责:
1)方案构造:基于by广告组by模型by激活类型拆解阈值,根据阈值划段计算copc。
2)计算逻辑:设定进入校准准入门槛为500点击,校准粒度从广告组到广告主到全局粒度向上递进计算实时copc
3)在线数据:将离线数据同步至mysql,再在广告引擎侧datasyncer实现5分钟一次的数据实时同步。
4)项目上线:在广告引擎侧adserver实现,对模型打分后的cvr_raw乘以校准系数,再计算ecpm。
5)效果:配合线上cvr模型使用,校准后pcoc对比校准前相对最多提升77.2%,对现在大盘模型加权提升18.3%。
项目核心技能:SQL,Java
项目名称:cvr策略统计模型(适用于联盟广告和冷启动阶段)
项目内容:ocpc广告接入外部流量和初始化阶段,用户特征大量缺失和前期积累不到用户样本,基于实际广告主在不同媒体的实际投放数据,结合EE策略和copc构造实时校准模型,有效规避前期成本偏离度过高或者不出量的风险。目前本项目分别在2月底与5月中上线两版模型,且线上持续使用中。
项目职责:
1)方案构造:广告主、广告组、媒体粒度为单位,构造cvr_base、cvr_adjust,获取对应cvr预估值,返回eCPM竞价。
2)校准策略:基于EE策略计算实时copc,投放最初6小时使用实际copc,后使用短期copc乘以系数+长期copc乘以系数获得。由于小时级激活数据回传不及时导致的case,后设置cvr跳出值和预估最大值,规避不消耗和消耗过大风险。
3)离线统计数表:行业冷启动cvr预估值,基于历史cvr打分和copc调整的预估值,获取一张by广告组by媒体的点击数和预估cvr值离线表。
4)项目上线:基于java,在公司广告引擎adserver上线使用。
5)效果:第二季度广告主基于联盟统计模型消耗约3925刀,相对预估偏差33.2%,激活成本偏差22.9%。
项目核心技能:SQL,Java,EE策略
项目名称:基于用户序列特征的lookalike人群拓展
项目内容:基于用户的手机app留存、打开、安装、卸载序列行为,训练Transformer深度模型,产出用户为主键的userEmbeding,再使用Kmeans拓展相似人群,产出目标定向人群包,快速响应广告主潜在客户人群。目前本项目已经上线使用,且自动化流程公司申请专利。
项目职责:
1) UserEmbeding:基于用户的手机app序列行为,训练Transformer模型,产出代表用户长、短期兴趣的128维用户特征。
2)Lookalike:获取种子用户对应Embedding,使用Kmeans确定簇和中心点,选取最相似的topN用户产出人群包。
3)模型迭代:迭代至第三版,两次迭代分别增加了用户打开序列行为和提升自动化计算的性能。
4)项目上线:使用Tensorflow训练模型,Scala、Spark进行lookalike工程化部署,通过接口跨云传输数据扫描定时任务,通过阿里云实现流程自动化。
5)效果:共产出人群包50+。对比通投,效果类广告相对提升展示率8%,提升ecpm15%;贷款类广告相对提升激活率15%,放款成本降低20%。
项目核心技能:深度学习,Transformer,Tensorflow,Kmeans,Scala,Spark
项目名称:dmp广告特征体系开发
项目内容:内部广告用户id为主键,目的是为了线上大一统模型丰富特征,提升模型准确性,提升ctcvr等开发一套特征宽表,目前cvr模型v2已上线使用,AB实验中。
项目职责:
1)用户特征:用户基础信息特征,x天广告行为正负特征,app使用序列特征等
2)广告特征:统计特征共18个,线上在用17个特征
3)上下文特征:请求数据带入,共45个,线上在用12个特征
4)用户广告行为特征:用户x天不同维度广告行为正负特征
5)userEmbeding:构造的用户特征,共128个,线上在用128个特征
6)项目上线:基于java,在公司广告引擎featureserver上线使用。
7)效果:特征工程加入深度模型上线multitower_v2,8月中上线,目前正在5%流量AB实验中。
项目核心技能:SQL,Python,Java, 特征工程