工作描述:
1、参与数据仓库设计、指标体系建设、报表开发, 对数据进行多维分析、汇总, 为日常业务运营提供数据支撑;
2、主导汽车集市、获客集市基础数据能力建设消费金融集市的设计与开发
,参与过终端模型、用户画像婚恋模型、互联网集市的开发工作。
3、通过对生产环境数据质量进行稽核,并与业务需求方面进行结合,制定统一的数据测试规范,方便测试人员开展后续的测试工作。
4、配合产品与业务部门沟通协调需求,满足相关业务部门的日常数据需求,高效完成数据开发工作。
5、临时工单处理,基于业务需求,开发临时程序,将临时数据存储在临时层,并将结果数据推送到相关ftp服务器。
项目一: 汽车集市V1.0.0
项目背景: 随着人们生活水平的提高,私家车的需求量越来越大,通过建立汽车集市数据模型,预测用户的用车需求以及汽车偏好等,为汽车相关服务商的精准营销提供判断依据。
计算指标:
用户客观用车需求: 根据用户的上班时长、上班距离、下班时长、下班距离、节假日出行距离、使用打车租车APP次数等指标进行赋权以及归一化,获取用户的用车需求评分。
消费能力: 根据用户使用的终端价格、套餐价格、信用度等级、消费能力等级、访问汽车标签的平均价格、旅游次数、旅游乘机次数等指标进行赋权以及归一化,获取用户的用车需求评分。
用户属性: 主要获取用户的家庭成员构成和平均通勤速度。
用车意愿行为: 通过统计用户访问各汽车品牌APP次数、用户与各品牌汽车服务商通话次数、到访各品牌汽车4S店次数,结合不同的计算权重,计算用户对不同品牌汽车的用车意愿评分。
用车偏好: 统计用户访问不同车款、车系、价格、频道、排量、车型等APP的次数,计算出用户访问前N名的车款、车系、价格、频道、排量、车型等APP的占比。
朋友圈用车偏好: 计算用户朋友圈访问前N名的车款、车系、价格、频道、排量、车型等APP的占比,获取用户朋友圈关注的车款、车系、价格、频道、排量、车型等等。
使用技术:
1、使用Python调用百度地图API,获取汽车服务商所在经纬度对应的网格ID。
2、使用HiveSQL进行数据指标的计算,细化数据处理粒度解决数据倾斜问题。
3、使用Shell完成HiveSQL的封装,同时在Shell中使用Sleep语句在程序异常重试时设置休眠时间,数据文件统一采用LZO压缩格式。
4、使用Java完成UDF的编写,包括上下班通勤、最小方差组合、最小距离经纬度的计算等。
项目二: 获客平台集约能力建设
项目背景: 客户的短信、语音以及各标识ID数据均存在多个不同的数据来源,且各数据来源之间数据规范不统一,数据质量较差,为得到全量有用的客户数据,需要对客户的短信、语音以及各标识ID数据进行整合。
数据整合分为以下三块内容:
移动短信数据融合: 统一详单MDR、信令(OIDD)、行业短信、无线话单(WCDR)四类数据源中的数据单位,剔除异常数据,按照详单CDR>信令(OIDD)>无线话单(WCDR)>网间结算(NSD)的优先级进行数据融合,并对数据结果进行去重操作,结合实际数据情况,对详单MDR、信令(OIDD)时间间隔在两秒内的统一用户数据只保留一条。
移动语音数据融合: 统一不同数据源之间的数据单位,按详单CDR>信令(OIDD)>无线话单(WCDR)>网间结算(NSD)的优先级对移动语音数据进行融合,然后做去重降噪的操作。
ID_MAPPING标识整合: 首先使用正则校验剔除不满足对应ID标识数据组成规则的ID数据,然后统一各数据源ID标识名称,融合不同数据源的数据,只保留ID与手机号码唯一映射的数据,做日更新操作,并结合历史数据,出具最新的全量ID映射数据。
使用技术:
1、使用HiveSQL对获客模型数据进行整合,并对上线后的结果数据进行数据质量稽核,对短信融合部分进行性能优化。
2、使用Shell完成HiveSQL的封装,包括参数的配置,输入变量的校验等,数据文件统一采用LZO压缩格式。
3、使用Java对各类ID标识数据进行正则校验。
4、将ID_MAPPING标识整合部分Hive数据文件做Hbase入库操作。
项目三: 消费金融集市V1.1.0
项目背景: 在金融活动中,对风险进行评估时,出资方比较关注借款人的个人基本信息是否真实,其历史的借贷情况以及是否存在欺诈行为,通过客户过往使用信用卡、使用贷款软件、使用该机软件等行为,可以对客户的信用进行评估。
计算指标:
标签数据处理: 由于接口部门处理逻辑需要以及数据源文件字段内容发生变更,需要对原有标签指标统计表追加字段,并调整不同标签分类类型的计算逻辑;为对APP标签进行归一化,在归一化标签的基础上,分别从标签ID和标签分类两个粒度对标签数据进行统计,统计指标包括活跃天数、工作日活跃天数、非工作日活跃天数、活跃次数、工作日活跃次数、非工作日活跃次数、持续时间、工作日持续时间、非工作日持续时间、工作日流量、非工作日流量等。
金融风控APP使用情况统计: 可自定义时间窗口长度,基于标签数据处理结果,统计用户使用多平台借贷和改机软件APP的使用情况,统计指标包括: 活跃天数、活跃次数、标签个数等。
使用技术:
1、使用MapReduce对标签指标统计表进行迭代。
2、使用HiveSQL对标签数据以及金融风控类APP进行指标计算。
3、使用Shell完成HiveSQL的封装,包括参数的配置,输入变量的校验等,数据文件统一采用LZO压缩格式。
4、结合用户自定义参数,使用awk,sort,uniq,xargs,tr等常用Linux命令解析时间窗口。
5、使用Java编写UDF进行活跃天数算法的计算。