职责业绩:
业务分析:
BI数据分析,数据的ETL和企业数据治理方案,实时数据流的分析,用户留存分析,用户回流分析,用户事件转换漏斗模型的设计,基于用户行为标签画像对用户进行分析和推荐。机器学习方面的算法有一定研究(SVM,KNN,Kmeans,Decision Tree,collaborative filter(ALS)等常用算法)
日常工作:
1.为三大运营商的大数据系统各组件提供专家服务和故障解决。
2.Hadoop,Yarn,Hive,Hbase,Spark,Storm的上层应用开发以及性能优化。
3.Hadoop集成安全组件Kerberos,LDAP,Sentry的研究和测试。
4.研究大数据最新技术,输出可行性报告和解决方案。
5.流数据处理SparkStreaming 对接flume ,socket,kafka等 数据流处理及落地存储及优化,Storm对接Kafka等数据实现落地存储及性能优化
技术方面:
1.基于大数据架构的数仓开发及规范编写.
2.spark实时统计分析及监控
3.storm对接业务线数据统计分析
4.ETL实时流处理及开发
5.根据业务建立数据模型 用户画像,用户留存,用户活跃,漏斗模型,用户回流等模型,以及基于spark的推荐模型.
6.集群的性能调优及日常优化.
7.基于apache kylin建立数据立方体 进行OLAP的分析,实现亚秒级别的响应.
针对以上大数据技术的源码进行过研究,针对公司在大数据方面提供解决方案和技术选型。
现在是Apache大数据OLTP孵化项目Trafodion的contributor。
业务方面:BI数据分析,数据的ETL和企业数据治理方案,实时数据流的分析,用户留存分析,用户回流分析,用户事件转换漏斗模型的设计,基于用户行为标签画像对用户进行分析和推荐。机器学习方面的算法有一定研究(SVM,KNN,Kmeans,DecisionTree,collaborative filter(ALS)等常用算法,
利用Tensorflow采用深度神经网络 中文汉字手写识别,准确率91%以上)