太屋大数据平台实时和离线数据仓库的建设: ◆ 整体实时及离线数仓架构的设计确立,包括组件技术的调研和业务场景的梳理以确定整体的技术架构、实施方案和数仓分层设计。 ◆ Flink 开发实时接埋点数据的程序,实时营销程序,实时读取业务库的程序。 ◆ Hadoop、Doris、DolphinScheduler 集群的搭建、运维及升级,处理线上组件及批量问题。 ◆ 数仓工具脚本的编写及优化,实现一键建表,DolphinScheduler 工作流同步及失败告警企微通知,ODS 层配置化加载业务数据,定时调起 StreamPark 上失败 Flink 作业等功能。 ◆ 根据业务需求编写 Hive 自定义函数,实现 JSON 数组的展平等功能。编写 Flink 自定义函数,实现 Row 类型 JSON 字符串的聚合等功能。 ◆ 打通 Hive 表到 MySQL、Elasticsearch、Doris 的数据链路,实现全流程 SQL 开发,降低开发门槛,缩短开发周期,规范化 Hive 数据导出流程,实现 MySQL和 Doris 的原子性数据更新、ES 的过期数据清理等。 ◆ 集群及作业的调优,优化 YARN、Spark及 Doris 性能。 ◆ 数仓 SQL 脚本的开发及作业调度上线,部分应用层作业的开发及报表制作等。