工作描述: 刚进入公司的时候做的是一些爬虫的工作,使用python对百度视频演员,导演,多个播放源进行爬取和增量爬取,入库以及推送,以及视频埋点打印日志后对日志进行分析,通过flume对多个日志进行分析后写入hdfs,记录点击次数,下载次数,点击源等等的数据统计及展示,后参与公司数据总线项目,使用canal实时监控数据库binlog以对数据库增,删,改进行监控,将数据库更改信息传入kafka消息队列,然后从消息队列中取出更改信息进行推荐算法计算,将计算结果写入hbase中实现视频推荐,然后参加公司报表以及年报数据开发和推送,使用springboot作为基础框架,将数据存入hdfs中并且使用hive进行hdfs操作,经过这一年的工作,对canal,kafka,flume,hadoop,sqoop等大数据组件有了一定了解,熟悉了gradle等项目管理工具,对mysql触发器,存储过程以及数据库性能调优有一定的了解