项目名称:电商网站访问量分析(项目周期:2018.2~2018.9)
软件架构
ngnix+zookeeper+hadoop+flume+hive+sqoop+hbase+kafka+spark+mysql+echarts
项目描述
对网站进行流量分析是改进网站服务的手段之一,通过收集用户的访问日志数据加以分析得出网站的访问量,受欢迎程度以及网页中存在的问题,从而对网站进一步的优化。
收集用户访问日志后,进行数据的清洗及相关的处理,得到原始数据。然后根据业务需求进行数据的抽取,抽取的主要数据有,页面访问量,独立访客数,回话总数,跳出率,新增ip数,新增用户数,平均在线时长,访问深度,用户信息,用户访问资源信息等,根据这些参数分析用户的使用习惯及需求,为用户提供精准服务。
责任描述
1. 使用flume收集日志,将日志消息拦截进行相应的处理,将数据存入HDFS;
2. 使用Hive创建外部表管理相应的目标数据,利用hql清洗并处理数据,根据业务逻辑进行数据的提取,使用sqoop技术将HDFS中处理完成的数据导出到数据库中。
项目名称:海关、进出口数据统计(项目周期:2017.7~2017.12)
软件架构
分布爬虫+Zookeeper+Hadoop+Flume+Hive+Sqoop+Mysql
项目描述
外贸数据采购数据系统,是一个离线大数据出口商家服务项目。数据来源为分布式爬虫和基于mysql的历史数据通过sqoop导入到hdfs,用hive进行数据分析,并进行统计;用echarts完成图表展示。
客户可以根据需要相关关键词,如产品关键词、公司名称等角度来搜索到相关的交易信息;并且通过查阅一份完整的公司贸易报告。得到客户具体的交易统计数据:如交易总次数、贸易伙伴、同行公司、贸易区域等;从而指导国内客户对于进出口数据等信息进行客户开发和相关业务调整。
责任描述
主要负责对从mysql导入的及从分布式爬虫爬去到的数据进行清洗,可用信息的提取/合并处理,及相关业务需求数据的提取。
1.利用hive建立外部表管理hdfs中的数据;
2.对数据进行清洗,根据数据格式要求,去除数据中多余的字符,修改数据为统一的数据格式,根据业务需求为空的数据添加对应的数值,舍弃一些可用性不高的数据;
3.把清洗后的数据存入到hive的内部表中,供后续使用;
4.根据业务需求,将清洗后的数据中的该业务字段进行抽取,得到业务表,把业务表中的数据导入数据库中,供后续业务需求使用。