云南反诈项目
1) 基于编辑距离结合的url字符串相似度识别,以及基于文本语义理解的文本分类算法。
2) 基于逻辑回归算法的网页访问量的预测。
3) 将决策方法与数据挖掘分类模型相结合建立网贷平台的风险预测。
4) 基于深度学习网络的诈骗分子画像模型;
网站分类项目
1) 基于SVM建立域名网站分类库系统,分类管理全国范围内的网站,主要分类有72个类
2) 参与此项目的专利申请,属于第三发明人。专利申请号601611117608.8,此专利已经通过审查,专利网可查。
北京信息通信研究院网站分类项目
1)建立全国网站域名分类标准(包括编码及定义);
2)设计基于四个维度的网站分类模型,主要负责基于内容的网站分类
3)设计基于CNN的网站分类器,以及网站分类云平台的开发,支持全国80%的通信管理局。
舆情系统的的文本检测引擎和情感分析引擎
1)文本检测引擎的开发,主要包括敏感政治信息、涉黄、涉赌、涉毒、涉恐等信息的识别,模型基于Bert网络进行文本分类。
2)情感分析引擎主要基于文本检测引擎的结果,对敏感信息(违法信息)进行情感分极,将bert网络和情感词典结合来对输入文本情感进行有效分析。
微博短文本情感极性分析
1) 建立了情感词典,整理收入正负情感词还有程度词共约30000多个
2) 建立了基于句法树的情感极性分析模型,使用java语言开发
3) 建立了基于语法的情感极性分析模型,使用java语言发开
4) 建立了基于SVM的情感分类器,使用python语言开发,准确率稳定在85%左右
5) 利用word2vec,建立词向量解决短文本的特征稀疏的问题
藏独知识图谱项目
1) 此项目目前正在进行中,目前主要负责利用Tensorflow深度学习框架对人物关系进行抽取
2) 在研究过程中作为第一发明人(唯一发明人)申请了相关专利,专利名:用语义迭代提取网络突发事件并识别外延事件关系的方法,申请号:201710680276.6
中国人工智能竞赛
1) 参加厦门市政府主办的中国人工智能竞赛;团队名为飞翔鸟,担任主要技术负责人;
2) 参加项目包括相似图片检索和印刷体OCR识别;该比赛仍在进行中,约2019年6月公布比赛成绩
搭建过Hadoop集成开发环境,包括:hbase、zookeeper、mapreduce、hdfs,yarn,storm等
参与通信管理局的湖北非法域名专项行动,准确检测黄赌毒网站
参与银监会下发监管P2P网站的活动,圆满完成监测并上报
参加迪庆州网络安全系统项目,特殊人群热点行为发现
参与图像处理项目,主要是图片相似度,人脸的识别,此项目目前属于初期,在cafe框架下实现