1. 主要从事基于合同的 nlp 研发
1)主 要负责合同和文本的分类(传统机器学习( svm,lightgbm,xgboost,tfidf 等和 fasttext ,
textrnn,textcnn,textrcnn,HAN 等文本分类的算法)
2)负责合同中的实体识别,词性标注,和挖掘(时间,金额,公司实体等)利用正则表达式和模型 Bilstm+crf
和 bert 进行数据的清洗和实体的识别。
2. 通过新词挖掘算法建立基于合同的词库,基于知识图谱建立合同,法律,经济等知识图库,进行合同条
款的信息抽取。
3. 证件的 ocr 识别(身份证,营业执照),主要负责 OCR 的 detect 模型的数据处理和模型训练,主要基
于 yolov3 模型。