1. 负责优化现有的分词算法,在现有的最大正向匹配算法的基础上新增最大逆向匹配算法、以及双向匹配算
法。
2. 负责系列名称识别,针对 2W+ 的系列名称进行识别,优化改进利用 ElasticSearch 直接查询匹配的算法,
并建立字典树解决了诸多不匹配的问题。
3. 负责 18 种主要的元器件型号文本进行分类,主要采用了 fasttext + CNN 作为训练Model,并针对输入
进行了综合处理,其准确率达到了 96.4%
工作成果
1. 提升了命名实体识别的精度,使其精度从 84%提升到了96.1%
2. 提升了元器件系列名称的准确率,采用模糊匹配的方式提升了匹配效率,使系列名称准确率从78.8%提升
到了 98.7%
3. 针对18 种主要的型号文本进行分类,其精度达到了 96.4%