抖音电商面向商家的图谱问答机器人(从0-1) 业务owner 2020.09 – 2021.02
1. 背景:在电商场景中,无论是商家开店入驻还是售卖商品,都离不开类目与商品库的构建与结合,基于提升商家入驻效率,探
索售前导购实现与知识图谱结合的初版问答机器人
2. 知识建模:
a) 新实体发现:从商品标题、用户query中挖掘新的类目和属性
b) 知识获取:通过实体链接和关系抽取将实体和标题、query中的信息对应起来,同时抽取实体间的关系,比如从软文中抽
取成分=”烟酰胺”和功效=”美白”之间的关系
c) 知识融合:主要是针对多个商品是否是同款商品进行冲突处理
3. 问答机器人构建:
a) 基于多任务学习思想,分别实现基于CNN的字词混合模型和基于BiLSTM+CRF的槽位识别模型,联合识别准确率93%,
召回率为85%
b) 针对商家咨询问题,结合SOP自助化给予问答入口,通过知识查询获取属性答案
4. 业务成效:有效地解决率商家咨询难题,拦截商家咨询量25%,打通了基于图谱问答的链路,针对导购营销进行了有力的探
索
电商智能客服问答机器人(从0-1) 业务owner 2020.03 – 2021.03
1. 背景:传统客服过度依赖人力,存在用户操作繁琐、问题解决周期长、企业成本开销大等缺点,为了更好的提高客服人效和用
户体验,从0-1实现了基于电商背景的问答系统
2. AIBoost数据回流闭环构建:
a) 获取原始用户query,使用SentenceBERT/Word2vec提取句向量,并用Kmeans/DEC进行离线聚类,使用文本相似度
计算获得聚类后的相似问题,
b) 针对badcase,对少样本数据通过EDA与UDA进行数据增强
c) 联动业务部门形成了有效的知识与数据闭环,并将最终数据沉淀为结构化知识库
3. 对话系统构建:使用分层分领域的框架设计,基于意图识别和QA问答为核心构建全链路的问答系统
a) 规则干预引擎:针对线上的高危词、敏感词与常见短语,加入基于规则的干预机制,基于精确匹配,分别融合词槽和通配
符进行快速识别与结果干预
b) 语义意图识别
i. 将用户query结合上下文,通过分词词性标注,并加入领域数据训练基于ALBERT的多分类意图识别模型,将语义识别
结果通过路由进行转发
ii. 由于实际线上出现文本缺失、不明确或者不完整,加入用户行为特征提升意图预测准确率(87% -> 91%)
c) 基于IR模型的QABot实现
i. 提问处理模块:文本预处理(指代消解)、分词处理(中英处理)
ii. 召回模块:基于ElasticeSearch+语义召回的双路召回实现
iii. 文本匹配模块:结合传统相似度计算方法与深度学习方法进行文本相似度计算,主要模型采用Enhanced RCNN,准确
率离线评测94%,召回率87%
iv. 答案回复模块:根据用户咨询订单状态给予个性化回复;并引入lightgbm排序模型对最终结果进行Rerank,添加阈值
策略,结合排序结果分别进行唯一回答、中置信列表回答和兜底问题推荐
4. 业务成效:主动推动,协同技术中台部门进行SOP自助化服务构建,目前问答机器人已接入电商多条业务线,节省人力45%,
大幅提升运营效率,日均降低人工会话11.74万,降低工单8.7k