项目一: 关键词重要度
项目描述:长句中,存在几个关键词可以表达整个句子的语义。比如”企业营销的本质是如何解决
企业和客户之间的沟通”关键词是企业、营销、客户和沟通。 模型:
分词后,生成句子的依存模型,之后采用 randomwalk 的方法,获取词的关键度,其中不同的
依存关系采用不同的阻尼系数。
项目二: 智能问答客服机器人
项目描述: 问答机器人的语言料是<问题,<相似问题组>,答案>,对应的是 textmatching 模型,
根据用户的输入,找到最匹配的问题来获取答案。客户有 Tapd,国家电网,在线医疗丁香园等。
匹配客户自测准确度 93%+。
模型: 采用基于表示的匹配模型(BIMPM), 匹配模型中使用句子多粒度表示,通过字,词向量和
关键词重要度作为匹配模型的输入。
项目三: 复述模型生成
项目描述: 问答机器人中,客户需要准备标准问和相似问组,辅助客户生成相似问组。比如”电
费欠费了,多少天断电?” 生成的复述是” 欠缴电费了后几天断电?”
模型: 先通过对比学习(back-translation) 进行数据增强和预训练encoder,然后基于
transformer框架,融合 pointer-generator,构建类似机器翻译的模型。
项目四: 找钢网买卖消息分析
项目描述: 找钢网的客户使用行业 IM 群进行交流。交易员需要人工查看买卖消息再私聊交易,
效率不高。通过该模型,分析消息,展现在买卖大厅中,提高交易效率。比如库存普卷 Q235B
2.75*1500*C, 当日开票武钢。
模型: 买卖意图分类采用 CNNText,不同文本长度不同, 考虑到 zeropadding 对短文本的效果
影响, 提出charpadding(词不够长,将最后的字填充)。该类行业黑话很多,实体词很有限,直
接采用词典和正则就满足需求。
项目五:QQ群行业分类
项目描述:QQ 群存在很多行业群,比如机械,医药和化工等。获得这些群行业分类的标签,辅
助广告营销和QQ群搜索。
语料:通过已有百科语料和垂类媒体的语料生成wordembedding。
Label:首先根据很明显的群名称,来获取种子Label群, 比如上海五金同城, 后续使用
pseudo-labeling方法获取更多的label的群。
群消息处理:周群消息量在 20w 左右,将群消息整体看作文档。但是文档重复句子过多。
模型:由于graph 模型可以捕获文档频域下的规律,因此使用graphattentionnetwork模型,
将词语作为图的节点,统计词上下文消息中共现次数获取边的weight(归一化)。
项目六:Bert行业模型
项目描述:储备不同的行业模型,为后续各类tob的项目准备。基础语料是百度百科(2G)+微信
公众号文章(3G)。行业语料是垂类网站抓取和知识图谱生成(相近实体词替代行业网站语料的实体词)(2G)。模型使用RoBert,根据Apex调整精度优化效果,多GPU数据并行。生成了机械
工业,化工,保险,汽车,医药四个领域的行业模型。
项目七: 多轮对话任务机器人
项目描述:Pipeline模型,对话策略和自定义Action的方式,完成任务机器人的对话管理。意图
识别和实体抽取采用Bert行业微调语言模型(搭配实体词典和正则作为输入)。基座是Bert的
行业语言模型,通过客户输入的语料定期微调。比如,意图:受益人条件 语料:X[险种]的受益
人有什么要求? 策略方面提供2种策略,一种是槽位填充策略,一个是基于memorynetwork
的来匹配最相关的动作。Action包含3种,普通回复,选择回复(提供选项让用户选择)和远
程调用(我们提供如下几种旅行险[travel_insurance], 通过远程API调用获取实体来填充回复)。