对话摘要项目
任务:基于坐席与客户的对话生成包含进线原因、客户诉求和坐席方案等信息的摘要描述。通过模型的自动化
填写代替坐席的手动填写,降低坐席的平均服务时长,提高坐席的工作效率。
工作:作为主要负责人之一参与了工程链路设计、模型选型、数据处理、模型训练、模型部署、效果回收及迭代
优化的整个过程。原方案为多任务分类模型(BERT),业务的可迁移性较差;重新设计后方案改为抽取(CNN)
+生成(UniLM、T5)方式,在半年时间推动该方案在热线 Top20 业务上线,并经过多轮优化(数据清洗、模型
升级、推理加速等),将摘要平均采纳率提高到 70%+,降低坐席的平均服务时长 20+s。为了进一步降低成本,
探索基于 prompt 的多业务融合生成模型,实现一个模型覆盖 10+业务,将机器利用率提高 3~5 倍。此外,基于
该项目产出专利一项《一种对话文本摘要生成方法》,内部定级为重要专利。
收获:在该项目上用到了 NLP 的各类模型(分类、序列标注、抽取、生成等),对这些模型在业务上落地有了较
深的理解;熟练地掌握了各种数据处理方式,包括伪标注数据的构建、人工标注数据的质量把控等;此外,对协
调各方解决工程链路问题也积累了一定的经验。
Ø 通用大语言模型项目
任务:设计和训练通用大语言模型,实现类 ChatGPT 的效果。
工作:参与基于人类反馈的强化学习(RLHF)部分的设计和实验。分了两个阶段,第一阶段验证强化学习的有
效性:利用 TRLX 框架在 TL;DR 摘要任务上复现 OpenAI 的结果,完成了 SFT、Reward Model 训练、PPO 训练
三步训练,人工评估 PPO 训练的模型优于 SFT 模型,FPR 提高 0.24(0.42->0.66)。第二阶段利用强化学习来优
化 SFT 模型,工作包括:调研大规模强化学习训练方法,设计和复现强化学习用于大语言模型的多机多卡训练
方案,目前采用 DeepSpeed 框架跑通了 PPO 的多机多卡实验;调研和设计大模型的评估方法,侧重在模型的无
害型的评估,目前仍在进行中。
收获:对当前主流的大语言模型有了较为广泛和深入的调研;对强化学习用于语言模型的训练有了较为深入的
理解;对大规模强化学习的分布式训练方法、大语言模型的效果评估有了一定了解。
Ø 新知识点挖掘项目
任务:坐席在服务过程中,如果遇到用户提出的一些未被当前流程所覆盖的新问题,往往不知道怎么处理,影响
了工作效率。本项目探索新问题的自动挖掘方法,利用这些方法挖掘出新问题并反馈于运营,运营对这些新问
题定义处理流程,进而方便坐席按流程处理。
工作:提出了有效语句识别+聚类分析的新问题挖掘框架,有效语句识别采用规则过滤,聚类分析采用基于句向
量的层次聚类。这里的关键在于如何获得具有细粒度语义区分能力的句向量,方法是利用人工构建的业务伪标
注数据训练 sentence-BERT 获得句向量。在骑手业务的三个细分场景上定义了问题空间,其中 35 个已知问题、
b42a3bcca07b54f01XV53tu7EVpTwpG7UPKfROaq
b42a3bcca07b54f01XV53tu7EVpTwpG7UPKfROaq
7 个未知问题,相比于未训练的 sentence-BERT,最优聚类效果有明显提升:P=0.71 (+0.53),R=0.83 (+0.18),
F1=0.76 (+0.37) ,对未知问题的准召分别为 P=0.71,R=0.56.
收获:对句向量的训练和优化、聚类方法有了一些积累