自适应标签平滑
背景:机器学习领域存在double-decsent的现象,猜测机器翻译模型训练中也会存在。
策略:此工作提出了一种自适应标签平滑的方法,在模型训练过程中,模型预测的概率分布为p,保
留分布中概率最大的值w,将其他值设定为(1-w) / (vocab_size - 1),得到一个新的概率分布p1,用
p1矫正p,p=alpha*p+(1 - alpha) * p1。
收益:负责该思路的实现与模型训练,在百度中英70M数据集、垂类领域(印地语、维语等小语种)均
有0.6bleu的提升。
领域翻译术语注入
背景:ToB项目中存在专业术语严重错翻的现象,在保证模型bleu的前提下,提升译文术语出现率。
策略:针对训练数据,通过fastalign构建术语表。同时出现在源端和目标端的术语,通过向平行语料
的源端追加目标端术语词,构造伪数据参与训练。
收益:负责代码实现与模型训练,在百度翻译金融领域数据集(5M)上模型bleu值、译文术语出现率分
别提升了9.8(37.9->47.7)、9.7pp(65.34%->74%)。
机器翻译语言模型自训练
背景:在机器翻译任务中引入语言模型的自训练,增强翻译模型的语言表征能力。
策略:此工作复制Transformer 中Encoder的输入,对其中一份输入做类似BERT的mask处理。
Encoder的输出分别用于语言模型预测层的输入、翻译模型Decoder的输入,实现2个任务同时训
练。
收益:负责该思路的设计与实现、模型的训练,在百度中英70M数据集上,训练时 间减半,追平线
上模型的bleu值。撰写一篇专利。