[发明专利]一种构建机器翻译模型的方法、翻译装置及计算机可读存储介质在审
申请号: | 201911243004.1 | 申请日: | 2019-12-06 |
公开(公告)号: | CN112926342A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 蔡岩松;屠要峰;郭斌;周祥生 | 申请(专利权)人: | 中兴通讯股份有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/216;G06F40/289;G06F16/215;G06N3/04;G06N3/08 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 梁嘉琦 |
地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 构建 机器翻译 模型 方法 翻译 装置 计算机 可读 存储 介质 | ||
1.一种构建机器翻译模型的方法,包括:
构建用于通用领域的基础机器翻译模型;
基于所述基础机器翻译模型,向特定领域进行微调,以构建用于特定领域的机器翻译模型。
2.根据权利要求1所述的方法,其特征在于,所述构建用于通用领域的基础机器翻译模型,以及所述构建用于特定领域的机器翻译模型,分别包括:
准备训练数据集,其中所述训练数据集包括语料对;
对所述训练数据集中的语料对进行预处理。
3.根据权利要求2所述的方法,其特征在于,所述对训练数据集中的语料对进行预处理包括对语料对中的关键词进行保护处理,包括:
匹配所述语料对中的字符串;
根据所述语料对中的相同字符串识别出关键词;
使用特殊字符串替换关键词。
4.根据权利要求2所述的方法,其特征在于,所述构建用于通用领域的基础机器翻译模型,以及所述构建用于特定领域的机器翻译模型,还分别包括:
基于字节对编码(BPE)机制对经预处理的语料对中的词进行切分,以建立词表;
根据词表对训练数据集的语料对中的词进行分词,以建立经分词的训练集。
5.根据权利要求4所述的方法,其特征在于,所述构建用于通用领域的基础机器翻译模型还包括采用转换器架构并确定架构参数。
6.根据权利要求4所述的方法,其特征在于,所述确定架构参数包括:
设置编码器、解码器的层数为6-10层;
设置隐藏层神经元个数为512-1024;
设置输出层神经元个数与词表长度一致;
根据训练数据集规模,按一定衰减周期设置训练第一学习率。
7.根据权利要求1所述的方法,其特征在于,所述构建用于通用领域的基础机器翻译模型还包括采用最小风险训练来设计损失函数。
8.根据权利要求2所述的方法,其特征在于,还包括:
对训练数据集按一定比例划分为训练集、测试集和验证集;
使用构建的基础机器翻译模型对训练数据集进行反复训练,直到所述基础机器翻译模型在测试集以及验证集上的BLEU值达到一稳定值;
在所述基础机器翻译模型收敛并稳定后,保存一定数量的基础机器翻译模型,对其进行权重融合;
保存权重融合后的基础机器翻译模型。
9.根据权利要求1所述的方法,其特征在于,所述基于基础机器翻译模型,向特定领域进行微调,以构建用于特定领域的机器翻译模型包括:
基于构建的基础机器翻译模型,根据特定领域调整学习率,以得到相对于第一学习率的第二学习率;
将用于基础机器翻译模型的通用领域的训练数据集中的验证集替换为待开发的特定领域的训练数据集的语料,通过特定领域的语料的翻译的BLEU值优化模型,直到模型在特定领域的训练上达到收敛。
10.根据权利要求9所述的方法,其特征在于,第二学习率设置为第一学习率的0.5-1倍。
11.根据权利要求2所述的方法,其特征在于,所述训练数据集包括:
通用领域训练数据集,用于训练通用领域的基础机器翻译模型;
特定领域训练数据集,用于训练特定领域的机器翻译模型。
12.一种翻译装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至11中任意一项所述的构建机器翻译模型的方法。
13.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1至11中任意一项所述的构建机器翻译模型的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911243004.1/1.html,转载请声明来源钻瓜专利网。