[发明专利]机器翻译模型训练方法和装置、及文本翻译方法和装置在审
申请号: | 202210174302.5 | 申请日: | 2022-02-24 |
公开(公告)号: | CN114548123A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 张磊 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06K9/62 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 景怀宇 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器翻译 模型 训练 方法 装置 文本 翻译 | ||
本申请涉及一种机器翻译模型训练方法和装置、文本翻译方法和装置、计算机设备、存储介质和计算机程序产品,涉及人工智能技术领域,可用于金融科技领域或其他相关领域。所述方法包括:获取训练样本集;分别采用第一预设算法和第二预设算法对源语言语料进行第一分词处理和第二分词处理,得到第一子词序列和多个第二子词序列;将源语言语料中目标单词在第一子词序列中的第一子序列,与在多个第二子词序列中的第二子序列进行差异度比较,将差异度最大的第二子序列确定为目标单词对应的目标子序列;将目标单词对应的第一子序列替换为目标子序列,用于训练机器翻译模型。采用本方法能够能提高机器翻译模型的翻译准确度,增强机器翻译模型的鲁棒性。
技术领域
本申请涉及人工智能技术领域,特别是涉及一种机器翻译模型训练方法和装置、文本翻译方法和装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着经济全球化和人工智能技术的发展,机器翻译技术在诸多领域得到广泛应用,包括金融科技领域。其中,神经机器翻译(NMT)是采用神经网络来最大化机器翻译性能的技术,即使用双语或多语言的训练语料库训练神经网络,得到机器翻译模型,以用于对输入的源语言文本进行翻译,输出目标语言文本。
在对机器翻译模型训练时,需要对原始的训练语料进行分词处理,目的是将原始的训练语料切分成由多个子词组合成的子词序列,其中子词为翻译的基本单元,然后将分词处理后的训练语料用于训练机器翻译模型。相关技术中,分词处理的方法采用的是字节对编码(Byte Pair Encoding,BPE)方法,然而,通过该方法训练得到的机器翻译模型对有噪声文本的翻译准确度不高,机器翻译模型的鲁棒性较差。亟待一种能提高翻译准确度、增强模型鲁棒性的机器翻译模型训练方法。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高翻译准确度、增强模型鲁棒性的机器翻译模型训练方法和装置、文本翻译方法和装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种机器翻译模型训练方法。所述方法包括:
获取训练样本集;所述训练样本集包含源语言语料和所述源语言语料对应的目标语言语料;
采用第一预设算法对所述训练样本集进行第一分词处理,得到所述源语言语料对应的第一子词序列、以及所述目标语言语料对应的样本子词序列;
采用第二预设算法对所述源语言语料进行第二分词处理,得到所述源语言语料对应的多个第二子词序列;
将所述源语言语料中目标单词在所述第一子词序列中对应的第一子序列,与所述目标单词在多个所述第二子词序列中对应的第二子序列进行差异度比较,将差异度最大的第二子序列确定为所述目标单词对应的目标子序列;
在所述源语言语料对应的第一子词序列中,将所述目标单词对应的第一子序列替换为所述目标子序列,得到所述源语言语料对应的样本子词序列;
基于所述源语言语料对应的样本子词序列和所述目标语言语料对应的样本子词序列对机器翻译模型进行训练。
在其中一个实施例中,所述方法还包括:
基于预设采样规则,从所述源语言语料包含的单词中确定目标单词。
在其中一个实施例中,所述基于预设采样规则,从所述源语言语料包含的单词中确定目标单词,包括:
为所述源语言语料包含的每个单词分配随机数,各所述随机数符合均匀分布;
将小于预设阈值的随机数对应的单词,确定为目标单词。
在其中一个实施例中,所述将所述源语言语料中目标单词在所述第一子词序列中对应的第一子序列,与所述目标单词在多个所述第二子词序列中对应的第二子序列进行差异度比较,将差异度最大的第二子序列确定为所述目标单词对应的目标子序列,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210174302.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种山区路段电动车保护系统及方法
- 下一篇:生物信息处理方法、装置及系统