[发明专利]非自回归翻译模型的训练方法及其装置有效
| 申请号: | 202111353568.8 | 申请日: | 2021-11-16 | 
| 公开(公告)号: | CN114282552B | 公开(公告)日: | 2022-11-04 | 
| 发明(设计)人: | 王曦阳;张睿卿;何中军;李芝;吴华 | 申请(专利权)人: | 北京百度网讯科技有限公司 | 
| 主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/30;G06N3/04;G06N3/08 | 
| 代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 单冠飞 | 
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 回归 翻译 模型 训练 方法 及其 装置 | ||
本公开提供了非自回归翻译模型的训练方法及其装置,涉及人工智能技术领域中的深度学习和自然语言处理领域。具体实现方案为:获取第一源语言文本、第一源语言文本对应的第一目标语言文本和第一目标语言文本的第一目标长度,将第一源语言文本输入至待训练的非自回归翻译模型中,以生成第一目标语言预测文本和第一预测长度,其中,待训练的非自回归翻译模型的初始化参数是根据预训练翻译模型的参数确定的,根据第一目标语言文本、第一目标语言预测文本、第一目标长度和第一预测长度,对待训练的非自回归翻译模型进行训练,得到非自回归翻译模型,可以减少训练时间,避免局部最优,提升模型的训练效果。
技术领域
本公开涉及人工智能技术领域中的深度学习和自然语言处理领域,尤其涉及一种非自回归翻译模型的训练方法及其装置。
背景技术
目前,随着人工智能的发展通过应用程序或智能终端进行不同语种间的翻译转换已经普遍存在,在机器翻译中,目前广泛采用的模型架构是编码器-解码器结构,其做法是先对源端语言通过编码器进行编码,将文本信息转换为向量信息,然后根据编码得到的向量信息,再使用解码器将其翻译为目标端的文本。在“编码器-解码器”结构中,编码器和解码器的性能决定了翻译的质量,为提高翻译速度采用非自回归的解码方式进行并行解码即一次翻译过程可以同时翻译出多个词。
但是非自回归翻译模型在数据量较少的稀缺资源语种上难以训练出较好的模型效果,模型在训练过程中很容易陷入局部最优。
发明内容
提供了一种非自回归翻译模型的训练方法及其装置。
根据第一方面,提供了一种非自回归翻译模型的训练方法,包括:获取第一源语言文本、所述第一源语言文本对应的第一目标语言文本和所述第一目标语言文本的第一目标长度;将所述第一源语言文本输入至待训练的非自回归翻译模型中,以生成第一目标语言预测文本和第一预测长度,其中,所述待训练的非自回归翻译模型的初始化参数是根据预训练翻译模型的参数确定的,所述预训练翻译模型的训练数据为第一混合文本和第二混合文本,所述第一混合文本中包括依次排列的第二源语言文本、分隔符和第二目标语言文本,所述第二混合文本中包括依次排列的所述第二源语言文本对应的第三目标语言文本、所述分隔符和所述第二目标语言文本对应的第三源语言文本;以及根据所述第一目标语言文本、所述第一目标语言预测文本、所述第一目标长度和所述第一预测长度,对所述待训练的非自回归翻译模型进行训练,得到非自回归翻译模型。
根据第二方面,提供了一种非自回归翻译模型的训练装置,包括:第一获取模块,用于获取第一源语言文本、所述第一源语言文本对应的第一目标语言文本和所述第一目标语言文本的第一目标长度;第一生成模块,用于将所述第一源语言文本输入至待训练的非自回归翻译模型中,以生成第一目标语言预测文本和第一预测长度,其中,所述待训练的非自回归翻译模型的初始化参数是根据预训练翻译模型的参数确定的,所述预训练翻译模型的训练数据为第一混合文本和第二混合文本,所述第一混合文本中包括依次排列的第二源语言文本、分隔符和第二目标语言文本,所述第二混合文本中包括依次排列的所述第二源语言文本对应的第三目标语言文本、所述分隔符和所述第二目标语言文本对应的第三源语言文本;以及第一训练模块,用于根据所述第一目标语言文本、所述第一目标语言预测文本、所述第一目标长度和所述第一预测长度,对所述待训练的非自回归翻译模型进行训练,得到非自回归翻译模型。
根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开第一方面所述的非自回归翻译模型的训练方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据本公开第一方面所述的非自回归翻译模型的训练方法。
根据第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据本公开第一方面所述非自回归翻译模型的训练方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111353568.8/2.html,转载请声明来源钻瓜专利网。





