[发明专利]面向神经机器翻译的位置编码方法及计算机存储介质有效
申请号: | 201910693637.6 | 申请日: | 2019-07-30 |
公开(公告)号: | CN110399619B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 徐小龙;柳林青;孙雁飞 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/42;G06N3/044;G06N3/0455;G06N3/0464;G06N3/048;G06N3/084 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210046 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 神经 机器翻译 位置 编码 方法 计算机 存储 介质 | ||
本发明公开了一种面向神经机器翻译的位置编码方法和计算机存储介质,方法包括以下步骤:1)将训练语料中的非重复词汇构成词典形成词汇空间矩阵,计算位置缩放系数向量矩阵和位置偏移量向量矩阵;2)生成词汇嵌入向量;3)从训练语料中抽取源语句向量矩阵,将其中包含的词汇嵌入向量与位置缩放系数向量矩阵逐元素相乘,再与位置偏移量向量矩阵逐元素相加;4)将结果输入到深度学习模型中进行正向传播,并计算得出模型损失;5)将模型损失通过反向传播更新参数;6)重复步骤2)至步骤5)直至所述深度学习模型收敛。本发明可以在不增加额外的模型训练时间的前提下,使目前主流的机器翻译模型实现更高的翻译精度。
技术领域
本发明涉及一种位置编码方法及计算机存储介质,特别是涉及一种面向神经机器翻译的位置编码方法及计算机存储介质。
背景技术
位置编码方法是为了将序列化的词汇数据以并行的方式输入并行化深度学习模型,同时又要在这些数据中体现原本词汇的序列特征,在这个过程中,我们可以使用向量串联、向量相乘、向量相加的办法,对词汇数据进行位置编码补偿,使这些数据的位置特征能够在深度学习模型的正向传播和误差逆传播过程中参与运算,使得最终的模型能够既兼顾词汇本身的特征,也能体现语料库的中各个词汇的位置特征。
目前主流的位置编码方法主要有三种:(1)向量串联方法:将词汇的嵌入向量与词汇的位置向量串联起来做为后续深度训练模型的输入表征。在具体的关系分类任务中,一个单词词汇的位置向量由它与两个待分类关系的词汇各自位置的距离有关。初始化一个位置矩阵,当前处理词汇与目标词汇之间的距离对应这个矩阵中不同的向量,即距离向量。向量串联方法包含不同的子方法,区别在于采用了不同的距离到对应向量的映射。(2)绝对位置偏移量方法:据词汇序列中不同位置的序号生成对应的位置向量,并将其各种不同句子中对应位置词汇的嵌入向量相加,做为后续深度训练模型的输入表征。需要说明的是,这个方法要求位置向量维度与词汇的嵌入向量维度相同,否则无法进行加法运算,同时嵌入向量的值也是固定的,而非可训练的。不同的子方法反应不同的位置序号到位置向量的映射函数,这个映射函数为深度学习模型的超参数之一。这种位置编码方法的主要思路是用固定的、可区分彼此的位置编码向量将词汇序列中的词汇彼此区别开来,由于向量参数值在训练过程中不可调整,因此理论上来说其对于模型的优化有限,但试验发现其这种方法的效果在某些特定条件下反而优于其他方法。(3)可训练的位置偏移量方法:可训练的位置偏移量方法与绝对位置偏移量方法之间的不同在于相加的偏移量在数值上是可以通过误差逆传播方式将最终的翻译误差反馈回来进行更新的,即设置这种偏移量的主要思路是计算出与特定语料库相匹配的各个位置的位置编码,其主要特征是“相匹配”的,而非“可区分的”。
上述三种位置编码方法主要的设计思路为“强调位置的重要性是有固定而有区别的,并将这种重要性体现在词汇的编码中”,其中重点在于位置编码对词汇编码的补偿作用,这种补偿可以是正补偿也可以是负补偿,即补偿后的词汇编码在数值上可以增大也可以缩小。位置编码只作为词汇编码的附属性质,针对不同的训练语料,生成不同的位置编码。在未添加位置编码深度学习模型中,由于用于训练的语料库只是对应的语言体系下所生成的全部语言文字作品的真子集,不能够体现对应语言体系的所有规则,因此训练出来的深度模型中的词汇编码与训练语料高度相关,训练模型的鲁棒性不高,表现在测试集的准确性不高且数值不稳定。
发明内容
发明目的:本发明要解决的技术问题是提供一种面向神经机器翻译的位置编码方法及计算机存储介质,解决了现有方法在深度学习中训练模型的鲁棒性不高、准确性不高的不足,在不增加额外的模型训练时间、训练参数量和模型结构复杂度的前提下,有效地提高了训练模型的鲁棒性。
技术方案:本发明所述的面向神经机器翻译的位置编码方法,包括以下步骤:
(1)将训练语料中的非重复词汇构成词典,并对其初始化,形成词汇空间矩阵,随机初始化位置缩放系数和位置偏移量,形成位置缩放系数向量矩阵和位置偏移量向量矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910693637.6/2.html,转载请声明来源钻瓜专利网。