[发明专利]一种基于局部短语句法增强机制的神经机器翻译方法在审
申请号: | 202111314481.X | 申请日: | 2021-11-08 |
公开(公告)号: | CN114021590A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 冯冲;张天夫;惠子杨;王黎超 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/04 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 局部 短语 句法 增强 机制 神经 机器翻译 方法 | ||
1.一种基于局部短语句法增强机制的神经机器翻译方法,其特征在于,包括以下步骤:
步骤1:构建各个元素的局部短语序列:
在标准注意力机制基础上,进一步增加局部短语偏置:
其中,Pi,j表示局部短语偏置矩阵;Att()表示注意力机制;Qi表示单词i的查询query;Kj表示单词j的键值key;xi表示单词i的词嵌入向量;xj表示单词j的词嵌入向量;WQ表示查询query权重矩阵;WK表示键值key权重矩阵;T表示对矩阵做转置操作,dk表示向量维度;
步骤2:通过局部短语序列,构建相对短语位置向量矩阵;
步骤3:识别冗余头,根据句法注意力的平均权重,动态确定训练过程中每个头的重要性;
步骤4:使用基于局部短语的句法增强的注意力机制代替原本的冗余头,激活其潜在能力。
2.如权利要求1所述的一种基于局部短语句法增强机制的神经机器翻译方法,其特征在于,局部短语满足规则如下:
规则1:给定一个m层的成分树,以及单词xi和它的祖先节点序列其中ast0表示第0层祖先节点,表示单词xi上一层的祖先节点,layer(xi)表示单词xi所在层数,则认为其局部短语local_phrase(xi)包括属于其最低层多后代祖先节点astlayer(xi)-m的单词,其中0<=m<=layer(xi);
规则2:如果单词xi包含在单词xj的局部短语序列中,则认为xi的局部短语序列中同样包含xj。
3.如权利要求1所述的一种基于局部短语句法增强机制的神经机器翻译方法,其特征在于,步骤2包括以下步骤:
为获取局部短语偏置向量p,首先要从成分树中抽取相对短语位置矩阵RP;
给定一个RP∈Ru*u的矩阵,其中RP表示相对短语位置矩阵、u表示矩阵维度,每一个元素代表单词xi和单词xj之间的相对句法距离;
对于不在同一相对短语序列中的词对,将其相对距离设置为正无穷;对于处于同一相对短语序列中的词对,根据其相对短语层数设置其相对短语位置距离为其层数之差,由此得到矩阵RP;
将最大相对短语距离设置为确定值k,并将2k+1个不同的标签用于相对短语位置向量,将矩阵RP转换为相应的向量矩阵M∈Ru*u*dh,其中:
Mij=wclip(j-i,k)
clip(x,k)=max(-k,min(k,x))
其中,Mij表示相应的向量矩阵,clip(x,k)表示取[-k,k]内的最大值,超出范围则取边界值;
之后,学习到相对短语距离表示w=(w-k,...,wk),其中wi∈Rdh,Rdh表示dh维度的向量空间;
得到矩阵M之后,构建一个前馈网络来将相对局部短语位置向量Mij转化为相对局部短语位置隐状态;通过线性投影UP∈Rdh*1将隐状态映射为局部短语偏置矩阵P中的负标量Pij,即矩阵P的每一元素:
P=-|tanh(WPM+bP)UP|
其中,WP∈Rdh*dh和bP∈Rdh均为模型的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111314481.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种减反射结构体及其制作方法、光学器件
- 下一篇:掘进系统