[发明专利]基于指针生成网络实现占位符消歧的蒙汉机器翻译方法有效

专利信息
申请号: 202011393623.1 申请日: 2020-12-03
公开(公告)号: CN112395892B 公开(公告)日: 2022-03-18
发明(设计)人: 苏依拉;程永坤;崔少东;张妍彤;仁庆道尔吉;石宝 申请(专利权)人: 内蒙古工业大学
主分类号: G06F40/58 分类号: G06F40/58;G06N3/04;G06N3/08
代理公司: 西安智大知识产权代理事务所 61215 代理人: 段俊涛
地址: 010080 内蒙古自治区呼*** 国省代码: 内蒙古;15
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 指针 生成 网络 实现 占位 符消歧 机器翻译 方法
【权利要求书】:

1.一种基于指针生成网络实现占位符消歧的蒙汉机器翻译方法,基于编码器-解码器架构,其特征在于,还包括辅助网络和骨干网络,所述辅助网络为每个输入源词汇位置生成一个二进制门,动态地选择要关注的词汇,所述骨干网络为带有门控机制K的注意力的指针生成网络;编码阶段,经编码器的词嵌入层,将源文编码成一个隐藏层状态,再由所述门控机制K决定来自当前状态的信息是流入还是被占位符替换,其中K={k(1),k(2),…,k(i),…k(T)},T为二进制门的数量,k(i)表示第i个二进制门,k(i)取值为1或0,k(i)=1时当前信息流入,k(i)=0则被占位符替换;解码阶段,利用指针生成网络复制源文能力和生成新词汇能力,搭配占位符上下文语境进行消歧,给出符合上下文语义的精准词义;针对占位符,借助上下文语境和扩充的词汇表来生成词汇表中不存在的情感色彩的词,进行多义词的词义精确或新词替换;

其中,所述辅助网络的输入源词汇关注程度输出用概率p(i)决定:

p(i)=sigmoid(Uh(i))

h(i)=LSTM(h(i-1),x(i))

其中,h(i)为编码器输入的第i个位置的隐藏状态,U为输入权重,h(i-1)是前一位置的隐藏状态,x(i)是输入的第i个向量;

概率p(i)控制门开放概率,并用于参数化伯努利分布,二进制门k(i)服从于伯努利分布生成样本:

k(i)~Bernoulli(p(i));

所述编码器和解码器均采用循环神经网络,编码器首先对输入源词汇做词向量嵌入,将词汇转换成向量形式,随后经过隐藏层将输入数据特征抽象成更高的特征层次;隐藏层将输入的源语言序列x={x(1),x(2),...,x(T)}编码为隐藏状态,在时间步t,隐藏状态ht与上一时刻的隐藏状态ht-1和当前输入向量xt有关,用函数g表达RNN隐藏层的变换:ht=g(xt,ht-1);

在各个隐藏层输出后,利用门控机制K取值为1或0决定来自当前状态的信息是否应流入,不能输入的用占位符进行替换,其余进行输入,进行注意力分布的计算;

编码器中出现的隐藏状态ht,解码器的t时刻隐藏状态st会参与注意力系数的计算,解码器隐藏状态st与编码器隐藏状态ht经过变换计算得出源文第i个词的注意力权重:

注意力分布:αt=softmax(xt)

其中,是t时刻第i个词的注意力权重,ht是t时刻编码器隐藏状态,st是t时刻解码器隐藏状态,w(a)是循环权重,v是权重矩阵,battn是偏置,注意力分布是输入源词汇的概率分布;

接着,利用注意力分布来进行编码器里隐藏层的加权求和构建上下文向量由此来计算在解码器的每个位置j的上下文向量:

其中,注意力权重值α(ij)是计算编码器隐藏状态和解码器隐藏状态的函数;

上下文向量被认为是当前步骤从源语言读取固定大小内容的表示,并且与解码器隐藏状态st连接,通过两个线性层进行馈送,生成词汇分布pvoc

pvoc=soft max(V′(V[st,c]+b)+b′)

其中,c是上下文向量,st解码器隐藏状态,[st,c]表示拼接,V,V′和b,b′均为可学习参数,pvoc是词汇表中源语言单词的概率表示,即经过softmax多分类对相应单词产生的概率分布;

解码器t时刻的权重pgen计算公式如下:

其中,bptr是标量,st是解码器t时刻隐藏状态,yt-1是解码器在t-1时刻的输出,c是上下文向量,都是权重矩阵,σ是sigmoid函数;

利用pgen对词汇分布和注意力分布进行加权平均,得到扩展后词汇表里词汇的各概率的分布:

其中,pgen决定从词汇表中生成的单词概率,1-pgen决定从源文中生成单词的概率,是第i个位置的注意力分布值,z(i)是词汇表中的词汇,z是占位符处的单词,pvoc(z)是词汇表,如果z是词汇表外词汇,则pvoc(z)为零;

将解码器先前时间步的注意力权重相加到一起得到覆盖向量Lt,用先前时间步的注意力权重决策来影响当前注意力权重决策,最终利用覆盖向量Lt来避免生成重复文本的问题,其中,αt为源语言词汇的注意力分布;

在最后阶段,注意力向量输入到softmax层,输出预测分布:

yt=softmax(w(s)ht);

其中y(t)是目标语言单词,w(s)是权重。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011393623.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top