[发明专利]融合多语编码信息的神经机器翻译方法有效

专利信息
申请号: 201710575907.4 申请日: 2017-07-14
公开(公告)号: CN107357789B 公开(公告)日: 2020-10-02
发明(设计)人: 朱聪慧;曹海龙;赵铁军;刘笛;杨沐昀;郑德权;徐冰 申请(专利权)人: 哈尔滨工业大学
主分类号: G06F40/58 分类号: G06F40/58;G06F40/289;G06F40/247
代理公司: 哈尔滨华夏松花江知识产权代理有限公司 23213 代理人: 岳昕
地址: 150001 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要: 融合多语编码信息的神经机器翻译方法,本发明涉及神经机器翻译方法。本发明的目的是为了解决现有技术翻译准确率低的问题。过程为:一,得到每种语言各自对应的子字符号序列,建立dic_s1,dic_s2和dic_t;二、将词向量输入NMT模型训练,根据初值训练更新词向量,直至NMT模型的bleu值提升1‑3个点;三、得到ctx_s1和ctx_s2;四、得到融合结果;五、得到C;六、将t+1时刻qt+1按公式计算得到目标语言序列第t+1时刻的单词y′t+1的概率分布pt+1,根据pt+1采样出t+1时刻的目标单词y′t+1,直至解码出句子结束标记,解码翻译结束。本发明用于机器翻译领域。
搜索关键词: 融合 编码 信息 神经 机器翻译 方法
【主权项】:
融合多语编码信息的神经机器翻译方法,其特征在于:所述方法具体过程为:步骤一,使用统计机器翻译平台Moses提供的分词脚本tokenizer.perl对待处理三语平行语料进行分词,然后使用BPE将分词处理后的待处理三语平行语料表征为每种语言各自对应的子字符号序列;使用Nematus平台下的build_dictionary.py脚本建立源端输入语言词典dic_s1,dic_s2和目标语言词典dic_t;步骤二、基于源端输入语言词典dic_s1对步骤一得到的子字符号序列X=(x1,x2,...,xT)中每一个词xi使用word embedding分布式方法表示,即用一定维度的向量表示词,wi∈R|V|,wi=[n1,n2,n3,...,nm],nj∈实数;i=1,2,...,T;1≤j≤m,wi为词向量;所述word embedding为词嵌入;其中X=(x1,x2,...,xT)为使用BPE将分词处理后的待处理三语平行语料中的一语表征后的子字符号序列;R为实数,V为源端输入语言词典dic_s1的单词数,m为词向量的维度,取值为正整数;T为句子的词的个数,取值为正整数;将使用词向量表示的词组成的句子W=(w1,w2,...,wT)输入NMT模型训练,随机初始化W初值,根据初值训练更新W,直至NMT模型的bleu值提升1‑3个点;基于源端输入语言词典dic_s2对步骤一得到的子字符号序列Z=(z1,z2,...,zT′)中每一个词Zk使用word embedding分布式方法表示,即用一定维度的向量表示词,wk′∈R|V′|,wk′=[l1,l2,l3,...,lm′],ll′∈实数;k=1,2,...,T′;1≤l′≤m′,wk′为词向量;Z=(z1,z2,...,zT′)为使用BPE将分词处理后的待处理三语平行语料中的一语表征后的子字符号序列;R为实数,V′为源端输入语言词表dic_s2的单词数,m′为词向量的维度,取值为正整数;T′为句子的词的个数,取值为正整数;将使用词向量表示的词组成的句子W′=(w1′,w2′,...,w′T′)输入NMT模型训练,随机初始化W′初值,根据初值训练更新W′,直至NMT模型的bleu值提升1‑3个点;步骤三、基于门限循环单元GRU构成循环神经网络组成的双向循环编码器,双向循环编码器对步骤二得到的词向量W=(w1,w2,...,wT)和词向量W′=(w1′,w2′,...,w′T′)进行编码,得到W=(w1,w2,...,wT)的编码向量ctx_s1和W′=(w1′,w2′,...,w′T′)的编码向量ctx_s2;步骤四、将编码向量ctx_s1和编码向量ctx_s2进行融合,得到融合结果context=[ctx_s1;ctx_s2];步骤五、将得到的融合结果context=[ctx_s1;ctx_s2]经过attention层按C=Φ(Wc*context+Wh*q)计算得到C;所述Attention为注意力层;C为融合后的编码信息;其中Φ表示函数变换,Wc表示context对应的权值参数,q表示解码器的隐层状态,Wh表示q对应的权值参数,*为乘号;步骤六、每个时刻t,按照公式qt+1=φ(C,yt′,qt)计算得到t+1时刻解码器的隐层状态信息qt+1,基于目标语言词典dic_t,并根据t+1时刻解码器的隐层状态信息qt+1,使用公式p(y′t+1|y′<t+1,X,Z)=softmax(Wsqt+1+bl),计算得到第t+1时刻的单词y′t+1的概率分布pt+1,根据pt+1采样出t+1时刻的目标单词y′t+1,直至解码出句子结束标记,解码翻译结束;其中y′t+1为t+1时刻的NMT模型训练得到的目标词;Ws为网络权值参数,qt+1为t+1时刻的解码器的隐层状态信息,bl为网络偏置信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710575907.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top