[发明专利]基于G-Transformer的机器翻译方法研究在审
申请号: | 202110421837.3 | 申请日: | 2021-04-20 |
公开(公告)号: | CN113051939A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 艾山·吾买尔;韩越;早克热·卡德尔;刘婉月;宜年;张大任;汪烈军;买合木提·买买提;吐尔根·依布拉音;刘胜全 | 申请(专利权)人: | 新疆大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/126;G06N3/04 |
代理公司: | 北京汇捷知识产权代理事务所(普通合伙) 11531 | 代理人: | 盛君梅 |
地址: | 830000 新疆维*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 transformer 机器翻译 方法 研究 | ||
本发明公开了一种基于G‑Transformer的机器翻译方法研究,涉及神经机器翻译领域,该基于G‑Transformer的机器翻译方法研究借助循环神经网络GRU和完全的自注意力网络Tranformer进行设计,循环神经网络GRU负责对用于机器翻译的词向量进行重编码,利用循环神经网络的特性输出考虑了句子上下文信息的向量,完全的自注意力网络Tranformer负责对前者生成的词向量进行再编码,从而实现后续翻译。
技术领域
本发明涉及神经机器翻译领域,具体来说涉及一种基于G-Transformer的机器翻译方法研究。
背景技术
现有的基于神经网络的机器翻译模型,均是使用随机初始化的向量作为输入,但一个词在不同的句子中所表达的含义不尽相同。现有的基于神经网络的机器翻译模型无法在翻译过程中考虑单词在句子中的上下文信息,不能提出使用循环神经网络对初始词向量进行编码,不能得到考虑了句子上下文信息的向量,更加无法将该向量作为神经机器翻译模型的输入,所以翻译性能较差。
发明内容
本发明主要解决的技术问题是提供一种基于G-Transformer的机器翻译方法研究,借助循环神经网络GRU和完全的自注意力网络Tranformer研发。前者负责对用于机器翻译的词向量进行重编码,利用循环神经网络的特性输出考虑了句子上下文信息的向量。后者负责对前者生成的词向量进行再编码,从而实现后续翻译。
为实现上述目的,本发明提供以下的技术方案:
该基于G-Transformer的机器翻译方法研究借助循环神经网络GRU和完全的自注意力网络Tranformer进行设计,循环神经网络GRU负责对用于机器翻译的词向量进行重编码,利用循环神经网络的特性输出考虑了句子上下文信息的向量,完全的自注意力网络Tranformer负责对前者生成的词向量进行再编码,从而实现后续翻译。
该基于G-Transformer的机器翻译方法研究建模过程包括如下步骤:
(1)模型由三个部分组成,用于将一种语言(源语言)翻译成另一种语言(目标语言);
(2)第一部分是一个循环神经网络GRU,主要是为词向量融入句子信息,使得输入机器翻译模型的词向量不再孤立。它的输入是表示每个单词语义信息的词向量。输出是与输入对应的融入了句子信息的向量。
第二部分是神经网络翻译模型Transformer的编码器,主要是对机器翻译中的源语言进行编码。它的输入是第一部分的输出,输出是对句子进行编码后的句子向量。
第三部分是神经网络翻译模型Transformer的解码器,主要是对编码器生成的向量进行解码生成目标语言。它的输入是第二部分的输出;
(3)第一部分的输出是第二部分的输入,第二部分的输出是第三部分的输入;
(4)神经网络翻译模型操作过程:
A准备语料:准备用于机器翻译模型训练的平行语料,并对其进行预处理。
B模型训练:将源语言的语料输入循环神经网络,将循环神经网络的输出输入Transformer编码器,将Transformer编码器的输出输入Transformer解码器。
C模型评估:使用测试集对训练的模型进行评价。
采用以上技术方案的有益效果是:
1.加快模型的收敛速度,使模型尽早达到较优性能;
2.融入了上下文信息的词向量表示对机器翻译模型的性能带来了显著提升。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的描述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆大学,未经新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110421837.3/2.html,转载请声明来源钻瓜专利网。
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法