[发明专利]一种用于构建神经机器翻译模型建模单元的输入编码方法在审

专利信息
申请号: 202110531410.9 申请日: 2021-05-18
公开(公告)号: CN113392622A 公开(公告)日: 2021-09-14
发明(设计)人: 袁仲达;滕俊平 申请(专利权)人: 南京汉智文科技有限公司
主分类号: G06F40/126 分类号: G06F40/126;G06F40/284;G06F40/289;G06F40/30;G06F40/58;G06N3/04;G06N3/08
代理公司: 苏州言思嘉信专利代理事务所(普通合伙) 32385 代理人: 叶晓龙
地址: 210032 江苏省南京市中国(江苏)*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 构建 神经 机器翻译 模型 建模 单元 输入 编码 方法
【说明书】:

发明公开了一种用于构建神经机器翻译模型建模单元的输入编码方法,基于带注意力机制的编码器-解码器结构,涉及神经机器翻译处理没有明确词语边界语言的技术领域,其特征在于,对翻译模型碰到集内词和集外词分别进行处理,采用完全不同的编码方式进行处理。对于集内词直接通过查询词语向量表得到词语表示,对于集外词,将集外词所在句子全部拆分成相应的字符序列,通过双向行卷积模块从字符序列中自动合成词语信息,并将合成的词语信息作为神经翻译机器编码器的后续模块输入。

技术领域

本发明属于机器翻译技术领域,特别涉及一种构建神经机器翻译模型建模单元的字/词混合序列输入编码方法。

背景技术

通常带注意力机制的神经机器翻译模型以词语为建模单元,利用一个神经网络完成从源语言到目标语言的转换,其在编码器和解码器端各需要维护一个词典(常用词集合),分别用来对源语言和目标语言词语进行索引。由于资源限制,词典只能包含有限数量,不能无线扩充。对于词典里没有的词,也称之为集外词,通常用“UNK”(unknown words)表示。集外词的出现,会导致翻译结果的可读性大大降低,这就是神经翻译模型的未登录问题。如何解决未登录问题,直接影响到神经机器翻译模型的翻译效果。

发明内容

为了克服上述现有技术的缺点,本发明的目的在于提供一种用于构建神经机器翻译系统输入单元的字/词混合序列编码方法,对翻译模型碰到集内词和集外词分别进行处理,采用完全不同的编码方式进行处理。对于集内词直接通过查询词语向量表得到词语表示,对于集外词,将集外词所在句子全部拆分成相应的字符序列,通过双向行卷积模块从字符序列中自动合成词语信息,并将合成的词语信息作为神经翻译机器编码器的后续模块输入。本编码方法不仅能很好的解决神经机器翻译模型的未登录词问题,还可以有效地处理没有明确词语边界语言(如:中文,日语等)的输入单元建模问题。

实现上述目的本发明的技术方案为,一种用于构建神经机器翻译模型建模单元的输入编码方法,基于编码器-解码器架构,所述编码器完全基于注意力机制,不再使用复杂的递归神经网络或卷积神经网络。所述编码器由六层相同的模块叠加而成,每个模块包含一个多头的自注意力网络和一个位置敏感的前向神经网络;所述解码器同样是由六层相同的模块叠加而成。解码器与RNNSearch模型中基于LSTM的解码器结构相同,利用一层LSTM网络读取编码器的隐层向量并进行目标词语序列的预测。

为了对本技术方案进行进一步补充,在编码器之前,对典型的带注意力机制的神经机器翻译模型以词语为基础的建模单元进行重建,建立基于字/词语混合序列的建模单元。

为了对本技术方案进行进一步补充,所述建模单元对输入的字/词语序列进行混合编码,生成的向量作为输入传给编码器。

为了对本技术方案进行进一步补充,基于字/词语混合序列的建模单元,需要进行包括以下步骤:

步骤1:需要额外的分词工具对训练语料进行分词预处理,建立有限大小的源语言和目标语言词集合;

步骤2:对于集内词和集外词采用不同的编码方法;

步骤3:对于集内词,直接通过查询词语向量表得到词语编码,即词语向量表示,将词语编码输入给神经机器翻译模型的编码器;

步骤4:对于出现的集外词,将集外词所在句子全部拆分成相应的字符序列,通过双向行卷积模块从字符序列中自动合成词语信息,并将合成的词语信息作为神经翻译机器编码器的后续模块输入,所述合成的词语信息作为词语编码,输入给编码器。

为了对本技术方案进行进一步补充,步骤4中从字符序列自动合成词语信息,包括以下步骤:

S1:对于字符序列,采用双向行卷积网络构建局部上下文向量;首先通过查表的方法,将序列中的每个字符分别转换成一个大小为d维的字符向量xi,类似于对集内词的处理,通过查表方法将词语直接转换成相应的词语向量;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京汉智文科技有限公司,未经南京汉智文科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110531410.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top