[发明专利]一种基于翻译模板的神经机器翻译方法有效
| 申请号: | 202110796282.0 | 申请日: | 2021-07-14 |
| 公开(公告)号: | CN113408307B | 公开(公告)日: | 2022-06-14 |
| 发明(设计)人: | 冯冲;尚伟 | 申请(专利权)人: | 北京理工大学 |
| 主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/47;G06F40/44;G06F16/33;G06N3/04;G06N3/08 |
| 代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
| 地址: | 100081 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 翻译 模板 神经 机器翻译 方法 | ||
1.一种基于翻译模板的神经机器翻译方法,其特征在于,包括以下步骤:
步骤1:基于最长名词短语的翻译模板构建方法,构建翻译模板库;
步骤1.1:利用成分句法树分析方法,将平行句对上构建双语句法树;
步骤1.2:识别并抽取最长名词短语,构建翻译模板;
其中,所述最长名词短语,是指不被其它任何名词短语嵌套的名词短语;将包含普通名词、固有名词、时间名词、人称代词的最长名词短语作为模板变量,剩余部分作为模板常量构建翻译模板;
所述翻译模板包含模板常量和模板变量;模板常量指模板中固定不变的词,表示源句的句子结构信息;模板变量是一类词或名词短语,是模板中的泛化信息;模板常量在模板匹配中作为被检索信息,在翻译过程中作为译文生成的约束信息;翻译模板变量在翻译过程中,根据源句信息将翻译模板变量进行替换,得到对应的译文;
步骤1.3:利用翻译模板长度和模板抽象度筛选翻译模板,保留符合设定长度阈值和抽象度阈值的翻译模板;
步骤2:构建多策略模板匹配算法,检索高相似的翻译模板,包括以下步骤:
步骤2.1:利用步骤1描述的翻译模板构建算法处理待翻译句子,获得待匹配模板;
步骤2.2:利用基于词命中率的粗粒度匹配策略,从步骤1中构建的翻译模板库中获得候选集;
其中,基于词命中率的粗粒度匹配策略定义如下:
粗粒度匹配策略利用待匹配模板与模板库中的源端翻译模板的词共现频率来衡量两者之间的相似程度,相似函数FM定义如下:
其中,word(·)表示字符串中含有的词;Tmsrc表示匹配到的源端翻译模板;X′表示将待翻译句子利用步骤1获得的待匹配模板;len(·)表示待匹配模板的长度;
步骤2.3:利用基于字符串相似度的细粒度匹配策略,在候选集上进行匹配;
其中,基于字符串相似度的细粒度匹配策略定义如下:
细粒度匹配策略,采用莱文斯坦编辑距离衡量候选集中每个模板与被检索目标的相似度;
莱文斯坦编辑距离,是指将一个模板通过增加、插入、删除操作转变为另一个模板的最小编辑次数;细粒度匹配相似函数Lev定义如下:
其中,表示将待匹配模板转换为模板库中匹配到的源端翻译模板所需要的最小编辑距离;Scoretm表示待匹配模板X′与从模板库中匹配到的源端翻译模板X′tm之间的模糊匹配分数;i和j分别表示X′和X′tm中的第i和第j个位置;
步骤3:构建基于模板的神经机器翻译模型,将翻译模板引入神经机器翻译中,包括以下步骤:
步骤3.1:在编码端,增加额外的模板编码器,对检索到的目标端翻译模板进行编码;
其中,所述模板编码器如下:
模板编码器采用Transformer编码器结构,由若干相同的子层堆叠而成,每个子层包括自注意层子层和前馈神经网络子层;所述模板编码器与原Transformer编码器具有相同的结构;
模板编码器与源编码器在编码过程中相互独立,不存在两种信息在表示过程中相互交互与融合的情况,最终得到源句和目标端翻译模板在高维语义空间中的向量表示;
源编码器和目标模板编码器的编码表示如下所示:
Hs=Encsrc(X,θsrc) (4)
其中,Encsrc表示源句编码器;X表示待翻译句子;Enctm表示模板编码器;θsrc和θtm分别表示源句编码器和模板编码器的参数,源句编码器和模板编码器参数不共享;Hs表示源句编码器对源句编码得到的包含源句信息的向量表示,表示模板编码器对目标端翻译模板编码得到的包含目标端翻译模板信息的向量表示;Tmtgt表示匹配到的目标端翻译模板;
步骤3.2:在解码端,增加模板编码-解码注意力子层,将模板知识引入解码器中引导和约束模型的解码过程,从而获得高质量的译文;
其中,所述解码器如下:
在Transformer解码器的基础上,加入模板编码-解码注意力子层;新的解码器包含四个子层:掩码多头注意力子层、模板编码-解码注意力子层、源编码-解码注意力子层和前馈神经网络子层;
将模板编码-解码注意力子层放于源编码-解码注意力子层和掩码多头注意力子层之间,使得已生成的译文序列更早地与目标端翻译模板的信息进行交互和融合;
解码器生成译文的过程如下所示:
P(yt|x,Tmtgt,y<t;θ)∝exp(HdW) (7)
其中,Hd表示解码器通过对源编码器和模板编码器生成的上下文向量进行解码获得的包含译文信息的向量表示;DEC(·)表示解码器;y表示模型生成的译文序列;t表示当前解码的时间步;yt表示当前时间步生成的目标词;θ表示模型参数;P(·)表示译文生成的概率函数;x表示待翻译句子;Tmtgt表示目标端翻译模板;W表示模型全连接层的权重;exp(·)表示生成当前词的概率函数;
步骤4:采用两阶段的模型训练策略,训练基于模板的神经机器翻译模型;
步骤4.1:将训练数据集分为两个部分:基础训练集和微调训练集;
其中,基础训练集的功能包含两个:一是构建翻译模板库,二是训练模型;基础数据集所对应的目标端翻译模板直接从对应参考中抽取获得,与源句完全对应;
微调数据集中所对应的目标端翻译模板通过步骤2描述的多策略模板匹配方法检索到对应的目标端翻译模板;
步骤4.2:利用两阶段的模型训练策略,获得基于模板的神经机器翻译模型;
步骤4.2.1:利用基础数据集训练模型,不断更新迭代模型参数,使得模型能够捕获目标端翻译模板知识;
步骤4.2.2:利用微调数据集训练对基础模型进行重新训练,更新迭代模型参数,利用这些通过模板匹配筛选后的数据更新迭代模型参数,提高模型的鲁棒性;
步骤5:利用训练模型的翻译神经模型,对匹配到高相似翻译模板的句子进行翻译。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110796282.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多峰频谱中矢量拟合的方法
- 下一篇:平板拖把挤水方法





