[发明专利]一种基于局部短语句法增强机制的神经机器翻译方法在审
申请号: | 202111314481.X | 申请日: | 2021-11-08 |
公开(公告)号: | CN114021590A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 冯冲;张天夫;惠子杨;王黎超 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06N3/04 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 局部 短语 句法 增强 机制 神经 机器翻译 方法 | ||
本发明涉及一种基于局部短语句法增强机制的神经机器翻译方法,属于自然语言处理机器翻译技术领域。首先构建各个元素的局部短语序列,通过局部短语序列构建相对短语位置向量矩阵。然后,识别冗余头,根据句法注意力的平均权重动态确定训练过程中每个头的重要性。最后使用基于局部短语的句法增强的注意力机制代替原本的冗余头,以激活其潜在能力。本发明能够准确地识别多头注意力机制中的重要头和冗余头,并通过基于局部短语的句法增强机制来对冗余头进行修改,所构建的自注意力网络可用于机器翻译研究,取得了良好的效果。
技术领域
本发明涉及一种在神经机器翻译中利用局部短语来激活多头自注意力机制中冗余头的技术,具体涉及一种基于局部短语句法增强机制的神经机器翻译方法,属于自然语言处理机器翻译技术领域。
背景技术
多头自注意力机制,基于其显著的并行计算能力及灵活的可扩展性,受到人们的关注。但是,最近一些研究表明,并不是所有的自注意力头都能够对神经网络起到正反馈,其中一部分自注意力头的贡献很小。因此,可以通过对其修剪,以提高整个网络的效果。
近年来,自注意力网络已经应用到各种NLP(Natural Language Processing,自然语言处理)任务中。它不像递归神经网络和卷积神经网络那样描述距离感知的依赖关系,而是捕捉词汇之间的短期和长期关系。自注意力网络通过平均加权,使网络更集中于特定的关系。在机器翻译领域表现良好的Transformer正是使用了多头注意力网络来结合不同子空间的注意力机制。有研究者指出,Transformer中编码器端的注意力头对网络的贡献不一,可以划分为重要的和冗余的注意力头,修剪冗余的注意力头不会严重影响性能。他们还假设重要头在翻译中的影响程度不同,包括句法、位置、以及基于稀有词的功能。
然而,这些方法是将多头自注意力网络作为一个整体考虑,忽略了自注意力头之间对于网络的不均衡贡献,并且对自注意力网络中多头的理解十分有限,没有系统地分析不同头的作用。
发明内容
本发明的目的是为了解决现有多头自注意力网络无法有效发挥冗余自注意力头作用的技术问题,创造性地提出一种基于局部短语句法增强机制的神经机器翻译方法。本方法能够反映出单词之间的相对短语位置,丰富了句法关系。
本发明采用的技术方案如下:
一种基于局部短语句法增强机制的神经机器翻译方法,包括以下步骤:
步骤1:构建各个元素的局部短语序列。
步骤2:通过局部短语序列,构建相对短语位置向量矩阵。
步骤3:识别冗余头,根据句法注意力的平均权重,动态确定训练过程中每个头的重要性。
步骤4:使用基于局部短语的句法增强的注意力机制代替原本的冗余头,以激活其潜在能力。
有益效果
本发明对比现有技术,具有以下有益效果及优点:
1.本发明通过局部短语的规则来构建成分句法树,并将其转换为可学习的相对局部短语位置矩阵,再作为偏置加入到注意力机制中。相比于基础Transformer模型的BLEU值,提升了平均0.95个百分点。
2.本发明能够反映句子的结构分布,可准确地表示出两个单词之间的层级关系,在整体结构上优于现有的依存树方法。
3.本发明通过句法增强的注意力机制,模拟了重要头的特定功能,相较于现有的改进自注意力方法,更为有效。
附图说明
图1为本发明方法的流程图。
图2为本发明中提取相对短语位置偏置的流程示意图。
具体实施方式
下面结合说明书附图对本发明方法做进一步阐述。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111314481.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种减反射结构体及其制作方法、光学器件
- 下一篇:掘进系统