[发明专利]一种新型的多头注意力机制在审
申请号: | 201911335019.0 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111199288A | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 张福鑫;吴军;张伯政;樊昭磊;张述睿 | 申请(专利权)人: | 山东众阳健康科技集团有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 支文彬 |
地址: | 250001 山东省济南市市辖区*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 新型 多头 注意力 机制 | ||
一种新型的多头注意力机制,采用局部注意力的方法,与传统的多头注意力机制采用全局注意力方法相对比,降低了模型复杂度,运算过程中所有的矩阵大小均只与序列的长度成正比,相比较传统注意力机制中与序列平方成正比的矩阵,较大程度地降低了模型的存储空间消耗。在计算过程中,相比较Transformer‑XL中的解决方案,未对序列做分块处理,极大程度的保留了原序列的序列特征,使用softmax建立全局语义,相比较Transformer‑XL中使用跨块连接的方式,提升了模型的可并行程度。
技术领域
本发明涉及人工智能、机器学习与数据挖掘技术领域,具体涉及一种新型的多头注意力机制。
背景技术
随着人工智能技术,机器学习技术在自然语言处理领域中的不断融合,越来越多的深度学习技术被应用在了自然语言处理领域。其中尤以GPT、BERT、RoBERTa、ALBERT、XL-Net等以基于多头注意力机制的Transformer为基础的方法,赢得业界交口称赞,也越来越多的被应用在了自然语言处理等领域。
但是原有的多头注意力机制有其先天的劣势:首先,多头注意力机制的空间占用与处理的序列的长度的平方成正比,空间复杂度较高,在处理较长序列时会占用大量的计算空间;其次,注意力机制建立了序列中所有元素之间的关系,但在实际语言处理领域,并不需要对所有的序列中的所有元素全部建模,也就是,传统的多头注意力矩阵中的计算存在大量浪费,拖慢了序列处理的速度。
而传统的解决多头注意力机制空间复杂度的方式如Transformer-XL,将序列进行了分块处理,而序列的分割破坏了序列原有的连续性结构,破坏了原有数据的特征。且在块与块之间的连接结构部分,采用类似Transformer中Decoder的注意力机制进行处理,在模型的处理过程中增加了循环结构,降低了模型的可并行化程度,降低了模型的整体性能。
发明内容
本发明为了克服以上技术的不足,提供了一种降低了模型复杂度和模型的存储空间消耗的新型的多头注意力机制。
本发明克服其技术问题所采用的技术方案是:
一种新型的多头注意力机制,包括如下步骤:
a)将输入多头注意力机制的等维度的向量序列连接起来形成矩阵E,Ei,j表示矩阵中第i行第j列的数据,1≤i≤l,l为矩阵中的序列长度,1≤j≤d,d为向量序列的维度;
b)分别设置模型超参数k、h、m,k、h、m为正整数,k表示为多头注意力机制中建立上下文关系的长度范围,h表示为多头注意力机制中的头的数目,m为多头注意力机制中每个头处理的隐藏层的向量维度;
c)分别初始化参数矩阵集合及每个集合中有h个大小皆为d行m列的参数矩阵,为集合中的第i个矩阵,1≤i≤h,为集合中的第i个矩阵,1≤i≤h,为集合中的第i个矩阵,1≤i≤h;d)通过公式计算得到矩阵集合{Q1,Q2,Q3,……,Qh}、{K1,K2,K3,……,Kh}以及{V1,V2,V3,……,Vh},每个集合中均有h个大小均为l行m列的矩阵;
e)将{K1,K2,K3,……,Kh}以及{V1,V2,V3,……,Vh}集合中的各个矩阵前后各扩展k行,扩展部分值均为0,扩展后各矩阵大小为l+2k行m列,将{Q1,Q2,Q3,……,Qh}集合中的各个矩阵向后扩展2k行,扩展部分值均为0,扩展后各矩阵大小为l+2k行m列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东众阳健康科技集团有限公司,未经山东众阳健康科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911335019.0/2.html,转载请声明来源钻瓜专利网。