[发明专利]一种基于注意力机制的神经网络模型在审
申请号: | 202111534320.1 | 申请日: | 2021-12-15 |
公开(公告)号: | CN114462567A | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 陈龙;黄晓华;王文静;曾思睿;谢飞;管子玉;赵伟;屈乐;王和旭 | 申请(专利权)人: | 西安邮电大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06V10/764;G06V10/80;G06V10/82;G06K9/62;G06F16/35 |
代理公司: | 北京权智天下知识产权代理事务所(普通合伙) 11638 | 代理人: | 卢超 |
地址: | 710121 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 神经网络 模型 | ||
1.一种基于注意力机制的神经网络模型,其特征在于,包括位置编码与数据编码、多头自注意力机制(Muti-Head-Self Attention)、残差连接与层归一化(AddNorm)、前馈神经网络(feed forward)、卷积神经网络(CNN)这五个模块,残差连接与层归一化模块使用了两次,其他模块各使用一次;
其中:所述一种基于注意力机制的神经网络模型设置位置编码用来获取位置信息,并且可以同时输入整个数据,图像和文本的数据经过位置编码与数据编码后得到矩阵X,再由多头自注意力机制处理,得到每个词的上下文语义的向量表示,重要信息的权重增大,不重要的信息的权重减小,经过多头注意力机制后得到矩阵Z,再将矩阵Z进行残差连接操作,将Z矩阵与矩阵X进行相加,之后将得到的新矩阵Z1进行层归一化,然后前馈神经网络(feedforward)将Z1输入,进行升维,降维操作,学习到更多关于数据的信息,让信息再经过一个残差连接与层归一化(AddNorm)层,然后输出一个矩阵Z2,所述的矩阵Z2中包含着图像与文字的信息,再利用卷积神经网络(CNN)来进行图文信息的融合。
2.根据权利要求1所述的一种基于注意力机制的神经网络模型,其特征在于所述的位置编码,其公式如下:
其中pos代表位置,d代表数据编码的维度。
3.根据权利要求1所述的一种基于注意力机制的神经网络模型,其特征在于文本数据编码选择Embedding网络随机初始化的方式,图像数据编码利用ResNet50网络进行特征提取。
4.根据权利要求1所述的一种基于注意力机制的神经网络模型,其特征在于多头自注意力机制是由h个自注意力机制(Self-Attention)层并行组成,将文本与图像对作为输入,经过位置编码与数据编码之后得到的矩阵X经过第一个线性变换得到Query(Q)矩阵,X经过第二个线性变换得到Key(K) 矩阵,X经过第三个线性变换得到Value(V)矩阵,这三个线性变换的权重参数分别为Wq、Wk、Wv,他们相互独立,通过训练得到,所述的矩阵X经过三个线性变换后得到的Q、K、V矩阵。
5.据权利要求1和4所述的一种基于注意力机制的神经网络模型,其特征在于所述的Q、K、V矩阵经过以下公式进行计算,得到Attention矩阵:
其中d是K矩阵的第二个维度。
6.据权利要求1和4所述的一种基于注意力机制的神经网络模型,其特征在于所述的多头自注意力机制的h=8,h为“头数”,把Q、K、V三个矩阵按词向量维度切割8份,分成维度为h*词数*词向量维度/8,即对于Q、K、V都有8个与之对应的矩阵,将这8组Q、K、V矩阵分别进行自注意力机制网络处理之后,再将8个Attention矩阵拼接起来,经过一个线性层处理就能得到与输入矩阵X维度相同的矩阵Z,使用多头注意力机制来处理可以形成多个子空间,可以让模型去关注不同方面的信息。
7.据权利要求1所述的一种基于注意力机制的神经网络模型,其特征在于所述的前馈神经网络(feed forward)中包含两个线性变换以及一个Relu激活函数,公式如下表示:FFN(Z1)=max(0,Z1W1+a)W2+b。
8.据权利要求1所述的一种基于注意力机制的神经网络模型,其特征在于所述的卷积神经网络中采用三个卷积层、三个池化层以及全连接层。全连接层的最后一层是分类层,激活函数是Softmax,其它全连接层激活函数是Relu。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安邮电大学,未经西安邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111534320.1/1.html,转载请声明来源钻瓜专利网。