[发明专利]一种基于胶囊自-导协同注意力机制的视觉问答方法在审

申请号：	202110778207.1	申请日：	2021-07-09
公开（公告）号：	CN113515615A	公开（公告）日：	2021-10-19
发明（设计）人：	浦俊;韩亚洪	申请（专利权）人：	天津大学
主分类号：	G06F16/332	分类号：	G06F16/332;G06K9/62;G06N3/04;G06N3/08;G06N20/00;G06F16/33;G06F16/583
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	李素兰
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于胶囊协同注意力机制视觉问答方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于胶囊自-导协同注意力机制的视觉问答方法，其特征在于，该流程具体包括以下步骤：

步骤1，从互联网上下载图像数据，针对每个图像提出问题并给出答案，以此形成图像，问答对，构造视觉问答数据集；

步骤2，对图像数据进行预处理，然后由检测区域中的图像数据提取图像数据的平均池化卷积特征作为物体特征；该步骤具体包括：针对图像数据，对图像中能检测到的物体的概率设置置信度阈值，将输入图像特征集表示为m表示物体的数量，d_x表示在X这个集合里每个特征的维度；

步骤3，对文本数据进行预处理，然后提取文本数据的深度特征，具体处理如下：

所述预处理具体包括：对文本数据进行去分隔词处理、词汇转换成小写、句子裁剪；

构成问题中的单词被送入一个300维的GloVe词嵌入，将词嵌入再送入含有d_y个隐藏单元的单层LSTM网络，提取单层LSTM网络的最后一个隐状态的输出作为整个问题的深度特征；

步骤4，进行基于胶囊自-导协同注意力机制学习图像和问题文本的联合表征；该步骤具体包括以下处理：

构造两个组件即自注意力组件Self-Attention和引导注意力组件Guided-Attention；

给定一个输入图像集合特征多头注意力层捕捉成对的输入样本x_i，x_j之间的配对关系，然后计算出被关注的特征Z∈R^n×d；

接着，多头注意力层的输出特征被送入前馈神经网络，通过实现动态路由过程学习到联合表征；

步骤5，将该联合表征进行进一步多模态融合过程，最终得到预测的答案。

2.如权利要求1所述的一种基于胶囊自-导协同注意力机制的视觉问答方法，其特征在于，所述实现动态路由过程的具体处理包括：

初始化映射矩阵W_x和W_y，获往和y_p，即

y_p＝W_y·y

其中，表示映射后的图像特征向量，y_p表示映射后的问题文本特征向量，y表示问题的文本特征向量，n表示输入图像特征集X中的元素个数，x_i表示输入图像特征集X里的第i个元素，即第i个图像特征，定示映射后的第i个图像特征，y表示问题的文本特征向量，y_p表示映射后的文本特征向量；

分别对映射后的问题文本向量和图像特征向量使用自注意力机制，即

y_p＝SelfAttention(y_p)

其中，SelfAttention()表示自注意力函数，

用映射后的问题文本向量得到胶囊的输出的初始化向量v₀，即

v₀＝y_p

其中，v₀表示胶囊输出的初始值；

进入循环体，设循环次数为N，t∈[1，N]；

令t＝0；

计算耦合系数c_i＝softmax(b_i)；

其中，b_i表示内部变量；

计算加权求和后的图像特征其中，表示映射后的图像特征向量，c_i表示在参考向量y的引导下，特征向量集中每个向量x_i的权重参数，由模型习得并由动态路由协同注意力算法更新，n表示输入的图像特征集X中的元素个数；

将此时胶囊的输出与加权求和后的图像特征送入引导注意力组件，以此来更新胶囊下一次的输出v_t表示在路由协同注意力算法中胶囊的输出，即，参考向量集合和特征向量的联合表示，t表示当前的迭代次数；

更新内部变量

结束循环体，获得胶囊最终的输出v；最终的v就表示参考向量和特征向量的联合表征。

3.如权利要求1所述的一种基于胶囊自-导协同注意力机制的视觉问答方法，其特征在于，所述步骤5具体包括以下步骤：

5.1、输入图像X和Y的联合分布[X，Y]^(t)，；将其拆分成两部分X^(t)和Y^(t)；

5.2、将这两部分分别送入两层的多层感知机(Multi-layer Perceptron，简称MLP)，来分别获得各自的有效特征x_attd和y_attd：

α＝softmax(MLP(X^(t)))

β＝softmax(MLP(Y^(t)))

其中，X^(t)、Y^(t)表示输入图像X和Y的联合分布根据路由过程的迭代次数拆分出来的两部分结果，t表示路由过程的迭代次数，MLP()表示多层感知函数，X^(t)和Y^(t)表示图像和问题互相融合对方冗余信息的特征集oftmax()表示激活函数，表示Y^(t)中的第i个元素，和分别是X^(t)、Y^(t)中的第i个元素，计算过程中属于中间变量，最终的目的是计算出各自的有效特征x_attd和y_attd，α_i和β_i分别表示对两种特征进行加权求和时的权重，是获得最终结果的中间参数；

5.3、再采用线性模型来融合两个特征，融合后的有效联合分布由以下表达式计算得到：

其中，W_{x_attd}和W_{y_attd}表示参考向量和特征向量集这两个线性投影矩阵，z表示融合后的有效联合分布特征，LayerNorm()表示适用于RNN等时序网络的归一化方法，分别表示W_x和W_y两个矩阵的转置；

融合后的有效联合分布特征z被送入一个sigmoid函数用以投影成一个向量z_proj∈R^K，其中K表示训练集中最频繁答案的个数，使用Adam优化器进行训练优化；

训练过程中，设置的损失函数loss表达式如下：

其中，p_i表示第i类的概率分布。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学，未经天津大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110778207.1/1.html，转载请声明来源钻瓜专利网。