[发明专利]一种基于图卷积的视觉问答增强方法有效
申请号: | 201910520136.8 | 申请日: | 2019-06-17 |
公开(公告)号: | CN110399518B | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 颜成钢;俞灵慧;孙垚棋;张继勇;张勇东 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/9032;G06K9/46;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图卷 视觉 问答 增强 方法 | ||
1.一种基于图卷积的视觉问答增强方法,其特征在于包括以下步骤:
步骤1、分别提取图片和问题的特征表示;
步骤2、提取基于问题生成的图片中各目标之间的关系,构建关系特征检测器;
步骤3、将带有问题信息的图片生成为graph,并且为每个顶点挑选最相关的目标,为每个顶点生成新的特征表示之后,对graph进行最大池化和分类;
步骤2所述的构建关系特征检测器,具体如下:
首先将带有resnet101的faster-rcnn作为对象检测器;其次采用模型的输出并应用NMS操作并按IOU阈值选择32个对象;最后通过平均池层,将特征中的提议集成到2048个维度;
对象特征vi是在faster-rcnn中从RPN中生成,其中i=0,1,2,...,k-1,为了学习单实例属性以及原始检测操作,设置属性分类器来学习实例属性;因此单个的属性学习概况如下:
其中W*和b*是可学习的参数;LOCi,CLSi和ATTi是第i个物体的边界框、类和属性预测;
通过以下等式实现实体之间的关系:
Ni=W1vi+b1 公式4
Ri,j=W2(Ni+Nj)+b2 公式5
其中,W1、W2、b1、b2是用于将实例映射到关系域的可学习参数,Ni是用于将单个的实例特征映射到关系域的节点,Ri,j是提议实例i和j的关系预测;在关系训练中,提出的特征首先由全连接层映射到关系空间;然后,融合映射的功能以获得提出的特征之间的关系标签;设作品中有k个特征,所有k*(k-1)个关系组合都参与训练;实际标签由锚点设置和检测ROI分配;目标标签是VrR-VG数据集中的所有关系以及一个附加的无关系的标签;
步骤3具体的实现如下:
引入一个图像卷积网络(GCN)图学习器,用于捕获基于问题的图形的语义信息;构造一个无向图其中v是所有检测到的区域顶点的集合,且|v|=N;每个表示每个图像物体的特征向量,ε是要学习的图形关系边缘的集合和是对应的邻接矩阵;
目前,GCN架构中,每个顶点邻域的编码信息定义为:
其中,W是一个权重矩阵,b是偏向量,σ(·)是一个非线性激活函数;代表顶点vi的邻居集,也包括自己;以邻接矩阵M的形式对图结构进行代表性描述,与顶点相乘表示;对于每个顶点,把所有相邻顶点的特征向量都加起来;同时将关系特征检测器生成的关系信息Ri,j添加到邻接矩阵M中,帮助重构顶点;
学习邻接矩阵,每个节点(i,j,Mi,j)∈ε以问题的编码q和关系信息为条件;模拟特征向量之间的相似性,以及特征向量与给定问题的相关性;首先将N个视觉特征中的每个特征和问题特征q进行拼接,写成{vn||q};然后计算一个联合嵌入:
xn=H({vn||q})
其中是一个非线性函数而dv,dq,dx分别是图像特征向量的维数、问题特征向量的维数和联合嵌入的维数;在此之后将具有自循环的图的基于问题的交互矩阵定义为A=XXT,其中矩阵是所有联合嵌入xn的拼接;将关系信息矩阵R与交互矩阵A组合,因此邻接矩阵M表示为:M=R+A,因此
2.根据权利要求1所述的一种基于图卷积的视觉问答增强方法,其特征在于步骤3具体的实现进一步如下:
确认每个顶点选择邻居的条件;为了每个图节点学习稀疏的邻域系统,利用如下排序策略:
其中,topk返回与输入向量关联值最大的k个索引,并且yi表示模拟邻接矩阵的第i行;这种排序确保中心顶点可以找到与其最相关的邻节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910520136.8/1.html,转载请声明来源钻瓜专利网。