[发明专利]一种基于图卷积的视觉问答增强方法有效

申请号：	201910520136.8	申请日：	2019-06-17
公开（公告）号：	CN110399518B	公开（公告）日：	2021-12-10
发明（设计）人：	颜成钢;俞灵慧;孙垚棋;张继勇;张勇东	申请（专利权）人：	杭州电子科技大学
主分类号：	G06F16/583	分类号：	G06F16/583;G06F16/9032;G06K9/46;G06N3/04;G06N3/08
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	朱月芬
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于图卷视觉问答增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于图卷积的视觉问答增强方法，其特征在于包括以下步骤：

步骤1、分别提取图片和问题的特征表示；

步骤2、提取基于问题生成的图片中各目标之间的关系，构建关系特征检测器；

步骤3、将带有问题信息的图片生成为graph，并且为每个顶点挑选最相关的目标，为每个顶点生成新的特征表示之后，对graph进行最大池化和分类；

步骤2所述的构建关系特征检测器，具体如下：

首先将带有resnet101的faster-rcnn作为对象检测器；其次采用模型的输出并应用NMS操作并按IOU阈值选择32个对象；最后通过平均池层，将特征中的提议集成到2048个维度；

对象特征v_i是在faster-rcnn中从RPN中生成，其中i＝0,1,2，...，k-1，为了学习单实例属性以及原始检测操作，设置属性分类器来学习实例属性；因此单个的属性学习概况如下：

其中W*和b*是可学习的参数；LOC_i，CLS_i和ATT_i是第i个物体的边界框、类和属性预测；

通过以下等式实现实体之间的关系：

N_i＝W₁v_i+b₁ 公式4

R_i,j＝W₂(N_i+N_j)+b₂ 公式5

其中，W₁、W₂、b₁、b₂是用于将实例映射到关系域的可学习参数，N_i是用于将单个的实例特征映射到关系域的节点，R_i,j是提议实例i和j的关系预测；在关系训练中，提出的特征首先由全连接层映射到关系空间；然后，融合映射的功能以获得提出的特征之间的关系标签；设作品中有k个特征，所有k*(k-1)个关系组合都参与训练；实际标签由锚点设置和检测ROI分配；目标标签是VrR-VG数据集中的所有关系以及一个附加的无关系的标签；

步骤3具体的实现如下：

引入一个图像卷积网络(GCN)图学习器，用于捕获基于问题的图形的语义信息；构造一个无向图其中v是所有检测到的区域顶点的集合，且|v|＝N；每个表示每个图像物体的特征向量，ε是要学习的图形关系边缘的集合和是对应的邻接矩阵；

目前，GCN架构中，每个顶点邻域的编码信息定义为：

其中，W是一个权重矩阵，b是偏向量，σ(·)是一个非线性激活函数；代表顶点v_i的邻居集，也包括自己；以邻接矩阵M的形式对图结构进行代表性描述，与顶点相乘表示；对于每个顶点，把所有相邻顶点的特征向量都加起来；同时将关系特征检测器生成的关系信息R_i,j添加到邻接矩阵M中，帮助重构顶点；

学习邻接矩阵，每个节点(i，j，M_i,j)∈ε以问题的编码q和关系信息为条件；模拟特征向量之间的相似性，以及特征向量与给定问题的相关性；首先将N个视觉特征中的每个特征和问题特征q进行拼接，写成{v_n||q}；然后计算一个联合嵌入：

x_n＝H({v_n||q})

其中是一个非线性函数而d_v,d_q,d_x分别是图像特征向量的维数、问题特征向量的维数和联合嵌入的维数；在此之后将具有自循环的图的基于问题的交互矩阵定义为A＝XX^T，其中矩阵是所有联合嵌入x_n的拼接；将关系信息矩阵R与交互矩阵A组合，因此邻接矩阵M表示为：M＝R+A，因此

2.根据权利要求1所述的一种基于图卷积的视觉问答增强方法，其特征在于步骤3具体的实现进一步如下：

确认每个顶点选择邻居的条件；为了每个图节点学习稀疏的邻域系统，利用如下排序策略：

其中，topk返回与输入向量关联值最大的k个索引，并且y_i表示模拟邻接矩阵的第i行；这种排序确保中心顶点可以找到与其最相关的邻节点。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学，未经杭州电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910520136.8/1.html，转载请声明来源钻瓜专利网。

上一篇：一种路径确定方法、装置、电子设备和计算机存储介质
下一篇：一种可扩展的多语义图像相关反馈方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于图卷积的视觉问答增强方法有效

专利文献下载