[发明专利]一种基于图卷积的视觉问答增强方法有效
申请号: | 201910520136.8 | 申请日: | 2019-06-17 |
公开(公告)号: | CN110399518B | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 颜成钢;俞灵慧;孙垚棋;张继勇;张勇东 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/9032;G06K9/46;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图卷 视觉 问答 增强 方法 | ||
本发明公开了一种基于图卷积的视觉问答增强方法。本发明包括以下步骤:步骤1、分别提取图片和问题的特征表示;步骤2、提取基于问题生成的图片中各目标之间的关系;步骤3、将带有问题信息的图片生成为graph,并且为每个顶点挑选最相关的目标,为每个顶点生成新的特征表示之后,对graph进行最大池化和分类。本发明利用GCN网络和图片中物体之间的关系来探索高层次语义,对视觉问答技术有较大意义。
技术领域
本发明属于计算机视觉、自然语言技术领域,特别地,本发明涉及一种基于图卷积的视觉问答增强方法。
技术背景
视觉问答(VQA)是近年来备受关注的新兴话题。它结合了计算机视觉和自然语言处理(NLP)这两个领域,并要求我们在这两个领域都有很好的理解。VQA系统将图像和自由形式的自然语言问题作为输入,并生成自然语言答案作为输出。大多数VQA方法将任务视为分类任务,并分别提取图像和问题特征。之后,他们探索了从深度卷积神经网络(CNNs)学习的图像表示的多模态特征融合以及从时间序列模型(如长期短期记忆(LSTM)和门控递归神经网络(GRU)中获得的问题表示网络)以捕获多模态特征之间的相互作用。这些融合模型使用双线性池化和基于注意力的方式等。然而,这些方法并不真正理解得到答案的推理过程,而没有选择与图片中的异议最相关的目标,使得信息变得非常多余的。
卷积神经网络(CNNs)已经在计算机视觉和自然语言处理等领域取得了最新水平,能够处理欧几里德数据结构并有效地探索特征表示。然而,在现实世界中存在大量的非欧几里德数据,例如社交多媒体网络数据,化学复合结构数据和知识图数据等。诸如CNN之类的神经网络结构不能有效地处理这种图形结构。由Thomas Kpif提出的Data.Graph卷积神经网络(GCN)可以在同一时间执行节点特征信息和结构信息的端到端学习,旨在将CNN应用于图域。空间GCN是一种更直观的方式,只需要在拓扑图上提取空间特征,然后找到与每个顶点相邻的邻居。
在基于问题的图像物体之间的关系能让图像有一个更好的语义解释。例如,假设一个图像有两个人,一个是骑自行车,另一个是站在自行车旁边,然后询问骑自行车的是男人还是女人。如果我们使用之前从图像中学到的关系,例如{人,骑,自行车},我们会把注意力放在骑自行车的人上,而不是图片中的其他人。作为物体的关系,关系为理解具有多个对象的任务中的交互和语义信息提供了新的视角。
发明内容
本发明的目的是为了利用GCN网络和图片中物体之间的关系来解决视觉问答不能很好探索高层次语义的问题,在VQA的任务中,图像中的物体之间的关系可以帮助我们理解推理的过程,允许我们根据问题为每个顶点选择最相关的节点。在本发明中,我们提出了一个有效的,用于视觉问答的新颖的基于图形的方法。我们以场景结构的形式探索了语义结构,这是从一个问题条件下的图像中学习的图形。边界框对象检测被定义为图形节点,而对象之间的关系用于表示图形边缘,证明我们提出的方法可以学习更高级别的语义信息,并进一步提高VQA的性能。
本发明提出的一种基于图卷积的视觉问答增强方法,其过程包括以下步骤:
步骤1、分别提取图片和问题的特征表示;
步骤2、提取基于问题生成的图片中各目标之间的关系;
步骤3、将带有问题信息的图片生成为graph,并且为每个顶点挑选最相关的目标,为每个顶点生成新的特征表示之后,对graph进行最大池化和分类。
本发明的特点及有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910520136.8/2.html,转载请声明来源钻瓜专利网。