[发明专利]一种基于组合关系注意力网络的视觉问答方法有效
申请号: | 201910496302.5 | 申请日: | 2019-06-10 |
公开(公告)号: | CN110222770B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 杨阳;汪政;彭亮 | 申请(专利权)人: | 成都澳海川科技有限公司 |
主分类号: | G06V10/80 | 分类号: | G06V10/80;G06F16/332 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
地址: | 611731 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 组合 关系 注意力 网络 视觉 问答 方法 | ||
本发明公开了一种基于组合关系注意力网络的视觉问答方法,针对现有视觉问答方法只能提取简单视觉关系的问题,创新性地构建了自适应的关系注意力模块,用以充分提取准确的二元关系以及更为复杂的三元关系。这关系与问题相关的视觉关系可以揭示更深层次的语义,增强本发明在回答问题时的推理能力。同时,针对现有视觉问答方法不能很好地融合图像中目标的图像特征和位置(关系)特征的问题,我们先分别提取目标的图像特征和位置(关系)特征,将目标图像特征的提取独立于目标关系特征的提取,然后在问句的指导下融合这两种特征,从而将两种特征很好地融合在一起。通过充分准确提取视觉关系,以及图像特征和关系特征的很好融合,提高了预测问题的答案的准确性。
技术领域
本发明属于视觉问答(Visual Question Answering,简称VQA)技术领域,更为具体地讲,涉及一种基于组合关系注意力网络的视觉问答方法。
背景技术
现有技术中,视觉问答(VQA)主要分为两个步骤:1)理解图像和文本问题的内容,提取图像特征和问题特征;2)融合图像特征和问题特征,得到多模态的特征表示,然后通过softmax分类器预测问题的答案。其中,注意力机制(Attention)通过关注与问题相关的图像区域和问题中的关键词,从而达到更好地理解图像和问题内容的目的。
在特征融合方面,目前多基于双线性网络(Bilinear Network)进行,在一定程度上能很好地结合图像特征和问题特征。
在视觉关系推理方面,目前的大量工作主要是利用图像的区域特征构建视觉图谱。在视觉图谱中,节点代表图像的区域,边代表图像区域之间的关系。然后利用图卷积网络(Graph Convolutional Network,简称GCN)处理构建的视觉图谱,进行关系推理。
现有技术的视觉问答方法存在以下问题:
1、现有的视觉问答方法只能获取简单的视觉关系,这些视觉关系在回答复杂的文本问题时是不充分的;
2、现有的视觉问答方法利用目标的视觉关系特征更新目标的图像特征,这种方式不能很好地融合图像中目标的图像特征和关系特征。
上述不足,造成预测问题的答案不够准确。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于组合关系注意力网络的视觉问答方法,以提高预测问题的答案的准确性。
为实现上述发明目的,本发明基于组合关系注意力网络的视觉问答方法,其特征在于,包括以下步骤:
(1)、构建目标注意力机制
首先,利用从每一张图像中提取M个目标的图像特征(为行向量),图像特征的维度为do,M个目标的图像特征按行放置,构成图像特征矩阵Vo,表示实数矩阵,然后将每一个目标的图像特征与问题的特征融合,得到多模态的特征矩阵A,之后,将多模态的特征矩阵A输入一个softmax分类层得到各目标的权重,每一个权重代表着对应的目标与问句的相关性,权重越大证明对应的目标在回答问题时的贡献越大;最后所有目标的图像特征按照各自的权重进行相加,得到图像的图像特征vo,
(2)、构建关系注意力模块
根据目标的重要性,选择前kb和kt个目标分别用于二元关系和三元关系的编码,同时,串联图像中目标的图像特征和目标的位置特征作为关系编码特征,其中:
在二元关系编码中,先结合问句特征与关系编码特征,生成两个中间表征和其中,dh是中间层的维度,然后利用点积的操作,生成图像目标两两之间的二元关系:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都澳海川科技有限公司,未经成都澳海川科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910496302.5/2.html,转载请声明来源钻瓜专利网。