[发明专利]一种基于组合关系注意力网络的视觉问答方法有效
申请号: | 201910496302.5 | 申请日: | 2019-06-10 |
公开(公告)号: | CN110222770B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 杨阳;汪政;彭亮 | 申请(专利权)人: | 成都澳海川科技有限公司 |
主分类号: | G06V10/80 | 分类号: | G06V10/80;G06F16/332 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
地址: | 611731 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于组合关系注意力网络的视觉问答方法,针对现有视觉问答方法只能提取简单视觉关系的问题,创新性地构建了自适应的关系注意力模块,用以充分提取准确的二元关系以及更为复杂的三元关系。这关系与问题相关的视觉关系可以揭示更深层次的语义,增强本发明在回答问题时的推理能力。同时,针对现有视觉问答方法不能很好地融合图像中目标的图像特征和位置(关系)特征的问题,我们先分别提取目标的图像特征和位置(关系)特征,将目标图像特征的提取独立于目标关系特征的提取,然后在问句的指导下融合这两种特征,从而将两种特征很好地融合在一起。通过充分准确提取视觉关系,以及图像特征和关系特征的很好融合,提高了预测问题的答案的准确性。 | ||
搜索关键词: | 一种 基于 组合 关系 注意力 网络 视觉 问答 方法 | ||
【主权项】:
1.一种基于组合关系注意力网络的视觉问答方法,其特征在于,包括以下步骤:(1)、构建目标注意力机制首先,利用从每一张图像中提取M个目标的图像特征(为行向量),图像特征的维度为do,M个目标的图像特征按行放置,构成矩阵Vo,![]()
表示实数矩阵,然后将每一个目标的图像特征与问题的特征融合,得到多模态的特征矩阵A,
之后,将多模态的特征矩阵A输入一个softmax分类层得到各目标的权重,每一个权重代表着对应的目标与问句的相关性,权重越大证明对应的目标在回答问题时的贡献越大;最后所有目标的图像特征按照各自的权重进行相加,得到图像的图像特征vo,
(2)、构建关系注意力模块根据目标的重要性,选择前kb和kt个目标分别用于二元关系和三元关系的编码,同时,串联图像中目标的图像特征和目标的位置特征作为关系编码特征,其中:在二元关系编码中,先结合问句特征与关系编码特征,生成两个中间表征
和
其中,dh是中间层的维度,然后利用点积的操作,生成图像目标两两之间的二元关系:
其中,
为第i个目标与第j个目标的关系向量,
是中间表征
的第i行,
是中间表征
的第j行;将第i个目标与所有第j个目标的关系向量![]()
按行放置,得到二元关系矩阵
这样得到kb个kb行dh列的二元关系矩阵
视觉关系注意力机制表示为:
其中,
是权重矩阵,
是训练参数,T表示转置,将
按行放置,得到权重矩阵pb,
这样得到二元关系特征vb:
其中,
为权重矩阵pb的第i行第j列的元素值,
是维度为dh的行向量;在三元关系编码中,先结合问句特征与关系编码特征,生成三个中间表征
和
然后利用点积的操作,生成三个图像目标之间的三元关系:
其中,
为第i个目标、第j个目标以及第g个目标的关系向量,
是中间表征
的第i行,
是中间表征
的第j行,
是中间表征
的第g行;将第i个目标、第j个目标与所有第g个目标的关系向量
按行放置,得到二元关系矩阵
这样得到kt组,每组kt个kt行dh列的二元关系矩阵
视觉关系注意力机制表示为:
其中,
是权重矩阵,
是训练参数,T表示转置,将![]()
按行放置,得到权重矩阵
将kt权重矩阵
依次放置,得到三维权重矩阵pt,
这样得到三元关系特征vt:
其中,
为三维权重矩阵pt的第i页、第j行,第g列的元素值,
是维度为dh的行向量;(3)、答案预测在问句特征vq的指导下,将图像特征向量vo与二元关系特征vb、三元关系特征vt进行融合:
其中vf是融合的多模态特征,W4和W5是训练参数;之后将多模态特征vf输入softmax分类层,得到候选答案的概率,然后选择概率最大的候选答案作为预测答案。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都澳海川科技有限公司,未经成都澳海川科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910496302.5/,转载请声明来源钻瓜专利网。