[发明专利]一种基于组合关系注意力网络的视觉问答方法有效

申请号：	201910496302.5	申请日：	2019-06-10
公开（公告）号：	CN110222770B	公开（公告）日：	2023-06-02
发明（设计）人：	杨阳;汪政;彭亮	申请（专利权）人：	成都澳海川科技有限公司
主分类号：	G06V10/80	分类号：	G06V10/80;G06F16/332
代理公司：	成都行之专利代理事务所(普通合伙) 51220	代理人：	温利平
地址：	611731 四川省***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于组合关系注意力网络的视觉问答方法，针对现有视觉问答方法只能提取简单视觉关系的问题，创新性地构建了自适应的关系注意力模块，用以充分提取准确的二元关系以及更为复杂的三元关系。这关系与问题相关的视觉关系可以揭示更深层次的语义，增强本发明在回答问题时的推理能力。同时，针对现有视觉问答方法不能很好地融合图像中目标的图像特征和位置(关系)特征的问题，我们先分别提取目标的图像特征和位置(关系)特征，将目标图像特征的提取独立于目标关系特征的提取，然后在问句的指导下融合这两种特征，从而将两种特征很好地融合在一起。通过充分准确提取视觉关系，以及图像特征和关系特征的很好融合，提高了预测问题的答案的准确性。
搜索关键词：	一种基于组合关系注意力网络视觉问答方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于组合关系注意力网络的视觉问答方法，其特征在于，包括以下步骤：(1)、构建目标注意力机制首先，利用从每一张图像中提取M个目标的图像特征(为行向量)，图像特征的维度为d_o，M个目标的图像特征按行放置，构成矩阵V^o，表示实数矩阵，然后将每一个目标的图像特征与问题的特征融合，得到多模态的特征矩阵A，之后，将多模态的特征矩阵A输入一个softmax分类层得到各目标的权重，每一个权重代表着对应的目标与问句的相关性，权重越大证明对应的目标在回答问题时的贡献越大；最后所有目标的图像特征按照各自的权重进行相加，得到图像的图像特征v^o，(2)、构建关系注意力模块根据目标的重要性，选择前k^b和k^t个目标分别用于二元关系和三元关系的编码，同时，串联图像中目标的图像特征和目标的位置特征作为关系编码特征，其中：在二元关系编码中，先结合问句特征与关系编码特征，生成两个中间表征和其中，d_h是中间层的维度，然后利用点积的操作，生成图像目标两两之间的二元关系：其中，为第i个目标与第j个目标的关系向量，是中间表征的第i行，是中间表征的第j行；将第i个目标与所有第j个目标的关系向量按行放置，得到二元关系矩阵这样得到k^b个k^b行d_h列的二元关系矩阵视觉关系注意力机制表示为：其中，是权重矩阵，是训练参数，T表示转置，将按行放置，得到权重矩阵p^b，这样得到二元关系特征v^b：其中，为权重矩阵p^b的第i行第j列的元素值，是维度为d_h的行向量；在三元关系编码中，先结合问句特征与关系编码特征，生成三个中间表征和然后利用点积的操作，生成三个图像目标之间的三元关系：其中，为第i个目标、第j个目标以及第g个目标的关系向量，是中间表征的第i行，是中间表征的第j行，是中间表征的第g行；将第i个目标、第j个目标与所有第g个目标的关系向量按行放置，得到二元关系矩阵这样得到k^t组，每组k^t个k^t行d_h列的二元关系矩阵视觉关系注意力机制表示为：其中，是权重矩阵，是训练参数，T表示转置，将按行放置，得到权重矩阵将k^t权重矩阵依次放置，得到三维权重矩阵p^t,这样得到三元关系特征v^t：其中，为三维权重矩阵p^t的第i页、第j行，第g列的元素值，是维度为d_h的行向量；(3)、答案预测在问句特征v^q的指导下，将图像特征向量v^o与二元关系特征v^b、三元关系特征v^t进行融合：其中v^f是融合的多模态特征，W₄和W₅是训练参数；之后将多模态特征v^f输入softmax分类层，得到候选答案的概率，然后选择概率最大的候选答案作为预测答案。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都澳海川科技有限公司，未经成都澳海川科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910496302.5/，转载请声明来源钻瓜专利网。

上一篇：一种基于YOLOV3-tiny的改进目标检测方法
下一篇：一种零样本图片的类别识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于组合关系注意力网络的视觉问答方法有效

专利文献下载