[发明专利]一种基于组合关系注意力网络的视觉问答方法有效
申请号: | 201910496302.5 | 申请日: | 2019-06-10 |
公开(公告)号: | CN110222770B | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 杨阳;汪政;彭亮 | 申请(专利权)人: | 成都澳海川科技有限公司 |
主分类号: | G06V10/80 | 分类号: | G06V10/80;G06F16/332 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
地址: | 611731 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 组合 关系 注意力 网络 视觉 问答 方法 | ||
1.一种基于组合关系注意力网络的视觉问答方法,其特征在于,包括以下步骤:
(1)、构建目标注意力机制
首先,利用从每一张图像中提取M个目标的图像特征(为行向量),图像特征的维度为do,M个目标的图像特征按行放置,构成矩阵Vo,表示实数矩阵,然后将每一个目标的图像特征与问题的特征融合,得到多模态的特征矩阵A,之后,将多模态的特征矩阵A输入一个softmax分类层得到各目标的权重,每一个权重代表着对应的目标与问句的相关性,权重越大证明对应的目标在回答问题时的贡献越大;最后所有目标的图像特征按照各自的权重进行相加,得到图像的图像特征vo,
(2)、构建关系注意力模块
根据目标的重要性,选择前kb和kt个目标分别用于二元关系和三元关系的编码,同时,串联图像中目标的图像特征和目标的位置特征作为关系编码特征,其中:
在二元关系编码中,先结合问句特征与关系编码特征,生成两个中间表征和其中,dh是中间层的维度,然后利用点积的操作,生成图像目标两两之间的二元关系:
其中,为第i个目标与第j个目标的关系向量,是中间表征的第i行,是中间表征的第j行;将第i个目标与所有第j个目标的关系向量按行放置,得到二元关系矩阵这样得到kb个kb行dh列的二元关系矩阵
视觉关系注意力机制表示为:
其中,是权重矩阵,是训练参数,T表示转置,将按行放置,得到权重矩阵pb,这样得到二元关系特征vb:
其中,为权重矩阵pb的第i行第j列的元素值,是维度为dh的行向量;
在三元关系编码中,先结合问句特征与关系编码特征,生成三个中间表征和然后利用点积的操作,生成三个图像目标之间的三元关系:
其中,为第i个目标、第j个目标以及第g个目标的关系向量,是中间表征的第i行,是中间表征的第j行,是中间表征的第g行;将第i个目标、第j个目标与所有第g个目标的关系向量按行放置,得到二元关系矩阵这样得到kt组,每组kt个kt行dh列的二元关系矩阵
视觉关系注意力机制表示为:
其中,是权重矩阵,是训练参数,T表示转置,将按行放置,得到权重矩阵将kt权重矩阵依次放置,得到三维权重矩阵pt,这样得到三元关系特征vt:
其中,为三维权重矩阵pt的第i页、第j行,第g列的元素值,是维度为dh的行向量;
(3)、答案预测
在问句特征vq的指导下,将图像特征向量vo与二元关系特征vb、三元关系特征vt进行融合:
其中vf是融合的多模态特征,W4和W5是训练参数;
之后将多模态特征vf输入softmax分类层,得到候选答案的概率,然后选择概率最大的候选答案作为预测答案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都澳海川科技有限公司,未经成都澳海川科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910496302.5/1.html,转载请声明来源钻瓜专利网。