[发明专利]一种引入外部知识的视觉问答方法有效
| 申请号: | 202010436987.7 | 申请日: | 2020-05-21 |
| 公开(公告)号: | CN111611367B | 公开(公告)日: | 2023-04-28 |
| 发明(设计)人: | 王春辉;胡勇 | 申请(专利权)人: | 拾音智能科技有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06N3/0464 |
| 代理公司: | 北京中北知识产权代理有限公司 11253 | 代理人: | 卢业强 |
| 地址: | 710000 陕西省西安市航天*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 引入 外部 知识 视觉 问答 方法 | ||
1.一种引入外部知识的视觉问答方法,其特征在于,包括以下步骤:
步骤1,构造图像I的视觉图Gv=(Vv,Ev),Vv={vi}为节点集,i∈[1,Nv],Nv为节点个数,vi为第i个节点,表示利用Faster-RCNN从图像I中提取的第i个检测框内的特征向量,为边集合,为连接节点vi和vj的边,是表示第i个检测框和第j个检测框位置关系的向量,j∈[1,Nv],j≠i;
步骤2,选取知识库中与问题最相关的Nf个事实知识构造事实知识图Gf=(Vf,Ef),Vf={fi}为节点集,i∈[1,Nf],fi为第i个节点,表示第i个事实知识,为边集合,为连接节点fi和fj的边,表示第i个事实知识与第j个事实知识的关系,j∈[1,Nf],j≠i;
步骤3,利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算,突出与问题相关的节点和边,然后使用图神经网络更新节点;
步骤4,在问题的引导下,从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,可能是答案的概率最大的事实知识为问题的答案;
所述步骤3具体包括以下步骤:
对于视觉图,计算每个节点vi相对问题q的注意力权重αi:
αi=softmax(watanh(w1vi+w2q)) (2)
式中,wa、w1、w2为学习参数,[·,·]表示向量拼接;
针对每个节点vi,计算与其相连的所有边相对vi和问题q的注意力权重βji:
βji=softmax(wb tanh(w3v′j+w4q′)) (3)
式中,q′=w6[vi,q],wb、w3、w4、w5、w6为学习参数;
利用图神经网络更新节点,即用替换vi:
式中,w7为学习参数;
针对事实知识图,按照上述方法进行与视觉图相同完全相同的处理。
2.根据权利要求1所述的引入外部知识的视觉问答方法,其特征在于,的计算公式为:
式中,xi、yi分别为第i个检测框左上角的横坐标和纵坐标,xj、yj分别为第j个检测框左上角的横坐标和纵坐标,wi、hi分别为第i个检测框的宽和高,wj、hj分别为第j个检测框的宽和高。
3.根据权利要求1所述的引入外部知识的视觉问答方法,其特征在于,所述步骤4具体包括以下步骤:
计算在问题q的引导下,视觉图中的每个节点vj对事实知识图中的每个节点fi的注意力权重
式中,wc、w8、w9为学习参数;
计算视觉图对于fi的互补信息
利用gate机制自适应地对互补信息和事实知识图中的fi进行融合,得到融合后的信息
式中,σ为门函数,w10、w11为学习参数,[·,·]表示向量拼接,表示两个向量逐元素相乘;
将反复与进行多次融合,将融合后的事实知识图输入到一个多层感知机,得到每个事实知识可能是答案的概率,概率最高的事实知识即为问题的答案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于拾音智能科技有限公司,未经拾音智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010436987.7/1.html,转载请声明来源钻瓜专利网。





