[发明专利]一种引入外部知识的视觉问答方法有效

专利信息
申请号: 202010436987.7 申请日: 2020-05-21
公开(公告)号: CN111611367B 公开(公告)日: 2023-04-28
发明(设计)人: 王春辉;胡勇 申请(专利权)人: 拾音智能科技有限公司
主分类号: G06F16/332 分类号: G06F16/332;G06F16/33;G06N3/0464
代理公司: 北京中北知识产权代理有限公司 11253 代理人: 卢业强
地址: 710000 陕西省西安市航天*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 引入 外部 知识 视觉 问答 方法
【权利要求书】:

1.一种引入外部知识的视觉问答方法,其特征在于,包括以下步骤:

步骤1,构造图像I的视觉图Gv=(Vv,Ev),Vv={vi}为节点集,i∈[1,Nv],Nv为节点个数,vi为第i个节点,表示利用Faster-RCNN从图像I中提取的第i个检测框内的特征向量,为边集合,为连接节点vi和vj的边,是表示第i个检测框和第j个检测框位置关系的向量,j∈[1,Nv],j≠i;

步骤2,选取知识库中与问题最相关的Nf个事实知识构造事实知识图Gf=(Vf,Ef),Vf={fi}为节点集,i∈[1,Nf],fi为第i个节点,表示第i个事实知识,为边集合,为连接节点fi和fj的边,表示第i个事实知识与第j个事实知识的关系,j∈[1,Nf],j≠i;

步骤3,利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算,突出与问题相关的节点和边,然后使用图神经网络更新节点;

步骤4,在问题的引导下,从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,可能是答案的概率最大的事实知识为问题的答案;

所述步骤3具体包括以下步骤:

对于视觉图,计算每个节点vi相对问题q的注意力权重αi

αi=softmax(watanh(w1vi+w2q))                 (2)

式中,wa、w1、w2为学习参数,[·,·]表示向量拼接;

针对每个节点vi,计算与其相连的所有边相对vi和问题q的注意力权重βji

βji=softmax(wb tanh(w3v′j+w4q′))                 (3)

式中,q′=w6[vi,q],wb、w3、w4、w5、w6为学习参数;

利用图神经网络更新节点,即用替换vi

式中,w7为学习参数;

针对事实知识图,按照上述方法进行与视觉图相同完全相同的处理。

2.根据权利要求1所述的引入外部知识的视觉问答方法,其特征在于,的计算公式为:

式中,xi、yi分别为第i个检测框左上角的横坐标和纵坐标,xj、yj分别为第j个检测框左上角的横坐标和纵坐标,wi、hi分别为第i个检测框的宽和高,wj、hj分别为第j个检测框的宽和高。

3.根据权利要求1所述的引入外部知识的视觉问答方法,其特征在于,所述步骤4具体包括以下步骤:

计算在问题q的引导下,视觉图中的每个节点vj对事实知识图中的每个节点fi的注意力权重

式中,wc、w8、w9为学习参数;

计算视觉图对于fi的互补信息

利用gate机制自适应地对互补信息和事实知识图中的fi进行融合,得到融合后的信息

式中,σ为门函数,w10、w11为学习参数,[·,·]表示向量拼接,表示两个向量逐元素相乘;

将反复与进行多次融合,将融合后的事实知识图输入到一个多层感知机,得到每个事实知识可能是答案的概率,概率最高的事实知识即为问题的答案。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于拾音智能科技有限公司,未经拾音智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010436987.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top