[发明专利]图像问答方法、装置、计算机设备和介质在审
| 申请号: | 202010616310.1 | 申请日: | 2020-06-30 | 
| 公开(公告)号: | CN111782838A | 公开(公告)日: | 2020-10-16 | 
| 发明(设计)人: | 李煜林;钦夏孟;黄聚;谢群义;韩钧宇 | 申请(专利权)人: | 北京百度网讯科技有限公司 | 
| 主分类号: | G06F16/532 | 分类号: | G06F16/532;G06F16/583;G06F40/30;G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08;G06N5/04 | 
| 代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 葛琪妮 | 
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 | 
| 权利要求书: | 查看更多 | 说明书: | 查看更多 | 
| 摘要: | |||
| 搜索关键词: | 图像 问答 方法 装置 计算机 设备 介质 | ||
1.一种图像问答方法,包括:
获取输入图像和输入问题;
基于所述输入图像,构建视觉图,所述视觉图包括第一节点特征和第一边特征;
基于所述输入问题,构建问题图,所述问题图包括第二节点特征和第二边特征;
对所述视觉图和所述问题图进行多模态融合,以得到更新视觉图和更新问题图;
基于所述输入问题,确定问题特征;
基于所述更新视觉图、所述更新问题图和所述问题特征,确定融合特征;以及
基于所述融合特征,生成针对所述输入图像和所述输入问题的预测答案。
2.根据权利要求1所述的方法,其中,所述基于所述输入图像,构建视觉图包括:
利用目标检测网络对所述输入图像进行处理,以从所述目标检测网络的中间层提取针对所述输入图像中的多个目标对象的表观特征和空间特征;
基于所述表观特征和所述空间特征,确定所述第一节点特征;
基于所述目标检测网络的输出层所输出的处理结果,确定所述多个目标对象各自的位置信息;
基于所述多个目标对象各自的位置信息,确定所述多个目标对象中的任意两个目标对象之间的位置关系;
基于所述任意两个目标对象之间的位置关系,确定所述第一边特征;以及
由所述第一节点特征和所述第一边特征构成所述视觉图。
3.根据权利要求2所述的方法,其中,所述基于所述多个目标对象各自的位置信息,确定所述多个目标对象中的任意两个目标对象之间的位置关系包括:
根据所述任意两个目标对象各自的位置信息,计算所述任意两个目标对象的位置区域之间的交集和并集;
计算所述交集和并集的比值;
在所述比值大于预定阈值的情况下,将所述任意两个目标对象之间的位置关系表示为1;以及
在所述比值小于等于预定阈值的情况下,将所述任意两个目标对象之间的位置关系表示为0。
4.根据权利要求1所述的方法,其中,所述基于所述输入问题,构建问题图包括:
利用词编码算法和特征编码算法依次处理所述输入问题,以从所述输入问题中提取多个词节点特征,所述多个词节点特征用于表征所述输入问题中的多个词各自的特征信息;
利用依存分析算法确定所述多个词中的任意两个词之间的依存关系;
基于所述任意两个词之间的依存关系,确定所述第二边特征;以及
由所述多个词节点特征构成所述第二节点特征,并由所述第二节点特征和所述第二边特征构成所述问题图。
5.根据权利要求1所述的方法,其中,所述对所述视觉图和所述问题图进行多模态融合包括:执行至少一轮多模态融合操作,其中
所述至少一轮多模态融合操作中的每轮多模态融合操作包括:
基于所述第一节点特征和所述第一边特征,利用第一预定网络对所述第一节点特征进行编码,以得到编码视觉图;
基于所述第二节点特征和所述第二边特征,利用第二预定网络对所述第二节点特征进行编码,以得到编码问题图;以及
利用图匹配算法,对所述编码视觉图和所述编码问题图进行多模态融合,以得到所述更新视觉图和所述更新问题图。
6.根据权利要求5所述的方法,其中,所述第一预定网络包括:第一全连接层、第一图卷积层和第二图卷积层;
所述对所述第一节点特征进行编码包括:
利用第一全连接层将所述第一节点特征映射为空间维度数量等于预定数量的第一特征;
利用第一图卷积层对所述第一特征进行处理,以得到第二特征;
利用第二图卷积层对所述第二特征进行处理,以得到经编码的第一节点特征;以及
由所述经编码的第一节点特征和所述第一边特征构成所述编码视觉图。
7.根据权利要求6所述的方法,其中,所述对所述第一节点特征进行编码还包括:基于所述第一边特征构建第一拉普拉斯矩阵;
所述利用第一图卷积层对所述第一特征进行处理包括:利用所述第一图卷积层基于所述第一拉普拉斯矩阵对所述第一特征进行处理,以得到所述第二特征,所述第二特征包括多个第一子特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010616310.1/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





