[发明专利]图像问答方法、装置、计算机设备和介质在审

申请号：	202010616310.1	申请日：	2020-06-30
公开（公告）号：	CN111782838A	公开（公告）日：	2020-10-16
发明（设计）人：	李煜林;钦夏孟;黄聚;谢群义;韩钧宇	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06F16/532	分类号：	G06F16/532;G06F16/583;G06F40/30;G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08;G06N5/04
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	葛琪妮
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	图像问答方法装置计算机设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种图像问答方法，涉及计算机视觉、自然语言处理领域。该方法包括：获取输入图像和输入问题；基于输入图像，构建视觉图，视觉图包括第一节点特征和第一边特征；基于输入问题，构建问题图，问题图包括第二节点特征和第二边特征；对视觉图和问题图进行多模态融合，以得到更新视觉图和更新问题图；基于输入问题，确定问题特征；基于更新视觉图、更新问题图和问题特征，确定融合特征；并且，基于融合特征，生成针对输入图像和输入问题的预测答案。本公开还提供了图像问答装置、计算机设备和介质。

技术领域

本公开涉及计算机视觉、自然语言处理领域，更具体地，涉及一种图像问答方法、装置、计算机设备和介质。

背景技术

图像问答(Visual Question Answering，VQA)是一项很有挑战性的任务，其目标是将计算机视觉和自然语言处理联系起来。在图像问答任务中，例如给定一张图像和一个相关的问题，要求机器能根据图像内容，结合一些常识来推理得到问题的答案。为完成该图像问答任务，机器必须具有跨模态(Cross-Modal)的理解能力，以针对视觉和语言这两种不同模态(Modality)下的数据实现综合理解。故图像问答任务相比于其他单一模态下的任务(例如图像识别、文档分类等)具有更高的要求。

发明内容

有鉴于此，本公开提供了一种图像问答方法、装置、计算机设备和介质。

本公开的一个方面提供了一种图像问答方法，包括：获取输入图像和输入问题；基于输入图像，构建视觉图，视觉图包括第一节点特征和第一边特征；基于输入问题，构建问题图，问题图包括第二节点特征和第二边特征；对视觉图和问题图进行多模态融合，以得到更新视觉图和更新问题图；基于输入问题，确定问题特征；基于更新视觉图、更新问题图和问题特征，确定融合特征；并且，基于融合特征，生成针对输入图像和输入问题的预测答案。

根据本公开的实施例，上述基于输入图像，构建视觉图包括：利用目标检测网络对输入图像进行处理，以从目标检测网络的中间层提取针对输入图像中的多个目标对象的表观特征和空间特征；基于上述表观特征和空间特征，确定第一节点特征；基于目标检测网络的输出层所输出的处理结果，确定多个目标对象各自的位置信息；基于多个目标对象各自的位置信息，确定多个目标对象中的任意两个目标对象之间的位置关系；基于任意两个目标对象之间的位置关系，确定第一边特征；并且，由上述第一节点特征和第一边特征构成视觉图。

根据本公开的实施例，上述基于多个目标对象各自的位置信息，确定多个目标对象中的任意两个目标对象之间的位置关系包括：根据该任意两个目标对象各自的位置信息，计算该任意两个目标对象的位置区域之间的交集和并集；计算交集和并集的比值；在该比值大于预定阈值的情况下，将该任意两个目标对象之间的位置关系表示为1；并且，在该比值小于等于预定阈值的情况下，将该任意两个目标对象之间的位置关系表示为0。

根据本公开的实施例，上述基于输入问题，构建问题图包括：利用词编码算法和特征编码算法依次处理输入问题，以从输入问题中提取多个词节点特征，多个词节点特征用于表征输入问题中的多个词各自的特征信息；利用依存分析算法确定多个词中的任意两个词之间的依存关系；基于任意两个词之间的依存关系，确定第二边特征；并且，由多个词节点特征构成第二节点特征，并由第二节点特征和第二边特征构成问题图。

根据本公开的实施例，上述对视觉图和问题图进行多模态融合包括：执行至少一轮多模态融合操作。其中，上述至少一轮多模态融合操作中的每轮多模态融合操作包括：基于第一节点特征和第一边特征，利用第一预定网络对第一节点特征进行编码，以得到编码视觉图；基于第二节点特征和第二边特征，利用第二预定网络对第二节点特征进行编码，以得到编码问题图；并且，利用图匹配算法，对编码视觉图和编码问题图进行多模态融合，以得到更新视觉图和更新问题图。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司，未经北京百度网讯科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010616310.1/2.html，转载请声明来源钻瓜专利网。

上一篇：基于深度学习的多波长LED水下可见光通信调制方法
下一篇：一种基于物联网的连锁经营管理系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]图像问答方法、装置、计算机设备和介质在审

专利文献下载