[发明专利]一种视觉问题回答的实现方法、装置、设备及存储介质在审
申请号: | 202111402921.7 | 申请日: | 2021-11-24 |
公开(公告)号: | CN114155422A | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 李旭;李昊;孙明明;李平 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06V20/00 | 分类号: | G06V20/00;G06K9/62;G06N3/04;G06N3/08;G06F40/284;G06V10/764;G06V10/80;G06V10/82 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 项京;马敬 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视觉 问题 回答 实现 方法 装置 设备 存储 介质 | ||
本公开提供了一种视觉问题回答的实现方法、装置、设备及存储介质,涉及计算机技术领域,尤其涉及人工智能和计算机视觉技术领域。具体实现方案为:获取指定目标图片以及针对该目标图片的目标问题后,对于目标问题,提取其问题特征;对于目标图片,分别提取其物体特征、关系特征,将物体特征、关系特征与目标物体的属性特征进行融合,得到目标图片的综合特征,并基于问题特征和目标图片的综合特征进行答案预测,得到目标问题的答案。应用本公开实施例,针对物体特征和物间关系特征分别提取,平衡了对物体信息和物间关系信息的关注度,并通过结合物体属性信息,使得获取的融合信息更加完整全面,从而使得基于融合信息得到的视觉问题答案更加准确。
技术领域
本公开涉及计算机技术领域,尤其涉及人工智能和计算机视觉技术。
背景技术
视觉问题回答(Visual Question Answering,VQA)任务是指:通过给定的图片信息来回答针对图片内容的一系列自然语言形式的问题。
发明内容
本公开提供了一种用于提高答案准确性的视觉问题回答的实现方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种视觉问题回答的实现方法,包括:
获取指定的目标图片及针对该目标图片的目标问题;
将所述目标问题转换为问题特征;
对目标图片进行物体特征提取和关系特征提取,分别得到物体特征和关系特征;
将所述物体特征、关系特征以及各个目标物体的属性特征进行融合,得到目标图片的综合特征;
基于所述问题特征和所述目标图片的综合特征进行答案预测,得到目标问题的答案。。
根据本公开的另一方面,提供了一种视觉问题回答的实现装置,包括:
图片问题获取单元,用于获取指定的目标图片及针对该目标图片的目标问题;
问题转换单元,用于将所述目标问题转换为问题特征;
特征提取单元,用于对目标图片进行物体特征提取和关系特征提取,分别得到物体特征和关系特征;
特征融合单元,用于将所述物体特征、关系特征以及各个目标物体的属性特征进行融合,得到目标图片的综合特征;
答案预测单元,用于基于所述问题特征和所述目标图片的综合特征进行答案预测,得到目标问题的答案。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一所述的视觉问题回答的实现方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述任一所述的视觉问题回答的实现方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述任一所述的视觉问题回答的实现方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开提供的视觉问题回答的实现方法的第一实施例的示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111402921.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:轧机窜辊装置
- 下一篇:一种便于安装的防破坏智能锁