[发明专利]面向无约束视觉问答指向问题的检索方法及系统有效
申请号: | 201810287528.X | 申请日: | 2018-03-30 |
公开(公告)号: | CN108446404B | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 王亮;黄岩;程文龙 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06N3/04;G06N3/08 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙) 11482 | 代理人: | 郭文浩;陈晓鹏 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 无约束 视觉 问答 指向 问题 检索 方法 系统 | ||
本发明属于模式识别领域,具体涉及一种面向无约束视觉问答指向问题的检索方法及系统。旨在解决无候选答案时的视觉问答指向问题。该方法主要包括:利用图像似物性采样的方法生成一定数目的候选答案,提取问句的文本特征和候选答案的视觉特征,把文本特征和视觉特征映射到同一共同特征空间中,然后计算共同特征空间中问句与候选答案的余弦相似度,把与文本特征余弦相似度最高的候选答案视为预测的正确答案。本方法利用成对的排序损失函数建立问句特征与候选答案特征的相关关系,同时针对无候选答案的问题,使用图像似物性采样的方法生成一定数目的候选的答案,为无候选区域的视觉问答提供了一种可行的解决方案。
技术领域
本发明属于模式识别领域,具体涉及一种面向无约束视觉问答指向问题的检索方法及系统。
背景技术
视觉问答中的指向问题广泛地存在于日常生活中。视觉问答的指向问题,简单来说就是给定一张图片和相应的问题,找出问题中提及的目标区域。例如,在图像中找出我们感兴趣的区域,一张图像中可能包含很多物体及相应背景。如果图像的数目比较多,而且图像比较复杂,找感兴趣的区域需要投入大量的人力和物力。视觉问答中指向技术可以帮助我们找到我们感兴趣的区域,从而帮助我们节省大量的时间,同时,指出的相关区域可以辅助自然语言的解答。
传统的视觉问答指向技术是基于分类的方法,并有候选的答案可以选择。开展视觉问答时有一定候选项可以进行选择,多选形式的视觉问答限制了视觉问答的使用场景。为了解决无候选答案的视觉问答的指向问题,我们提出了一种面向无约束视觉问答指向问题的检索方法。它能很好地解决有候选答案的视觉问答指向问题,同时又提供了一种解决无候选答案指向问题的有效方法。使用图像似物性采样(object proposals)的方法生成有效的候选区域,同时使用交叠率(IOU)选出其中有效的正确答案集合。该方法在解决无候选答案的视觉问答指向问题时能取得相对较好的结果。
发明内容
为了解决现有技术中的上述问题,即为了解决无候选答案时的视觉问答指向问题,本发明的一方面,提供了一种面向无约束视觉问答指向问题的检索方法,
利用似物性采样的方法从输入图像中生成多个候选区域作为候选答案,利用所述候选答案通过视觉特征提取网络提取所述候选答案的视觉特征;
基于文本特征提取网络提取输入问句的文本特征;
使用文本映射矩阵WT将所述文本特征转化至共同特征空间,使用视觉映射矩阵WI将所述视觉特征转化至共同特征空间,计算共同特征空间内文本特征与每个视觉特征的余弦相似度,并将与文本特征的余弦相似度最大的视觉特征所对应的候选答案作为正确答案,输出所述正确答案;
其中,
所述视觉特征提取网络基于卷积神经网络构建,用以提取所述候选答案的视觉特征;
所述文本特征提取网络基于循环神经网络构建,用以提取输入问句的文本特征。
进一步地,基于成对的排序损失函数迭代训练所述检索方法,以更新文本特征提取网络和文本映射矩阵WT和视觉映射矩阵WI的权重,且
在迭代训练过程中不改变视觉特征提取网络的权重。
进一步地,基于反向传播算法和成对的排序损失函数迭代训练所述检索方法,以更新文本特征提取网络和文本映射矩阵WT和视觉映射矩阵WI的权重,且
在迭代训练过程中不改变视觉特征提取网络的权重。
进一步地,所述视觉特征提取网络基于权重共享策略提取候选答案的视觉特征。
进一步地,所述基于成对的排序损失函数迭代训练,其训练方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810287528.X/2.html,转载请声明来源钻瓜专利网。