[发明专利]面向无约束视觉问答指向问题的检索方法及系统有效
申请号: | 201810287528.X | 申请日: | 2018-03-30 |
公开(公告)号: | CN108446404B | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 王亮;黄岩;程文龙 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06N3/04;G06N3/08 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙) 11482 | 代理人: | 郭文浩;陈晓鹏 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 无约束 视觉 问答 指向 问题 检索 方法 系统 | ||
1.一种面向无约束视觉问答指向问题的检索方法,其特征在于,
利用似物性采样的方法从输入图像中生成多个候选区域作为候选答案,利用所述候选答案通过视觉特征提取网络提取所述候选答案的视觉特征;
基于文本特征提取网络提取输入问句的文本特征;
使用文本映射矩阵WT将所述文本特征转化至共同特征空间,使用视觉映射矩阵WI将所述视觉特征转化至共同特征空间,计算共同特征空间内文本特征与每个视觉特征的余弦相似度,并将与文本特征的余弦相似度最大的视觉特征所对应的候选答案作为正确答案,输出所述正确答案;
其中,
所述视觉特征提取网络基于卷积神经网络构建,用以提取所述候选答案的视觉特征;
所述文本特征提取网络基于循环神经网络构建,用以提取输入问句的文本特征。
2.根据权利要求1所述的面向无约束视觉问答指向问题的检索方法,其特征在于,基于成对的排序损失函数迭代训练所述检索方法,以更新文本特征提取网络和文本映射矩阵WT和视觉映射矩阵WI的权重,且
在迭代训练过程中不改变视觉特征提取网络的权重;
其中,所述成对的排序损失函数为:
公式中,x为共同特征空间中问句的文本特征,v为共同特征空间中候选答案的视觉特征,α为正负样本对之间的最小间隔常数,S为余弦相似度函数,vk为问句x的不一致答案,xk为候选答案v的不一致问句,不一致项选自同一个batch中的项。
3.根据权利要求1所述的面向无约束视觉问答指向问题的检索方法,其特征在于,基于反向传播算法和成对的排序损失函数迭代训练所述检索方法,以更新文本特征提取网络和文本映射矩阵WT和视觉映射矩阵WI的权重,且
在迭代训练过程中不改变视觉特征提取网络的权重;
其中,所述成对的排序损失函数为:
公式中,x为共同特征空间中问句的文本特征,v为共同特征空间中候选答案的视觉特征,α为正负样本对之间的最小间隔常数,S为余弦相似度函数,vk为问句x的不一致答案,xk为候选答案v的不一致问句,不一致项选自同一个batch中的项。
4.根据权利要求2或3所述的面向无约束视觉问答指向问题的检索方法,其特征在于,所述视觉特征提取网络基于权重共享策略提取候选答案的视觉特征。
5.根据权利要求2所述的面向无约束视觉问答指向问题的检索方法,其特征在于,所述基于成对的排序损失函数迭代训练,其训练方法为:
步骤S1:使用文本特征提取网络提取输入问句的文本特征;
步骤S2:使用视觉特征提取网络提取候选答案的视觉特征;
步骤S3:使用文本映射矩阵WT将所述文本特征转化到共同特征空间,使用视觉映射矩阵WI将所述视觉特征映射到共同特征空间;
步骤S4:基于mini-batch法利用共同特征空间中的文本特征和视觉特征构建正样本对和负样本对;
步骤S5:计算每个样本对的余弦相似度;
步骤S6:基于成对的排序损失函数更新文本特征提取网络和文本映射矩阵WT和视觉映射矩阵WI的权重;
步骤S7:重复步骤S1-S6,直到达到最大的遍历正负样本对的迭代次数;
其中,所述正样本对由输入问句的文本特征和输入问句对应正确答案的视觉特征构成;
所述负样本对由输入问句的文本特征与同一batch中其它问句所对应正确答案的视觉特征构成;
其中,所述成对的排序损失函数为:
公式中,x为共同特征空间中问句的文本特征,v为共同特征空间中候选答案的视觉特征,α为正负样本对之间的最小间隔常数,S为余弦相似度函数,vk为问句x的不一致答案,xk为候选答案v的不一致问句,不一致项选自同一个batch中的项。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810287528.X/1.html,转载请声明来源钻瓜专利网。