[发明专利]一种基于协同矩阵分解的跨模态检索方法有效
申请号: | 201810062484.0 | 申请日: | 2018-01-23 |
公开(公告)号: | CN108334574B | 公开(公告)日: | 2020-06-12 |
发明(设计)人: | 李新卫;荆晓远;吴飞;孙莹 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/33;G06F16/31 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 刘莎 |
地址: | 210023 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于协同矩阵分解的跨模态检索方法,同时考虑保持原始空间样本对的局部几何流形结构,使用图正则项加入了模态内与模态间的约束,采用普遍使用的mAP(平均准确率)作为性能评价指标。本发明不仅考虑了样本的模态内相似性,还考虑了样本对模态间的相似性,为以文检图和以图检文准确性提供了保障。本发明利用协同矩阵分解技术、哈希函数,同时加入了保持模态内与模态间相似性的图正则化项,提高了以文检图和以图检文的相互检索性能,广泛应用于移动设备、互联网以及电子商务中的图片文本互相检索服务。 | ||
搜索关键词: | 一种 基于 协同 矩阵 分解 跨模态 检索 方法 | ||
【主权项】:
1.一种基于协同矩阵分解的跨模态检索方法,其特征在于,包括如下步骤:步骤1,获取原始数据,首先对原始数据中的图像和文本分别进行特征提取,并对提取到的图像特征和文本特征分别进行归一化处理,再将归一化处理后的图像特征和文本特征分别分为两个部分,一部分图像特征和文本特征构成训练集,另一部分图像特征和文本特征构成测试集;步骤2,利用训练集中的特征数据的类标签构造图像与图像、文本与文本模态内以及图像与文本模态间相似性矩阵和拉普拉斯矩阵;步骤3,将矩阵分解函数、哈希函数和正则化项合并生成整体目标函数,整体目标函数的表达式如下所示:![]()
式中,i,j=1,2,λ1和λ2分别表示图像模态内和文本模态内的平衡系数,X1和X2分别表示训练集中图像特征数据和文本特征数据,U1和U2分别表示X1和X2的基矩阵,V是成对的图像和文本在低维潜在语义空间的共同表示,α为哈希函数学习时的权重系数,h(·)表示将投影矩阵离散化为二进制的哈希函数,γ为图正则化项的加权系数,tr(·)表示矩阵的迹范数,P1和P2分别表示X1和X2利用哈希函数所学习的投影矩阵,L11、L22分别表示图像与图像模态内、文本与文本模态内拉普拉斯矩阵,L12=L21表示图像与文本模态间的拉普拉斯矩阵;步骤4,对步骤3生成的整体目标函数中的变量Ui、V、Pi分别进行迭代更新,直至达到设定的最大迭代次数,具体为:(1)将Ui、V、Pi中的所有元素均初始化为(0,1)区间内的随机数,设定λi、α、γ的值以及最大迭代次数;(2)固定V、P1和P2,更新U1、U2:![]()
其中,U1t+1、U1t分别表示第t+1、t次迭代后的U1,U2t+1、U2t分别为第t+1、t次迭代后的U2;η1、η2为平衡参数;(3)固定U1、U2、P1和P2,利用KKT条件更新V:
其中,Vpqt+1、Vpqt分别表示第t+1、t次迭代后的V中的第p行第q列元素;Vt表示第t次迭代后的V,
分别表示U1t、U2t的转置;(4)固定V、U1和U2,更新P1、P2:![]()
其中,P1t+1、P1t分别表示第t+1、t次迭代后的P1;P2t+1、P2t分别表示第t+1、t次迭代后的P2;步骤5,利用符号函数
得到训练集中图像文本统一的哈希编码矩阵sign(V);步骤6,根据投影矩阵P1、P2,将测试集中的图像特征数据X′1、文本特征数据X′2代入步骤3中的哈希函数分别得到X′1、X′2的哈希编码;步骤7,分别计算X′1、X′2的哈希编码与训练集哈希编码sign(V)之间的汉明距离D1与D2;步骤8,分别对汉明距离D1与D2进行升序排列,根据排序结果找到对应的索引,将索引的前K项对应的对象作为检索结果,并根据检索结果的类标签计算检索精度,从而实现以图检文和以文检图的跨模态检索。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810062484.0/,转载请声明来源钻瓜专利网。