[发明专利]基于同构子空间映射和优化的跨媒体检索方法有效
申请号: | 201410260190.0 | 申请日: | 2014-06-12 |
公开(公告)号: | CN103995903B | 公开(公告)日: | 2017-04-12 |
发明(设计)人: | 张鸿;聂加梅;张延鹏 | 申请(专利权)人: | 武汉科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 杭州宇信知识产权代理事务所(普通合伙)33231 | 代理人: | 张宇娟 |
地址: | 430081 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于同构子空间映射和优化的跨媒体检索方法。首先,从图像数据库和音频数据库中分别提取视觉特征和听觉特征,得到相应的视觉特征矩阵A和听觉特征矩阵B,在此基础上,采用基于高维核空间的典型相关性分析,映射得到同构子空间Z;然后,分析图像样本和音频样本在同构子空间Z中的距离关系,进而构建跨媒体加权近邻图G(V,E),得到相应的权重矩阵W和拉普拉斯矩阵L;对目标函数进行求解,得出优化后的同构子空间Y的值;最后,根据优化后的同构子空间Y中的余弦距离,计算与查询样本最相近的图像样本和音频样本,作为跨媒体检索结果返回。该方法建立了能够同时容纳图像样本和音频样本的同构子空间,并且进行了优化,得到了较好的跨媒体检索结果。 | ||
搜索关键词: | 基于 同构 空间 映射 优化 媒体 检索 方法 | ||
【主权项】:
一种基于同构子空间映射和优化的跨媒体检索方法,其特征在于包括以下步骤:第一步、基于视听觉特征分析的同构子空间映射从图像数据库和音频数据库中分别提取视觉特征和听觉特征,得到视觉特征矩阵A和听觉特征矩阵B;通过非线性的核函数,将视觉特征矩阵A和听觉特征矩阵B映射到高维核空间;在高维核空间中进行相关性保持映射,得到同构子空间Z;第二步、构建跨媒体加权近邻图分析图像样本和音频样本在同构子空间Z中的距离关系,进而构建跨媒体加权近邻图G(V,E),进行定量分析,得到相应的权重矩阵W和拉普拉斯矩阵L;具体包括:(21)用S表示同构子空间Z中的所有图像样本和音频样本构成的集合;计算集合S中任意两个样本si和sj之间的欧氏距离Dis(si,sj),其中,si表示集合S中的第i个样本,sj表示集合S中的第j个样本,si和sj可以是图像样本或音频样本,i,j均为大于等于1的自然数;(22)构建跨媒体加权近邻图G(V,E),其中V表示跨媒体加权近邻图中的顶点,由集合S中所有图像样本和音频样本构成,E表示顶点之间的边;(23)如果Dis(si,sj)的值小于预定的阈值,则在跨媒体加权近邻图G(V,E)中si和sj对应的两个顶点之间连接生成一条边;(24)计算跨媒体加权近邻图G(V,E)对应的权重矩阵W=[wij],其中,i表示权重矩阵W的第i行,j表示权重矩阵W的第j列,wij表示权重矩阵W的第i行、第j列上的元素值,wij的计算如下式所示:wij=exp(Dis(si,sj)/t),ifDis(si,sj)≤ϵ0,otherwise---(2)]]>式(2)中:exp()表示以自然常数e为底的指数函数,且e=2.71828,t和ε均为实参数;i、j为大于等于1的自然数;第三步、基于目标函数最小化的同构子空间优化对目标函数进行求解,得出优化后的同构子空间Y的值;具体包括:(31)根据跨媒体加权近邻图G(V,E)和权重矩阵W,计算拉普拉斯矩阵如下:L=I‑D‑1/2WD‑1/2 (3)式(3)中:I表示单位矩阵,D表示对角矩阵,且对角线上的元素值为权重矩阵W相应行上的元素值之和;(32)用Y表示优化后的同构子空间,建立如下的目标函数:minYTY=IYTLY---(4)]]>式(4)中:I表示单位矩阵,T表示矩阵的转置运算,min表示最小值;(33)对式(4)进行特征根分解,得出优化后的同构子空间Y的值;第四步、跨媒体距离度量和检索当用户提交查询样本进行跨媒体检索时,根据优化后的同构子空间Y中的余弦距离,计算与查询样本最相近的图像样本和音频样本,作为跨媒体检索结果返回;具体包括:(41)在优化后的同构子空间Y中,以余弦距离作为跨媒体距离度量标准,余弦距离与跨媒体相似度成反比关系;(42)用r表示用户提交的查询样本,如果查询样本r在集合S中,则按照(43)中的方法进行跨媒体检索,如果查询样本r不在集合S中,且查询样本r是一幅图像,则按照(44)中的方法进行跨媒体检索,如果查询样本r不在集合S中,且查询样本r是一个音频,则按照(45)中的方法进行跨媒体检索;(43)根据优化后的同构子空间Y,计算查询样本r与集合S中的图像样本和音频样本之间的余弦距离,按照余弦距离的升序,返回跨媒体检索结果;(44)提取查询样本r的视觉特征,包括:颜色直方图、颜色聚合矢量和Tamura方向度特征,以视觉特征为依据,计算集合S中与查询样本r最相似的一个图像近邻m,以图像近邻m作为新查询样本,重复第四步(43)中的方法,进行跨媒体检索;(45)提取查询样本r的听觉特征,包括:质心、衰减截止频率、频谱流量和均方根特征,以听觉特征为依据,计算集合S中与查询样本r最相似的一个音频近邻n,以音频近邻n作为新查询样本,重复第四步(43)中的方法,进行跨媒体检索。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉科技大学,未经武汉科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410260190.0/,转载请声明来源钻瓜专利网。
- 上一篇:自动调节音频播放系统音量的方法和音频播放装置
- 下一篇:摄像设备及其控制方法