[发明专利]基于线性泛化回归模型的跨媒体检索方法有效
申请号: | 201210171539.4 | 申请日: | 2012-05-29 |
公开(公告)号: | CN102693316A | 公开(公告)日: | 2012-09-26 |
发明(设计)人: | 谭铁牛;王亮;陈永明 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 线性 泛化 回归 模型 媒体 检索 方法 | ||
技术领域
本发明涉及模式识别领域,特别涉及一种基于线性泛化回归模型的跨媒体检索方法。
背景技术
人类如今生活在信息大爆炸时代,人类可以通过互联网搜索引擎如谷歌(http://www.google.com)、百度(http://www.baidu.com)等搜寻自己想要的文章、图片、音乐和电影等。然而,目前互联网用户主要还是通过关键字搜索得到所需要的信息,这个限制主要是归结于搜索引擎无法理解异构模态媒体之间的相互关系,从而限制了搜索引擎的发展。众所周知,互联网搜索引擎具有巨大的市场价值,如何增强搜索引擎的性能,以吸引更多的用户和客户,将是下一代搜索引擎发展的关键和生存之道。
跨媒体搜索引擎研究得到了国际学术界的重视,我国近年来也开始重点关注该项技术的发展,设立973计划和国家支撑计划对该领域的相关技术进行研发。目前国际上提出的一些方法虽然可以被用于建立不同模态之间的关系,但是仍然存在很多的不合理和不足之处,如信息传递的泄漏问题和信息传递的不均衡问题。其中一种主流方法是基于关联子空间恒等同构的方法。基于关联子空间的典型方法如典型相关分析(Canonical Correlation Analysis,CCA),它通过对偶综合变量之间的相关性联合降维的方法,将不同模态的数据降到相同维数的关联子空间,这种方法在压缩模态的同时不可避免地造成了原始模态信息的泄漏,从而丢掉了原始模态特征描述中的一些细节信息;另外,该方法在模态转换时在恒等子空间直接进行信息交互,并没有考虑子空间映射的合理关系,只是运用了子空间映射的特殊情况。后续工作还提出了一些与CAA组合的方法来建立CCA投影子空间映射之间的关系,这些组合方法的明显不足之处在于,在运用CCA方法时就已经产生了信息的泄漏;此外这些方法并不能从理论上给出有效的子空间关联性的解释,因此无法估计需要运用多少次组合的方法,也无法估计组合方法产生的冗余性。
利用基于线性泛化回归模型的跨媒体检索方法可以有效和合理改进之前方法存在的问题,其基本思想是利用最小二乘的原理在模态关联投影子空间建立回归关系,然后映射到原始空间建立回归关系,从理论上解释了模态直接转换的关系。在子空间建立回归关系在一定程度上可以消除不同模态变量交叉噪声的干扰,在原始空间建立回归关系可以保留一些细节信息的传递,从而提高不同模态之间信息的转换有效性和鲁棒性,进而保证了下一步分类器的分类精度和最终的识别效果。该方法的提出有效地实现了不同模态媒体之间的语义鸿沟的跨越,进而使得搜索引擎返回的结果更加准确和更趋于人性化,在商业用途上,它可以满足更广大互联网用户不同的喜好和需求,进而吸引更多的互联网用户和客户,因此具有良好的运用前景和可观的市场价值。
发明内容
为了解决现有跨媒体搜索引擎技术存在的问题,特别是为了解决现阶段不同多媒体模态信息传递的有效性问题,本发明提供一种基于线性泛化回归模型的跨媒体检索方法,该方法包括以下步骤:
步骤1,搜集不同模态的样本,建立跨模态检索数据库,并提取数据库中不同模态样本的特征向量;
步骤2,利用线性泛化回归模型来估计不同模态样本特征向量之间的关联矩阵;
步骤3,估计数据库中各个样本的特征向量属于某一个类别的后验概率;
步骤4,用户输入待检索对象,并根据待检索对象的类型进行相应的特征提取;
步骤5,使用所述关联矩阵对提取到的待检索对象的特征进行特征转换;
步骤6,计算待检索对象转换后的特征与数据库中对应类别的样本对象的特征之间的相似度;
步骤7,根据所述步骤6计算得到的相似度对数据库中对应类别的样本对象进行排序,并返回其中最相似的几个样本对象作为跨媒体检索结果。
与传统方法相比较,本发明利用最小二乘的原理在模态关联投影子空间建立回归关系,然后映射到原始空间建立回归关系,从理论上解释了模态直接转换的关系,在子空间建立回归关系在一定程度上可以消除不同模态变量交叉噪声的干扰,在原始空间建立回归关系可以保留一些细节信息的传递,从而提高不同媒体模态之间转换的有效性和鲁棒性,进而保证分类器的分类精度和最终的识别效果。该方法有效地跨越了不同模态媒体之间的语义鸿沟,进而使得跨媒体搜索引擎返回的结果更加准确。
附图说明
图1是本发明方法的流程图;
图2是本发明方法的实现示意图;
图3是根据本发明的从文本到图像的跨媒体检索效果示意图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210171539.4/2.html,转载请声明来源钻瓜专利网。