[发明专利]一种序列化多特征指导的跨媒体哈希检索方法和系统有效
申请号: | 201811228921.8 | 申请日: | 2018-10-22 |
公开(公告)号: | CN109670071B | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 彭宇新;叶钊达 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/31;G06F40/30;G06K9/62 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100871 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 序列 特征 指导 媒体 检索 方法 系统 | ||
本发明涉及一种序列化多特征指导的跨媒体哈希方法和系统。该方法包括以下步骤:1.建立图像和文本的数据库,分别提取图像和文本在多种尺度下的特征。2.将图像、文本的不同尺度特征按设定的顺序分别输入到两路循环神经网络,并计算图像和文本的哈希码。3.通过尺度间关联约束函数和媒体间、媒体内哈希约束函数对网络参数进行优化,实现尺度间关联挖掘和哈希函数的学习。4.在检索阶段,提取查询图像或文本的不同尺度特征,并按步骤2中相同的方法,生成对应的哈希码,实现跨媒体哈希检索。本发明能够挖掘不同媒体间多种尺度之间的关联关系以实现哈希函数的学习,比现有方法达到更高的检索准确率。
技术领域
本发明涉及图像和文本之间的跨媒体哈希检索,具体涉及一种序列化多特征指导的跨媒体哈希检索方法和系统。
背景技术
跨媒体检索是一种高度灵活的检索方式,用户可以使用任意一种媒体,检索其他媒体类型的相关数据。随着互联网数据的增加,检索效率逐渐成为实际应用中的重要需求。跨媒体哈希检索是指将多媒体数据映射到统一汉明空间中,利用较短的汉明编码,既能大大提升跨媒体检索速度,又能极大地压缩所需的存储空间,具有重要的应用价值。
传统文本或图像哈希检索方法在面对跨媒体检索任务时,遇到了“异构鸿沟”的难题,即不同媒体类型的数据分布在不同特征空间中,无法直接进行相似性度量。现有方法往往通过关联学习,突破“异构鸿沟”带来的检索难题。例如Song等人提出IMH方法(Song,Jing-kuan,et al.Inter-media hashing for large-scale retrieval fromheterogeneous data sources.Proceedings of the 2013ACM SIGMOD InternationalConference on Management of Data,2013),通过保持媒体内和媒体间的一致性,实现哈希函数学习。但该方法是无监督方法,没有使用额外的指导信息,因此检索准确性有限。有监督方法利用标注信息,通常能取得更高的准确率。例如Lin等人提出的SePH方法(Lin,Zi-jia,et al.Semantics-preserving hashing for cross-view retrieval.Proceedingsof the IEEE conference on computer vision and pattern recognition.2015),通过约束汉明空间编码分布和语义空间标签分布的KL散度,实现更好的哈希函数学习。此外,一些方法利用深度学习,在跨媒体哈希检索任务中取得了更好的结果。例如Jiang等人提出了DCMH方法(Jiang,Qing-Yuan,et al.Deep Cross-Modal Hashing.Proceedings of theIEEE conference on computer vision and pattern recognition,2017),联合了特征学习和哈希函数学习,设计了统一的深度哈希模型,实现了更好的检索准确性。
然而,上述方法都没有充分利用媒体中不同尺度特征的信息,例如图像中的纹理、物体、场景信息,文本中的句子、单词信息,而这些图像、文本不同尺度的特征中蕴含着丰富的互补信息,能用于提高哈希检索的准确率。对此,本发明提出了序列化多特征指导的跨媒体哈希检索方法,利用循环神经网络建模不同媒体内多种尺度的信息,并通过尺度特征关联挖掘,取得了更好的检索准确率。
发明内容
本发明提出了一种序列化多特征指导的跨媒体哈希检索方法,能够学习不同媒体间多种尺度之间的关联关系,比现有方法达到更高的检索准确率。
为达到以上目的,本发明采用的技术方案如下:
一种序列化多特征指导的跨媒体哈希检索方法,包括以下步骤:
(1)建立图像和文本的数据库,分别提取图像和文本在多种尺度下的特征;
(2)将图像、文本的不同尺度特征按设定的顺序分别输入到两路循环神经网络,并计算图像和文本的哈希码;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811228921.8/2.html,转载请声明来源钻瓜专利网。