[发明专利]二进制特征的检索方法和系统有效
申请号: | 201410143079.3 | 申请日: | 2014-04-10 |
公开(公告)号: | CN104978350B | 公开(公告)日: | 2019-04-12 |
发明(设计)人: | 李岩 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 王茹;黄晓庆 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 二进制 特征 检索 方法 系统 | ||
本发明提供一种二进制特征的检索方法,包括如下步骤:获取待查询二进制特征,计算所述待查询特征的跳变次数;其中,所述跳变次数为所述二进制特征中连续的比特值变化次数;根据所述待查询二进制特征的跳变次数及预设的二进制特征集中各个二进制特征的跳变次数,获得比较集合;将所述待查询二进制特征与所述比较集合中的二进制特征进行穷举比较,获得检索结果。本发明还提供对应的二进制特征的检索系统,本发明能有效地减少检索时间,提高检索精度。
技术领域
本发明涉及数据检索技术领域,特别是涉及一种二进制特征的检索方法,以及一种二进制特征的检索系统。
背景技术
二进制特征是图像、音频、文本等多媒体内容分析和其他数据分析常用的特征。比如图像领域中的BRIEF特征、ORB特征、BRISK特征、FREAK特征等,文本分类中的simhash特征等。
如何实现近邻搜索,即如何在一个二进制特征集合中快速查找某特征的近似最近邻和R近邻成为一个非常关键的问题。
目前常用的算法有:穷举式搜索、基于hash函数的搜索、基于层状树结构的搜索。
虽然二进制特征的数据结构较为简单,但是对于海量数据产生的二进制特征采用穷举式搜索的速度还是很慢,无法满足大数据下实时搜索的需求。
基于hash函数的搜索通过对二进制特征中的比特位进行抽样,进行首次比较过滤,然后再用剩余的比特位进行校验。该方法虽然比较简单,但是hash函数的选择及函数的个数都难以确定。
基于层状树的结构的搜索需要对二进制特征数据集上进行聚类,形成K个类别,每个类别中的特征相互之间的距离较小,不同类别的特征之间距离较大;之后再从K个类别中随机选择1个特征作为该类别的代表,将每个类别的特征再进行聚类,以此类推,构建一个树结构。该方法需获得训练集,检索精度与训练集有关,因此检索精度难以保证。
发明内容
基于此,本发明提供一种二进制特征的检索方法及系统,能有效地减少检索时间,提高检索精度。
一种二进制特征的检索方法,包括如下步骤:
获取待查询二进制特征,计算所述待查询特征的跳变次数;其中,所述跳变次数为所述二进制特征中连续的比特值变化次数;
根据所述待查询二进制特征的跳变次数及预设的二进制特征集中各个二进制特征的跳变次数,获得比较集合;
将所述待查询二进制特征与所述比较集合中的二进制特征进行穷举比较,获得检索结果。
一种二进制特征的检索系统,包括:
计算模块,用于获取待查询二进制特征,计算所述待查询特征的跳变次数;其中,所述跳变次数为所述二进制特征中连续的比特值变化次数;
第一获取模块,用于根据所述待查询二进制特征的跳变次数及预设的二进制特征集中各个二进制特征的跳变次数,获得比较集合;
比较模块,用于将所述待查询二进制特征与所述比较集合中的二进制特征进行穷举比较,获得检索结果。
上述二进制特征的检索方法及系统,针对二进制特征的特点,记录二进制特征中连续的比特值变化次数作为跳变次数,根据二进制特征集中各个特征的跳变次数,当获取到待查询二进制特征时,根据两者的跳变次数,获得比较集合;由于比较集合中得到了与待查询二进制特征跳变次数较为接近的特征,穷举比较的数量较少,能更加快速地获得检索结果。
附图说明
图1为本发明二进制特征的检索方法在一实施例中的流程示意图。
图2为图1中索引树的结构示意图。
图3为本发明二进制特征的检索系统在一实施例中的结构示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410143079.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可重复使用集装袋
- 下一篇:新型测温饮料盒