[发明专利]一种区间持久性top-k查询的双哈希表关联方法有效

专利信息
申请号: 201210080249.9 申请日: 2012-03-23
公开(公告)号: CN102663030A 公开(公告)日: 2012-09-12
发明(设计)人: 张勇;明华;邢春晓 申请(专利权)人: 清华大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京聿宏知识产权代理有限公司 11372 代理人: 王建军;谢鑫
地址: 100084 北京市海淀区1*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 区间 持久性 top 查询 双哈希表 关联 方法
【说明书】:

技术领域

发明涉及数据库以及查询领域,尤其涉及一种区间持久性top-k查询的双哈希表关联方法。

背景技术

随着互联网的迅猛发展以及信息量的爆炸性增长,精确搜索用户所需信息的难度越来越大,如何从海量数据中查找到用户最关心的信息已成为业界普遍关注的问题。因此,出现了top-k查询技术,即根据评分函数在潜在的数据空间中返回k个最重要的结果。此技术非常有效而且已经非常成熟,广泛应用于各个领域。有效地解决了从海量数据中精确查询的排名问题,与全文检索技术一起为数据库查询领域作出了巨大的贡献,深受用户欢迎。文档是记录各类信息的重要载体,其重要性不言而喻。企业特别是大中型企业,文档数据呈现一些新的特点:类型多样、数量日益剧增,版本更新频繁等等。大量的文档数据以及文档产生的不同版本对关键词的查询检索提出了新的难题:随着时间的推移,电子文档(包括企业文档、各类网站电子文档等)的内容不断地被更新或修改逐渐形成各种不同的版本,每个版本具有一个有效的时间间隔。一般而言,在此时间间隔内文档与关键词的匹配度恒定,而在此时间间隔外每个版本的内容与查询关键字的相关性(匹配度)不尽相同,正是由于这种相关性(匹配度)在查询条件的时间范围内存在不同,致使传统查询(如:top-k查询、全文检索等)方法都无法返回精确的结果。因此,引入了区间持久性top-k查询技术。此技术能返回长期处于top-k结果中表现主题一致的文档对象。弥补了top-k查询技术只能返回某一时间点的、(查询关键字与文档内容匹配度)得分不变的、前k个最重要结果的缺陷。区间持久性top-k查询能有效地查找到长期反映某一主题的文档对象,为文档的版本管理和涉及时间序列的版本查询等领域提供了一种有效的技术。

区间持久性top-k查询技术是针对文档的不同版本,查询关键字与文档内容的相关性得分随时间不同而不同的一种新型的查询技术。返回处于top-k结果列表中时间长度最长的k个记录。定义:假如一个文档集D由n个文档{d1,...,dn}组成,每个文档di∈D存在多个不同的版本,每个版本vd∈d有一个有效的时间间隔[vd.tb,vd.te],假如同一文档的不同版本的时间间隔不重叠。设q为一查询(关键字集qW和时间间隔[q.tb,q.te])。给定一个整数k(0<k<n)和一个实数r(0<r≤1,r表示松弛因子,是一个可调整大小的变量),区间持久性top-k问题是为了找到所有的d∈D使得每一个文档d出现在top-k结果集中的时间总长度不于r×[q.te-q.tb]。

目前,国内基本还没有相关的研究,国外对区间持久性top-k查询技术研究尚处于初级阶段。相关的研究有一致top-k查询技术,但这种技术需要预先定义对象的排名,解决不了非预先定义(ad-hoc)的、查询关键字与文档内容匹配权重不同的查询问题。区间持久性top-k查询是关于文档版本的查询问题。算法包括:穷举法、贪婪法、动态自适应算法DDA(Dynamic Adaptive Algorithm)、BBA(Band based Algorithm)算法以及物化思想等。

穷举法和贪婪法需要将所有记录从头到尾检索一遍,时间效率极低。DDA是对究举法和贪婪法的改进,设置阀值以尽快结果查询,但是需要为每个元组记录上边界和下边界,将占据大量的存储空间,BBA算法是前几种算法的优化,同样需要大量的存储空间来保存候选带以及top-k带的记录段。这些算法能够实现区间持久性top-k查询,但存在某些方面的缺陷。

发明内容

针对现有技术中存在的上述问题,本发明提供了一种区间持久性top-k查询的双哈希表关联方法。

本发明提供了一种区间持久性top-k查询的双哈希表关联方法,包括:

步骤10,输入关键词和查询时间范围;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210080249.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top