[发明专利]一种提速的基于IPC编码的查询处理方法有效
申请号: | 201710035078.0 | 申请日: | 2017-01-17 |
公开(公告)号: | CN106909621B | 公开(公告)日: | 2020-02-11 |
发明(设计)人: | 付玺;王斌;李鹏;王卿;李雄;徐杰;马宏远 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/24 | 分类号: | G06F16/24;G06F16/22 |
代理公司: | 11200 北京君尚知识产权代理有限公司 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提速 基于 ipc 编码 查询 处理 方法 | ||
本发明涉及一种提速的基于IPC编码的查询处理方法。该方法把IPC编码下的索引文件视为树形的跳表文件,实现快读略过子树的算法;在处理布尔的求交查询时,根据链表的单调性判断是否略过(skip)某些子树,略过(skip)操作可节省大量时间从而提高线上布尔查询处理速度;在处理排序查询时,使用常见的TAAT处理方式与continue机制,根据ID列表的求交结果的位置可以快速取出对应的频率的索引文件的对应的值,通过略过所有不必要访问的子树的手段提高线上排序查询的处理速度。本发明根据IPC编码的特点优化了查询速度(包括布尔查询与排序查询),优化了检索系统的用户体验。
技术领域
本发明属于信息技术领域,具体涉及一种提速的基于IPC编码的查询处理方法。
背景技术
目前的检索系统里大多采用倒排索引作为处理用户查询的数据结构。倒排索引文件(IF)通常比较大,一般不能完整地放入内存,因此实际在应用时对索引文件都要进行按照某种编码进行压缩。一般来说,压缩率越高的编码在线上进行查询处理时会更加慢一些,因此所有的编码都是在空间跟处理时间上找平衡点。
在编码ID的索引文件时有两种基本的策略,一种是编码原始的递增的值,另一种是编码连续两个递增的值之间的差值(delta编码)。一般来说差值远远小于原值,因此编码差值可能会带来一些压缩率的提高。但某些原值编码中也有非常高效的编码。
当前在产业界用的比较多的是PFD编码(Marcin Zukowski,Sandor Heman,NielsNes and Peter Boncz.Superscalar RAM-CPU cache compression.In Proceedings ofthe 22nd International Conference on Data Engineering(ICDE),no.59,pages 1-12.IEEE,2006.),PFD编码属于delta编码,它利用了ID的差值的分布特征,将90%较小的delta值根据最大字长位对齐顺序地存储,而把10%的较大值作为特例单独用变长编码存储。PFD编码的压缩率跟解压速度都可以让人接受,实现简单,因此在工业上得到广泛应用。它的缺点是它建立在差值的分布特性的假设的前提下,在不满足这个假设的时候它的压缩率不算太高。
IPC编码是一种在原值上的编码(Alistair Moat and Lang Stuiver.Binaryinterpolative coding for effective index compression.Information Retrieval,vol.3,no.1,pages 25-47,2000.),它需要编码在递增的原值上。具体做法是对某个列表或者子列表先编码其中值,并根据最大与最小乃至区间长度来判断中值的取值区间,根据此区间来决定编码该值占几个存储字长。在确定了中值后,原区间被平分为两个子区间,在子区间上的递归地进行这样编码中值的操作,直至子区间的长度为0。
IPC的编码是一个树形结构,通过这种递归地减小区间的方法,最后能以很小的长度编码各值,这也是它压缩率非常高的原因。但是同样可以看到在编码时它需要更多的计算,例如计算上下限等等,而它的解码需要复原这个过程,因此速度是比较慢的,在布尔与排序查询中IPC编码的速度大约是PFD编码速度的1/4与1/3。
此外还存在其他的编码,但在所有的主流编码中,IPC编码的压缩率是最高的,也是线上处理速度偏慢的一种。
IPC编码因为其高压缩率会被用在某些有着严格存储空间限制的应用场景内,例如超大规模数据量的检索系统或者嵌入式系统等等。但IPC编码最大的缺点在于解压速度较慢,由此导致在线上处理的速度也偏慢。例如常见的OPTPFD编码的一个rank查询的处理时间大约为IPC编码的1/3。虽然IPC编码拥有不错的压缩率,但是线上的查询处理时间会增大使用用户的等待时间,因此限制了它的进一步应用。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710035078.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种超高分子量聚乙烯纤维防弹板材
- 下一篇:一种防暴盾牌