[发明专利]一种应对可追加数据的索引方法在审
申请号: | 201710365878.9 | 申请日: | 2017-05-23 |
公开(公告)号: | CN108959308A | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 蒋步星 | 申请(专利权)人: | 北京润乾信息系统技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 索引数据 追加 索引 两段 重写 查询结果 查询数据 历史数据 满足条件 排序索引 数据更新 数据追加 索引结构 同步修改 重新生成 数据集 合成 合并 记录 维护 | ||
本发明提供了一种应对可追加数据的索引方法。当索引数据产生后,如果又产生了新的数据追加到了数据集,这时就需要对索引数据进行同步修改。如果重写索引数据,当历史数据特别巨大时,索引数据也可能特别巨大,这时追加少量数据也会导致重写整个索引数据,导致数据更新性能低。为了解决这个问题特设计了双索引结构,即在索引数据中维护了两段排序索引,现有数据一段,后追加数据一段,当追加的数据在追加索引中累积达到一定量时则重新生成索引数据把两段索引合成一段。当使用索引数据查询数据时,把两段索引的查询结果进行合并就得到了所有满足条件的记录了。
技术领域
本发明涉及索引,更具体地来说,特别涉及一种应对可追加数据的索引方法。
背景技术
计算机科学的发展提供了很多优秀的查找算法,例如二分查找(binary search)、二叉树查找(binary tree search)等。如果稍微分析一下会发现,每种查找算法都只能应用于特定的数据结构之上,例如二分查找要求被检索数据有序,而二叉树查找只能应用于二叉查找树上,但是数据本身的组织结构不可能完全满足各种数据结构(例如,理论上不可能同时将两列都按顺序进行组织),所以,在数据之外,系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法。这种数据结构,就是索引。
索引是一种单独的、物理的对数据集中一列或多列的值进行排序的一种存储结构,它是某个数据集中一列或若干列值的集合和相应的指向数据集中物理标识这些值的数据页的逻辑指针清单。索引的作用相当于图书的目录,可以根据目录中的页码快速找到所需的内容。
索引提供指向存储在数据集的指定列中的数据值的指针,然后根据您指定的排序顺序对这些指针排序。使用索引可以找到特定值,然后顺指针找到包含该值的行。
当数据集中有大量记录时,若要对数据集进行查询,第一种搜索信息方式是全数据集搜索,是将所有记录一一取出,和查询条件进行一一对比,然后返回满足条件的记录,这样做会消耗大量系统时间,并造成大量磁盘I/O操作;第二种就是在数据集中建立索引,然后在索引中找到符合查询条件的索引值,最后通过保存在索引中的ROWID(相当于页码)快速找到数据集中对应的记录。
索引被用作包含所关心数据的数据集指针。通过一个索引,能从数据集中直接找到一个特定的记录,而不必连续顺序扫描这个数据集,一次一个地去查找。对于大的数据集,索引是必要的。没有索引,要想得到一个结果要等好几个小时、好几天,而不是几秒钟。当经常查询某列或某几列中的数据时,也需要在数据集上创建索引。索引将占用磁盘空间,并且影响数据更新的速度。但是在多数情况下,索引所带来的数据检索速度优势大大超过它的不足之处。
目前排序结构的索引存在的技术缺点是,当索引数据产生后,如果又产生了新的数据追加到了数据集,这时就需要对索引数据进行同步修改。如果重写索引数据,当现有数据特别巨大时,索引数据也可能特别巨大,这时追加少量数据也会导致重写整个索引数据,导致数据更新性能低。
现有的另一种索引手段是以B树为结构,B树的特性:关键字集合分布在整棵树上;任何一个关键字出现而且只出现在一个结点中;搜索有可能在非叶子结点结束;其搜索性能等价于在关键字全集内做一次二分查找;自动层次控制。当数据集在面积的删除和增加的时候,需要动态的修改B树中的索引结构,为了实现B树的平衡,达到搜索二分法优化查询的作用,需要在B树非页结点中每个结点都留出一定的空间来记录新数据或者描述删除数据,这一部分被称作填充因子。B树的缺点在于实现过于复杂;在数据情况不好时B树不够平衡;当对其进行更新插入删除时,就需要在物理上移动以调整B树;上述缺点导致数据更新性能低。
现有技术存在的两种索引手段都有各自的优缺点,但是都不合适应用在只有追加而没有删除和修改这种情况下,针对这一问题本发明创造研发出新的一种索引手段,简单、高效的处理数据追加时索引的修改,保证数据更新性能高。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京润乾信息系统技术有限公司,未经北京润乾信息系统技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710365878.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:可扩展数据上报方法、系统、及存储介质
- 下一篇:数据分析的方法和装置