[发明专利]一种基于整数映射的XML数据库全文索引方法有效
| 申请号: | 201310071130.X | 申请日: | 2013-03-06 |
| 公开(公告)号: | CN103123650A | 公开(公告)日: | 2013-05-29 |
| 发明(设计)人: | 陈琳;王奎;张学伟;夏冬 | 申请(专利权)人: | 同方知网(北京)技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 刘黎明 |
| 地址: | 100084 北京市海淀区清华园清华*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 整数 映射 xml 数据库 全文 索引 方法 | ||
技术领域
本发明涉及数据库索引领域,尤其涉及一种基于整数映射的XML数据库全文索引方法。
背景技术
XML(Extensible Markup Language),作为一种广泛使用的可扩展标记语言,正成为数据信息管理领域的标准之一,而针对XML数据进行管理的数据库技术也正在快速地发展。在如何存储和检索XML数据这一领域,主要有两种方法:一种是在关系数据库中扩充相应功能,使之能胜任XML数据的处理;一种是充分考虑XML数据的特点,量身定做的原生XML数据库(Native XML Database),以自然的方式来处理XML数据。
在传统的关系数据库中,全文索引和检索作为不可缺的功能点而存在,相应的技术方案已经比较成熟。一般来说,全文索引会采用倒排索引的方式来存储某个单词在一个文档或一组文档中的存储位置,词频等信息的映射。在进行全文检索时,将检索语句切分成关键词后利用倒排索引查询,将关键词命中的记录行号,词频和位置信息进行进一步处理后返回给用户。
同样地,全文检索功能对于原生XML数据库来说也是一个重要的功能点。然而与关系数据库不同的是,由于XML文档具有特定的层次结构,因此在全文检索时需要进一步定位的是特定结构和内容的节点,而不仅仅是某篇文档。例如,用户可能会通过XPath语句“//book/content[contains(text(),“密码”)]”查询文档中所有book节点的子节点content,且该节点的文本内容中包含“密码”。
针对XML数据库的全文查询,目前的解决方案可以分为两种:一种方案是对文本内容建立倒排索引,并在单词对应的信息中保存路径信息,以满足结构查询的要求,查询时先根据关键词定位单词,然后再判断单词对应的路径是否满足用户输入的路径,这种方法的不足之处是当单词的数目远大于路径的数目时,会造成索引占用的物理空间过大,且重复存储的路径信息过多,影响查询效率;一种方案是根据路径结构信息建立路径索引,并在每个路径定位的路径末端节点信息中保存节点的文本内容,这种方法会导致每次查询时的字符串操作代价很大。因此,对于这种特殊的结构与数据相混合的XML全文查询,需要设计一种更有效率的全文索引结构和全文检索方法。
发明内容
为解决上述技术中存在的问题与缺陷,本发明提供了一种基于整数映射的XML数据库全文索引方法,该方法以可持久化整数映射的方式来实现XML全文索引,适用于XML数据库。所述技术方案如下:
一种基于整数映射的XML数据库全文索引方法,所述方法包括:
a对XML文档集合建立全文索引;b利用建好的全文索引进行全文检索所述步骤a具体包括:
计算并存储XML文档中数据节点对应的信息;
解析用户输入的XPath路径表达式,获取对应的节点集;
建立持久化的整数映射,将节点集中的每个节点映射到一个唯一的整数;
对节点内容进行全文索引;
所述步骤b具体包括:
解析用户输入的XML全文查询语句;
在关系表全文索引中查询关键字并返回虚拟列号整数;
在B树中查询虚拟列号整数,将匹配的节点结构信息与全文信息返回给用户。
本发明提供的技术方案的有益效果是:
本发明基于可持久化整数映射的方式,调用关系数据库的全文索引机制来实现XML数据库中XML文档节点全文索引,该索引占用物理空间小,不存在重复存储的路径信息,提高了查询效率。
附图说明
图1基于整数映射的XML数据库全文索引方法流程图;
图2是创建XML全文索引的过程示意图;
图3是进行XML全文检索的示意图;
图4是整数映射对应示例图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述:
本实施例提供了一种基于整数映射的XML数据库全文索引的方法,如图1所示,该方法包括如下步骤:
步骤10对XML文档集合建立全文索引;
步骤20利用建好的全文索引进行全文检索。
上述步骤10具体包括(如图2所示):
步骤101计算并存储XML文档中数据节点对应的信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网(北京)技术有限公司,未经同方知网(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310071130.X/2.html,转载请声明来源钻瓜专利网。





