[发明专利]一种用于离线搜索的小规模索引数据存储方法有效
| 申请号: | 201510884263.8 | 申请日: | 2015-12-04 |
| 公开(公告)号: | CN105426519B | 公开(公告)日: | 2018-12-14 |
| 发明(设计)人: | 许军才;张卫东;赖金辉;任青文;沈振中 | 申请(专利权)人: | 河海大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 陈静 |
| 地址: | 211100 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用于 离线 搜索 小规模 索引 数据 存储 方法 | ||
本发明公开了一种用于离线搜索的小规模索引数据存储方法,包括如下步骤:将数据内容按照从0开始的顺序编号,将各标题存入数组中;逐一对数据内容拆分关键字;逐一将拆分的关键字存入关联数组结构中,关联数组的键就是关键字本身,关联数组的值就是一个大二进制数,某位n为1表明该关键字在第n篇网页或文档中存在,为0表示不存在;在对所有内容完成分析之后,对关联数组做内容压缩,即压缩关联数组的值,将连续相同的位采用行程压缩方法做第一次压缩;将关联数组做序列化输出成字符串,对该字符串再次压缩。本发明提供的索引数据存储方法,具有结构简单,数据紧凑,查询速度快,以及对组合查询运算友好的特性。
技术领域
本发明属于数据存储领域,尤其涉及一种用于离线搜索的小规模索引数据存储方法。
背景技术
全文搜索是一种普遍的需求,无论是对网站,还是对文档,全文检索都是一种非常方便的搜索方式。传统的全文检索都是在服务器端建立索引结构,在客户端也就是Web端输入查询指令,服务端接受查询指令,在服务端完成搜索任务,然后将结果返回客户端,典型的如Google,百度等搜索引擎。针对小规模的数据如企业网站或一般的技术文档等,数据量有限,采用传统的在线全文检索方式成本较高,特别是检索过程较复杂,受网络环境影响较大,用户体验较差。
发明内容
发明目的:本发明旨在解决现有技术中的问题,提出一种用于离线搜索的小规模索引数据存储方法。
技术方案:本发明提供了一种用于离线搜索的小规模索引数据存储方法,包括如下步骤:
(1)将数据内容按照从0开始的顺序编号,将各标题存入数组中;
(2)逐一对数据内容拆分关键字;
(3)逐一将步骤(2)中拆分的关键字存入关联数组结构中,关联数组的键就是关键字本身,关联数组的值就是一个大二进制数,某位n为1表明该关键字在第n篇网页或文档中存在,为0表示不存在;
(4)在对所有内容完成前述步骤(1)~步骤(3)的分析之后,对关联数组做内容压缩,即压缩关联数组的值,将连续相同的位采用行程压缩方法做第一次压缩;
(5)将步骤(4)中关联数组做序列化输出成字符串,对该字符串再次压缩;如果网站服务器支持gzip压缩方式,则直接利用网站服务器来压缩;
(6)客户端在取得经压缩的关联数组字符串之后,将其解压并反序列化,获得关联数组索引结构;
(7)在用户查询单一关键字时,用Javascript从关联数组中查询关键字,如果找到了,将该键的值表达成查询结果,返回一个有网页或文档标题的列表;
(8)对于组合查询,用Javascript从关联数组中查询各关键字,将其找到的值做组合运算,其运算结果即为结果大二进制数字,如果某位位1则该篇网页或文档存在,为0则不存在,给用户返回一个查询结果即可。
有益效果:针对小规模的全文搜索,本发明建立一种简洁紧凑的索引数据存储结构,在用户第一次查询时,将索引数据下载到客户端也就是Web端,此后的所有全文检索都是在客户端完成,省去了网络交互过程,提高了用户体验。本发明提供的索引数据存储方法,具有结构简单,数据紧凑,查询速度快,以及对组合查询运算友好的特性。
附图说明
图1是为本发明流程图。
具体实施方式
下面将结合附图,对本发明的实施案例进行详细的描述;
如图1所示,一种用于离线搜索的小规模索引数据存储方法,包括如下步骤:
(1)将数据内容如网页,文档章节等按照从0开始的顺序编号;将标题等资料存入数组中;
(2)逐一对数据内容拆分关键字;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510884263.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种页面信息选取的方法及装置
- 下一篇:一种基于树形结构的索引方法





