[发明专利]一种用于离线搜索的小规模索引数据存储方法有效

专利信息
申请号: 201510884263.8 申请日: 2015-12-04
公开(公告)号: CN105426519B 公开(公告)日: 2018-12-14
发明(设计)人: 许军才;张卫东;赖金辉;任青文;沈振中 申请(专利权)人: 河海大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 陈静
地址: 211100 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 离线 搜索 小规模 索引 数据 存储 方法
【说明书】:

发明公开了一种用于离线搜索的小规模索引数据存储方法,包括如下步骤:将数据内容按照从0开始的顺序编号,将各标题存入数组中;逐一对数据内容拆分关键字;逐一将拆分的关键字存入关联数组结构中,关联数组的键就是关键字本身,关联数组的值就是一个大二进制数,某位n为1表明该关键字在第n篇网页或文档中存在,为0表示不存在;在对所有内容完成分析之后,对关联数组做内容压缩,即压缩关联数组的值,将连续相同的位采用行程压缩方法做第一次压缩;将关联数组做序列化输出成字符串,对该字符串再次压缩。本发明提供的索引数据存储方法,具有结构简单,数据紧凑,查询速度快,以及对组合查询运算友好的特性。

技术领域

本发明属于数据存储领域,尤其涉及一种用于离线搜索的小规模索引数据存储方法。

背景技术

全文搜索是一种普遍的需求,无论是对网站,还是对文档,全文检索都是一种非常方便的搜索方式。传统的全文检索都是在服务器端建立索引结构,在客户端也就是Web端输入查询指令,服务端接受查询指令,在服务端完成搜索任务,然后将结果返回客户端,典型的如Google,百度等搜索引擎。针对小规模的数据如企业网站或一般的技术文档等,数据量有限,采用传统的在线全文检索方式成本较高,特别是检索过程较复杂,受网络环境影响较大,用户体验较差。

发明内容

发明目的:本发明旨在解决现有技术中的问题,提出一种用于离线搜索的小规模索引数据存储方法。

技术方案:本发明提供了一种用于离线搜索的小规模索引数据存储方法,包括如下步骤:

(1)将数据内容按照从0开始的顺序编号,将各标题存入数组中;

(2)逐一对数据内容拆分关键字;

(3)逐一将步骤(2)中拆分的关键字存入关联数组结构中,关联数组的键就是关键字本身,关联数组的值就是一个大二进制数,某位n为1表明该关键字在第n篇网页或文档中存在,为0表示不存在;

(4)在对所有内容完成前述步骤(1)~步骤(3)的分析之后,对关联数组做内容压缩,即压缩关联数组的值,将连续相同的位采用行程压缩方法做第一次压缩;

(5)将步骤(4)中关联数组做序列化输出成字符串,对该字符串再次压缩;如果网站服务器支持gzip压缩方式,则直接利用网站服务器来压缩;

(6)客户端在取得经压缩的关联数组字符串之后,将其解压并反序列化,获得关联数组索引结构;

(7)在用户查询单一关键字时,用Javascript从关联数组中查询关键字,如果找到了,将该键的值表达成查询结果,返回一个有网页或文档标题的列表;

(8)对于组合查询,用Javascript从关联数组中查询各关键字,将其找到的值做组合运算,其运算结果即为结果大二进制数字,如果某位位1则该篇网页或文档存在,为0则不存在,给用户返回一个查询结果即可。

有益效果:针对小规模的全文搜索,本发明建立一种简洁紧凑的索引数据存储结构,在用户第一次查询时,将索引数据下载到客户端也就是Web端,此后的所有全文检索都是在客户端完成,省去了网络交互过程,提高了用户体验。本发明提供的索引数据存储方法,具有结构简单,数据紧凑,查询速度快,以及对组合查询运算友好的特性。

附图说明

图1是为本发明流程图。

具体实施方式

下面将结合附图,对本发明的实施案例进行详细的描述;

如图1所示,一种用于离线搜索的小规模索引数据存储方法,包括如下步骤:

(1)将数据内容如网页,文档章节等按照从0开始的顺序编号;将标题等资料存入数组中;

(2)逐一对数据内容拆分关键字;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510884263.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top