[发明专利]一种基于Lucene的桌面搜索系统及方法有效
申请号: | 201210280166.4 | 申请日: | 2012-08-08 |
公开(公告)号: | CN102819592B | 公开(公告)日: | 2012-12-12 |
发明(设计)人: | 冯钧;胡小克;聂妮;付言章;唐志贤;卞一路;盛震宇;许潇;徐黎明;史涯晴 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lucene 桌面 搜索 系统 方法 | ||
技术领域
本发明涉及一种基于Lucene的桌面搜索系统及方法,属于信息技术处理领域。
背景技术
信息爆炸的时代,硬盘容量不断增大,本地文件系统目录结构越来越复杂,文件数量越来越庞大,对文件快速搜索的需要也越来越迫切,桌面搜索应运而生。桌面搜索,是一种个人计算机上存储的信息进行索引、查找的检索工具,面向个人文档管理,在个人信息管理领域中受到用户的欢迎。
目前较为成熟的桌面搜索引擎有Google Desktop Search、百度硬盘搜索、网络猪、微软桌面搜索等商用免费软件,其功能较为强大,但是建立索引需要时间长,更新索引速度慢,索引实时性不高,硬盘等系统资源占用率高。另外由于商业利益存在,桌面搜索系统涉及用户本地磁盘文件,用户安全性和可扩展性受到限制,从用户体验、索引实时性和系统资源占用率上来说,都有很大的欠缺。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种实时性好、占用资源少的基于Lucene的桌面搜索系统及方法。
技术方案:一种基于Lucene的桌面搜索系统,所述系统在Lucene的基础上扩充了中文处理和文本分析功能,包括四个模块:
索引文件构建模块,用于系统第一次启动时为存储在磁盘上包含文本信息的文件建立倒排索引;
索引文件实时更新模块,用于实现对文件删除与修改等操作监控与索引更新,确保文件与索引信息一致;
索引文件定时更新模块,用于当系统停止运行时间达到规定值时重新扫描磁盘上包含文本信息的文件,更新索引文件;
用户交互模块,用于接收用户的查询请求,并进行相似度计算,将查询结果由高到低排列返回给用户。
一种基于Lucene的桌面搜索方法,包括以下步骤:
步骤1,若系统在计算机上第一次启动,则进入步骤2,否则进入步骤4;
步骤2,扫描本地磁盘的所有文件,根据文件扩展名识别出word、pdf、html等各种包含文本信息的文件,提取文本和元数据;
步骤3,为文本文件建立倒排索引和索引文件列表,所述索引文件列表记录文本文件的路径和修改时间;进入步骤5;
步骤4,查看系统停止运行时间,更新索引和索引文件列表。具体包括以下步骤:
步骤4-1,判断系统停止运行时间是否达到规定值:
若停止运行时间已经达到规定值,进入步骤4-2;
若停止运行时间没有达到规定值,进入步骤4-3;
步骤4-2,重新扫描存储在磁盘上包含文本信息的文件,获取文本文件后,与索引文件列表相比较,分析文件在系统停止运行期间发生的变化;
步骤4-3,实时监听系统文件变化,包括:文件创建、文件修改、文件删除和文件重命名;
步骤4-4,获取文件变化后,更新索引和索引文件列表中相应的信息,确保文件和索引信息一致;
步骤5,接受用户的查询请求,允许用户指定要查找的文件类型和文件修改时间的范围;
步骤6,获得用户的查询请求后,将查询请求按照词典分词进行切分处理,读取经切分处理后的词对应的倒排索引信息,利用索引计算查询与文件的相似度,将查询结果由高到低排列返回给用户。
所述步骤2分析包含文本信息的文件时,实现Lucene的解析文本的接口,通过配置文件,使用不同的解析器处理不同格式的文本以提取文本和元数据。
所述步骤2分析包含文本信息的文件时,使用IKAnalyzer分词器处理中文,结合词典分词和文法分析算法拆分文本信息。
所述步骤4-2获取文本文件后,与索引文件列表相比较,为不在索引文件列表中的文本文件创建索引,更新修改时间在索引文件列表中记录的时间之后的文本文件的索引信息,删除索引文件列表中存在但磁盘上不存在的文本文件的索引信息。
本发明与现有技术相比,具有的有益效果是:
本发明是一种基于Lucene的桌面搜索系统及方法,索引文件格式独立于应用平台,在传统全文检索引擎的倒排索引的基础上实现了分块索引,提升索引速度。在Lucene的面向对象的系统架构上,方便扩充新功能,便于后续的维护和升级。本发明的两种索引文件更新方法用于获取系统文件变化,确保文件和索引信息的一致,拥有较高的查全率和查准率。
附图说明
图1为本发明实施例的系统框图;
图2为本发明实施例的方法流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210280166.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:变坡胶带运输机
- 下一篇:一种人造革用离型涂料及利用该离型涂料制备的离型纸