[发明专利]全文检索方法和全文检索装置在审
申请号: | 201710421974.0 | 申请日: | 2017-06-07 |
公开(公告)号: | CN109002444A | 公开(公告)日: | 2018-12-14 |
发明(设计)人: | 师光强;张丹;于晓明;王卿 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京友联知识产权代理事务所(普通合伙) 11343 | 代理人: | 尚志峰;汪海屏 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 全文检索 内存数据库 索引库 全文检索装置 存储域 内存 程序设计 可扩展性 索引更新 系统资源 复杂度 索引 写入 存储 缓解 | ||
本发明提供了一种全文检索方法和全文检索装置,其中,全文检索方法包括:在将存储域的数据导入至各个内存的内存数据库时,生成每个内存数据库对应的一个索引库;将每个内存数据库中导入数据的存储域写入对应的索引库,其中,索引库中存储有数据的索引。通过本发明技术方案,在全文检索时,缓解了系统的内存压力,节省了系统资源,提高了索引更新速度,降低了程序设计的复杂度,增强了系统的可扩展性。
技术领域
本发明涉及全文检索技术领域,具体而言,涉及一种全文检索方法和一种全文检索装置。
背景技术
相关技术中,信息数据中海量的非机构化数据进行处理时,需要使用全文检索技术,该技术首先对非结构化数据进行处理,使其变得有一定结构并对其保存,搜索过程类似字典查字过程,针对关键词进行查找。全文检索支持的常用功能有单库检索、多库检索、统计检索、排序检索、消重检索、精确检索等。全文检索系统的按域统计和按域排序功能,依赖文档对应域的域值信息,为了保证速度,避免频繁的读取磁盘文件,全文检索系统通常将过程中使用到的数据预加载至系统内存中,若要对多个域支持按域统计或排序,需要将每一个域的数据均预加载至全文检索系统内存中,上述技术方案存在以下弊端:
(1)随着支持的域的个数的增加,全文检索的内存消耗不断上涨,增加系统压力。
(2)对于有更新需求的域,由于全文检索基于倒排索引的检索结构,需标记旧数据并删除,然后为待更新数据新建索引,进而导致更新速度慢;每一次更新往往只涉及数据当中的有限部分,并不需要重建索引,系统资源浪费严重;索引更新过程需要复杂的线程同步策略,使得程序设计复杂化。
(3)需要增加或删除对特定域的按域统计或排序支持时,必须删除所有索引重建,浪费系统资源,系统可扩展性差。
发明内容
本发明正是基于上述技术问题至少之一,提出了一种新的全文检索技术方案,在将存储域的数据导入至各个内存的内存数据库时,通过生成每个内存数据库对应的一个索引库,同时将存储域写入对应的索引库,在全文检索过程中,缓解了系统的内存压力,节省了系统资源,提高了索引更新速度,降低了程序设计的复杂度,增强了系统的可扩展性。
有鉴于此,本发明提出了一种全文检索方法,包括:在将存储域的数据导入至各个内存的内存数据库时,每个内存数据库对应的一个索引库;将每个内存数据库中导入数据的存储域写入对应的索引库,其中,索引库中存储有数据的索引。
在该技术方案中,在将存储域的数据导入至各个内存的内存数据库时,通过生成每个内存数据库对应的一个索引库,同时将存储域写入对应的索引库,在全文检索过程中:当需要增加或删除特定存储域的数据时,仅在内存数据库中进行操作,不再需要反复的索引重建,增强了全文检索系统的可扩展性;当存储域的数据需要更新时,节省了全文检索系统的系统资源且降低了程序设计的复杂程度;当执行按域统计和排序检索时,通过调用内存数据库接口获取指定文档特定存储域的数据,实现全文检索系统的按域统计和排序功能。
其中,索引库中存储有数据的索引,并且索引与存储域的数据具有一一对应关系,存储域的数据更新的实现一般由删除和增加操作联合完成,存储域的数据导入过程中,暂停执行涉及到使用内存数据库中存储域的数据的检索请求。
在上述技术方案中,优选地,在将存储域的数据导入至内存数据库时,对已导入数据执行上载操作,以获取对应的文档文件;对文档文件创建索引,并解析文档文件的标识信息;判断文档文件的标识信息是否与索引库中的任一预存标识信息匹配;在判定文档文件的标识信息不与索引库中的任一预存标识信息匹配时,将文档文件的标识信息写入对应的索引库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710421974.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本信息的分类方法及装置
- 下一篇:一种智能化的水产养殖信息管理系统