[发明专利]一种文件内容检索方法及系统有效
申请号: | 201711497567.4 | 申请日: | 2017-12-28 |
公开(公告)号: | CN108460075B | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 顾明毅 | 申请(专利权)人: | 上海顶竹通讯技术有限公司 |
主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/16;G06F16/14 |
代理公司: | 上海翼胜专利商标事务所(普通合伙) 31218 | 代理人: | 翟羽;赵娟娟 |
地址: | 201108 上海市闵*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文件 内容 检索 方法 系统 | ||
本发明提供了一种文件内容检索方法及系统,方法包括:(1)设置目录以对数据文件信息进行分类,所述目录的名称包含分类信息;(2)设置文件名,所述文件名的名称包含分类信息;(3)针对关键字构建索引文件,以通过所述关键字查找包含所述关键字的文件内容;(4)设置内容索引以根据所述关键字直接定位到文件内容,并提取出包含所述关键字的文件内容信息。本发明可以实现对文件内容的快速检索,且不需要大容量数据库支撑、索引构建方式简单、文件内容查询效率高。
技术领域
本发明涉及计算机技术领域,尤其涉及一种构建索引以快速检索文件数据的文件内容检索方法及系统。
背景技术
大数据背景下,大量的数据和信息需要保存到数据库或磁盘文件中。以通讯网络中的信令信息的采集和分析为例,通讯网络中往往需要采集大量的用户的信令生成呼叫信令记录(CDR),通过对信令过程的识别汇总和总结来对网络状况进行分析和监控,以对特殊用户的行为进行监控。CDR的数据量非常庞大,每天会产生几个TB的数据。大量的CDR形成文件,保存到磁盘中,查询时会消耗很大的时间。
现有的文件内容检索存在的不足之处在于:需要大容量数据库支撑,成本高昂、部署复杂;为了快速的检索到所需要的文件内容信息,需要构建大量的索引,索引文件需要通过匹配、遍历等方式获取,构建方式复杂;文件内容查找时,需遍历整个文件以获取有效信息,查询效率低。
发明内容
本发明的目的在于,针对现有技术中文件内容检索存在的需要大容量数据库支撑、索引构建方式复杂、文件内容查找需遍历整个文件查询效率低的技术问题,提供一种文件内容检索方法及系统,实现对文件内容的快速检索。
为了实现上述目的,本发明提供了一种文件内容检索方法,所述方法包括:(1)设置目录以对数据文件信息进行分类,所述目录的名称包含分类信息;(2)设置文件名,所述文件名的名称包含分类信息;(3)针对关键字构建索引文件,以通过所述关键字查找包含所述关键字的文件内容;(4)设置内容索引以根据所述关键字直接定位到文件内容,并提取出包含所述关键字的文件内容信息。
为了实现上述目的,本发明还提供了一种文件内容检索系统,包括:目录设置单元,用于设置目录以对数据文件信息进行分类,所述目录的名称包含分类信息;文件名设置单元,用于设置文件名,所述文件名的名称包含分类信息;索引文件构建单元,用于针对关键字构建索引文件,以通过所述关键字查找包含所述关键字的文件内容;内容索引设置单元,用于设置内容索引以根据所述关键字直接定位到文件内容,并提取出包含所述关键字的文件内容信息。
本发明的优点在于:数据组织简单,不需要代价高昂的大容量数据库支撑;数据文件和索引文件大小可根据系统性能和数据文件信息特点进行调整,以配合硬件的最佳IO效率为标准,提高整体效率;数据文件保存的路径和索引文件名称设置方便,数据文件保存的中间路径或索引文件名称均可以直接构造获取,不需要通过匹配、遍历等方式获取,提高查询的效率;文件内容查找时,只需要打开含有所需信息的数据文件,无需遍历整个数据文件即可获取有效信息,查询效率高。
附图说明
图1,本发明所述的文件内容检索方法的流程图;
图2,本发明所述的文件内容检索系统的架构图。
具体实施方式
大数据背景下,收集到数据信息可以使用文件方式保存到磁盘或其他的永久存储介质中,文件分目录进行存储。本发明提出一种文件内容检索方法及系统,充分利用目录、文件名、文件索引和内容索引协同工作实行对文件内容的快速检索。下面结合附图以及具体实施方式做详细说明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海顶竹通讯技术有限公司,未经上海顶竹通讯技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711497567.4/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法