[发明专利]一种内网环境文件深度检索方法有效

专利信息
申请号: 201310395964.6 申请日: 2013-09-04
公开(公告)号: CN103455605A 公开(公告)日: 2013-12-18
发明(设计)人: 陈厅;张小松;陈瑞东;牛伟纳;王东;张可;陈讲民;张建松 申请(专利权)人: 电子科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 成都华典专利事务所(普通合伙) 51223 代理人: 徐丰;杨保刚
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 环境 文件 深度 检索 方法
【说明书】:

技术领域

发明提出的一种内网环境文件深度检索方法,属于互联网通信和文件检索技术领域。

背景技术

在日常应用中,人们往往要面对大量的资料,如何从这些资料中找到需要的内容成了一个巨大的问题。一般而言,人们依赖于文件查找工具,根据关键字匹配文件名从而找到感兴趣的文件,然后打开文件查看内容确定该文件是否为所需要的,这个过程往往要循环多次之后才能找到完全满意的文件,无疑是低效率的。

在企业环境中,这种问题会更严重,来自不同地区的员工共享文件,但是由于网络的限制,导致检索文件和获取文件的速度都受到极大限制。全文索引技术是近年来发展出来的针对文件内容进行索引查找的技术,广泛应用于互联网搜索引擎和数据库领域。全文检索的原理就是通过定义词库,统计文章中词条出现的频率和位置,把这样的频率和位置依照词库的顺序归纳,这样就可以建立以词库为目录的索引,于是在查找某一个词条的时候可以快速定位到文件中。

在传统文件检索方法中,人们指定的关键字往往是文件名的一部分,当不知道文件名的时候就需要通过猜测的方式来不断尝试,从而找到正确的文件。在单机环境下,这种方式造成的复杂度还在可以接受的范围之内,当用户想要搜索整个内部网络中的文件时,则需要在每一个主机上重复上述操作,显然这是无法接受的。并且,传统的文件检索方式在应用到网络环境时,由于无法直接检索其他主机上的文件,也就只能针对网络中共享服务器等文件进行搜索,搜索的范围受到极大限制。传统文件检索方法也没有提供文件内容的全文索引,搜索的深度也受到极大的限制。同时,在传统方法中,为了获取文件,人们往往要访问FTP服务器或者其他用户的电脑,但是当用户不在同一网络中时,这一速度受到各种局限,无法达到令人满意的效果。

发明内容

本发明主要解决的技术问题在于,针对上述缺陷,提出了一种内网环境下文件深度检索方法,具体而言包括:

1、全文索引文件内容。部署在网络主机上的检索代理根据文件类型,对文件内容进行文本抽取,并对抽取到的文本内容进行全文索引。基于此技术,实现了针对不同类型文件的文件内容查找,是文件深度检索的关键所在。

2、分布式实现检索功能。文件检索功能通过部署在网络主机上检索代理实现,通过检索服务器集中管理检索代理并分发检索请求,从而获得检索结果。基于此技术,实现了文件检索服务的分布化,保障了检索功能的稳定和效率。

3、建立文件集中缓存。缓存服务器集中缓存了用户通过检索系统访问过的文件,确保用户高效获取文件。

4、主机隐私管理。用户可以选择加入或者不加入检索主机来规避检索服务器对本地文件的请求,同时也可以设置需要检索的目录,防止用户隐私文件泄露。

本发明为了实现上述目的提供了一种内网环境下文件深度检索方法:

1)检索代理安装在内网每一台需要加入文件检索服务的主机上,并且在每次启动检索代理后,向检索服务器注册登录;

2)检索代理配置本地需要加入检索的文件和目录,扫描本地目录并生成目录索引发送到检索服务器,检索代理扫描需要检索的文件和目录,抽取文件文本内容并生成全文索引;

3)检索代理监控本地文件变化,如果发生修改,及时更新内容索引,并向缓存服务器查询该文件是否被缓存,如果已经被缓存,则更新修改后的文件缓存服务器,同时删除旧版本文件,否则直接跳过不处理缓存服务器;

4)检索代理等待来自检索服务器的命令,根据命令检索本地索引,并返回检索结果;

5)检索服务器在收到用户发来的检索请求之后,首先查询本地保存的目录索引,生成基于文件名的查询结果,然后将检索请求发送到当前已注册登录的主机;

6)检索服务器等待检索代理返回检索结果,并将结果展示给外部用户;

7)外部用户查询检索结果,选择并获取感兴趣的文件F;

8)检索服务器查询该文件F是否已经缓存,如果没有则要求检索代理将文件发送到缓存服务器,完成后将缓存服务器上该文件F的地址发送给外部用户;

9)外部用户根据检索服务器返回的文件地址获取对应的文件F;

10)缓存服务器接收检索代理发送来的缓存文件,并在数据库中标记;

11)缓存服务器接收检索服务器和检索代理的命令,提供针对某个文件是否缓存的查询结果,提供文件的存储地址;

12)缓存服务器接收到外部用户发来的文件请求,根据外部用户发送的文件地址发送文件给用户;

13)缓存服务器定期按照配置的最大缓存容量和最长过期时间管理缓存,删除过期或者作废的文件。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310395964.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top