[发明专利]一种基于solr技术的分布式搜索方法及系统在审
申请号: | 201310577657.X | 申请日: | 2013-11-19 |
公开(公告)号: | CN104142968A | 公开(公告)日: | 2014-11-12 |
发明(设计)人: | 吴含前;姚莉;王存哲;李露 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京瑞思知识产权代理事务所(普通合伙) 11341 | 代理人: | 李涛 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 solr 技术 分布式 搜索 方法 系统 | ||
1.一种基于solr技术的分布式搜索方法,其特征在于,包括以下步骤:
1)当离线客户端系统对电子文件进行登记归档时,首先基于朴素贝叶斯算法,对电子文件进行自动分类;
2)电子文件分类完毕后,根据电子文件所属类别,基于一致性哈希算法对电子文件进行分布式索引,索引的内容包括电子文件的重要元数据和电子文件包含的电子文档的相关元数据;
3)索引文件建立完毕后,用户输入查询语句进行电子文件的查询;
其中,所述步骤3)具体包括:采用开源搜索工具Solr的分发模式,将查询请求分发到分布式节点,各个分布式节点响应搜索请求,然后对结果进行合并去重,排序好后返回给用户。
2.根据权利要求1所述的基于solr技术的分布式搜索方法,其特征在于,所述步骤1)中对电子文件进行自动分类时,采用协调因子来动态调整自动分类的侧重面,所述协调因子的大小为0-1。
3.根据权利要求2所述的基于solr技术的分布式搜索方法,其特征在于,所述协调因子的大小为0.5。
4. 根据权利要求1所述的基于solr技术的分布式搜索方法,其特征在于,所述步骤1)中的朴素贝叶斯算法,具体包括以下步骤:
1.1)词库的选择与处理:采用搜索引擎的索引工具对词库中相应类别的文档分别进行索引处理;
1.2)提取待分类文档的特征词:采用搜索引擎的安装组件,对文档的摘要和关键字信息进行提取,然后对提取出的关键字进行去重,提选取特征词;
1.3)将提取出的特征词采用贝叶斯公式与词库样本文档进行贝叶斯计算,获取待分类文档针对每个分类的概率,然后比较概率值,获取最大的概率,从而找到待分类文档的所属类别。
5.根据权利要求4所述的基于solr技术的分布式搜索方法,其特征在于,所述步骤1.3)中所述的贝叶斯公式为:
Class(d)=argmax P(c|d);
其中,d:文档;
c:分类;
class(d):文档所属的类别;
p(c|d):文档d属于类别c的概率;
argmaxP(c|d):文档属于某一类别的最大值;
其中的P(c|d)的值由以下公式得出:
P(c|d)=λP(c)+ (1-λ)bayes(c|d);
其中,P(c):给定分类的集合,在集合中属于c类的概率,取值为P(c)=1/n,其中n表示分类的个数;
λ:协调因子;
bayes(c|d):利用贝叶斯公式求出文档d属于类别c的概率。
6.一种分布式搜索系统,其特征在于,所述系统包括:
自动分类器,用于对电子文件进行自动分类;
分布式索引和搜索装置,采用Solr的复制模式和分发模式,由复制模式对分布式节点的索引文件进行备份,由分发模式进行分布式的搜索。
7.根据权利要求6所述的分布式搜索系统,其特征在于,所述系统还包括对查询语句进行智能提示的智能提示装置、对搜索结果进行自动分组统计的分组统计装置和搜索结果权限过滤装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310577657.X/1.html,转载请声明来源钻瓜专利网。