[实用新型]分布式搜索系统有效
申请号: | 201120150927.5 | 申请日: | 2011-05-12 |
公开(公告)号: | CN202084034U | 公开(公告)日: | 2011-12-21 |
发明(设计)人: | 吴志祥;张海龙;马和平;王专;吴剑;郭凤林;王晓钟;庞绍进 | 申请(专利权)人: | 苏州同程旅游网络科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 陈忠辉 |
地址: | 215123 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 搜索 系统 | ||
技术领域
本实用新型涉及一种搜索装置的结构分布,尤其涉及一种分布式搜索系统。
背景技术
搜索、索引和索引维护程序放在一台服务器上,配置上比较方便但带来的问题是,搜索并发量大的情况下,无法进行扩展,当索引数据量增大时,索引维护极其消耗服务器性能,会对搜索产生影响。
概述Lucene描述及结构
i.什么是Lucene
Lucene是一个基于Java的全文信息检索工具包,它不是一个完整的搜索应用程序,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种语言)。Lucene目前是Apache Jakarta家族中的一个顶级开源项目。它的作者是Doug Cutting,他是一位资深全文索引/检索专家。
ii.Lucene系统基本结构
Lucene提供的服务实际包含两部分:一入一出。所谓入是写入,即将你提供的源(本质是字符串)写入索引或者将其从索引中删除;所谓出是读出,即向用户提供全文搜索服务,让用户可以通过关键词定位源。下图表示了一入一出,也表示了搜索应用程序和Lucene之间的关系:
写入流:源字符串首先经过analyzer处理,包括:分词,分成一个个单词后将源中需要的信息加入Document的各个Field中,并把需要索引的Field索引起来,把需要存储的Field存储起来并将索引写入存储器,存储器可以是内存或磁盘
读出流:用户提供搜索关键词,经过analyzer处理。对处理后的关键词搜索索引找出对应的Document。用户根据需要从找到的Document中提取需要的Field。
a)Mapreduce:
Hadoop映射/归约框架是一个主/从(master/slave)架构.它由一个主服务器(Jobtracker)和若干从服务器(tasktracker)组成。主服务器是用户与系统打交道的关键。用户将自定义的
映射/归约操作提交给主服务器。主服务器将操作放入作业队列中并按照先到先服务的原则对队列中的任务进行处理。主服务器用来将映射或者归约操作分配给不同的从服务器。从服务器在主服务器的控制下执行操作,同时,不同的从服务器间在映射和归约阶段也进行着数据传输
b)Hadoop DFS
Hadoop的分布式文件系统(HDFS)被设计用来在集群计算机间存储大型数据文件。这个设计来源于Google文件系统(GFS)。Hadoop分布式文件系统将每一个文件作为一组数据块进行存储,一个文件中除了最后一个数据块的所有数据块都具有相同的大小。作为容错处理,这些数据块被复制成为了很多份。每一个文件的数据块大小和复制的份数是可以被管理员配置的。另外,值得注意的是,HDFS中的文件都是只写一次并且每一个时间点严格的只允许一个线程执行写操作。
但是,现有服务器相互之间所构建的搜索系统无法进行有效的扩充,在搜索任务巨大的前提下,会极大的降低执行效率。
实用新型内容
本实用新型的目的在于克服现有技术存在的以上问题,提供一种分布式搜索系统。
为实现本实用新型的目的分布式搜索系统,包括有索引维护服务器,其中:所述的索引维护服务器数据输出端连入分布式文件模块的输入端;所述分布式文件模块的输出端连入从属服务器组件的输入端;所述从属服务器组件的输出端连入远程方法调用模块的输入端;所述远程方法调用模块的输出端连入搜索负载均衡服务器。
进一步地,上述的分布式搜索系统,其中,所述的分布式文件模块上设有数据预留接口,所述的数据预留接口上连接有备份服务器;所述备份服务器的输出端连入远程方法调用模块的输入端。
更进一步地,上述的分布式搜索系统,其中,所述的从属服务器组件上设有数据源接口。
更进一步地,上述的分布式搜索系统,其中,所述的搜索负载均衡服务器上设置有人机交互端口,所述的人机交互端口上设有外接输入设备。
再进一步地,上述的分布式搜索系统,其中,所述的从属服务器组件为至少有两组独立运行的服务器组成,每个服务器设有独立电源组件。
采用本实用新型技术方案,通过多个服务器的相互合作,能够有效进行扩展。更为重要的是,在索引数据量增大时,索引维护不会出现过多消耗服务器性能的缺陷,确保搜索不受影响。
本实用新型的目的、优点和特点,将通过下面优先实施例的非限制性说明进行图示和解释,这些实施例是参照附图仅作为例子给出的。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州同程旅游网络科技有限公司,未经苏州同程旅游网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201120150927.5/2.html,转载请声明来源钻瓜专利网。