[发明专利]一种基于大数据技术的海量文档关键词快速检索方法在审

申请号：	201611001973.2	申请日：	2016-11-14
公开（公告）号：	CN108073616A	公开（公告）日：	2018-05-25
发明（设计）人：	陈瑞	申请（专利权）人：	北京航天长峰科技工业集团有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	100854***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	字段文档关键词快速检索大数据结果集并行执行符合条件阶段步骤搜索请求预置条件总控制台最终结果返回特征词迭代记录权重排序检索搜索指令合并投票统一
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于大数据技术的海量文档关键词快速检索方法，搜索请求开始后，根据总控制台指令，分别向各个shard分片进行搜索，获取各自检索的记录，汇集各分片初始结果集，对初始结果集进行排序，按照预置条件要求，返回符合条件的记录，通过上一阶段步骤获取的信息，进行字段值选择并行执行任务，去各个shard获取字段值信息，汇总各个shard的字段值信息，收集各分片的最终结果，合并结果，统一返回；然后运用textrank提取关键词，根据每一个词的权重，再进行下一步的投票以及迭代的操作来获取文章的特征词。

技术领域

本发明涉及网络环境下的数据检索领域，具体涉及一种基于大数据技术的海量文档关键词快速检索方法。

背景技术

随着信息化技术应用日益普及，信息化系统呈现逐年上升的趋势，这些信息化系统产生的数据也将越来越广泛，对数据整合和数据快速响应也提出了更高的要求。传统模式下检索技术实现方式，应用场景比较单一，对数据源环境也提出了较为苛刻要求，数据检索的结果集(或者是索引库)存储模式不够灵活，不利于解决数据持续增长带来的检索膨胀问题。如何在海量数据中，尤其是海量文档中快速响应用户检索要求，即用户的实时响应，以及如何在海量数据的范围内，在满足检索效率的同时，提高检索内容的准确性，即用户检索内容的准确性，是当前亟待解决的问题。

发明内容

本发明的目的在于提出一种基于大数据技术的海量文档关键词快速检索方法，立足解决上述存在的问题，通过运行机制的创新，调度控制算法的优化，及特征词算法的优化，实现发明目的。

本发明的技术方案如下：

一种基于大数据技术的海量文档关键词快速检索方法，其特征在于：

(1)搭建海量数据索引云服务，实现索引存储负载的均衡化，具体实现过程包括如下步骤：

(10)搜索请求开始；

(11)根据总控制台指令，分别向各个shard分片进行搜索；

(12)获取各自检索的记录；

(13)汇集各分片初始结果集；

(14)对初始结果集进行排序，按照预置条件要求，返回符合条件的记录；

(15)通过上一阶段步骤(14)获取的信息，进行字段值选择；

(16)并行执行任务，去各个shard获取字段值信息；