[发明专利]知识库检索实现方法在审
申请号: | 201810522891.5 | 申请日: | 2018-05-28 |
公开(公告)号: | CN108804592A | 公开(公告)日: | 2018-11-13 |
发明(设计)人: | 郭传超;程林;杨培强 | 申请(专利权)人: | 山东浪潮商用系统有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 韩月娥 |
地址: | 250100 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检索 索引 知识库 检索效率 分词 词表 知识库信息 类别建立 分块 数据库检索技术 准确度 磁盘系统 存储索引 方式优化 分类检索 复合索引 搜索过程 索引过程 多文件 构建 改进 优化 | ||
1.知识库检索实现方法,其特征在于, 改进基于词表的分词技术,对知识类别建立分块索引,在内存中构建索引,使用本地磁盘系统做存储索引,并使用多文件索引,不使用复合索引方式;所述知识库检索实现方法包括索引过程和搜索过程;
所述索引过程:对要搜索的原始内容进行索引构建一个索引库;索引过程包括:确定原始内容即要搜索的内容—》采集文档--》创建数据集--》预处理分析数据--》生产索引--》构建索引库;
所述搜索过程:从索引库中搜索内容;搜索过程包括:用户通过搜索界面—》输入查询--》查询处理--》执行搜索,从索引库检索--》运用相关性计算--》渲染搜索结果--》结果输出。
2.根据权利要求1所述知识库检索实现方法,其特征在于,所述索引过程:从命令行读取文件名,将文件分路径path字段和内容body字段2个字段进行存储,并对内容进行全文索引;索引的单位是Document对象,每个Document对象包含多个字段Field对象;针对不同的字段属性和数据输出的需求,对字段选择不同的索引或者存储字段规则。
3.根据权利要求2所述知识库检索实现方法,其特征在于,所述检索过程包含写入流程、读出流程;
所述写入流程:将提供的源字符串写入索引或将其从索引中删除;写入流程具体为:源字符串首先经过analyzer处理,包括:分词过程;将源字符串中需要的信息加入Document的各个Field中,将需要索引的Field索引起来,将需要存储的Field存储起来。
4.根据权利要求3所述知识库检索实现方法,其特征在于,所述将需要存储的Field存储起来,是将索引写入存储器,存储器为内存或磁盘。
5.根据权利要求3所述知识库检索实现方法,其特征在于,所述分词过程由分词器完成,所述分词器包括Reader、Tokenizer、TokenFilter、TokenStream;
所述分词过程具体包括:所述Tokenizer负责接收Reader字节流,将Reader字节流进行分词操作,所述TokenFilter对已经分词的语汇单元进行各种各样的过滤操作;所述TokenStream存储分词的各种信息,通过tokenStream有效获取到分词单元信息。
6.根据权利要求5所述知识库检索实现方法,其特征在于,所述读出流程:向用户提供全文搜索服务,通过关键词定位源;读出流程具体为:用户提供搜索关键词,经过analyzer处理;对处理后的关键词搜索索引找出对应的Document;用户根据需要从找到的Document中提取需要的Field。
7.根据权利要求6所述知识库检索实现方法,其特征在于,所述知识库检索实现方法涉及四种数据流,分别是文本流、Token流、字节流与查询语句对象流;其中,
所述文本流表示对于索引目标和交互控制的抽象,用来表示索引文件,用文本流向用户输出信息;所述Token流是对文字中词的概念的抽象,是Lucene在建立索引时直接处理的最小单位;所述字节流是对文件抽象的直接操作的体现,通过固定长度的字节流的处理将文件解脱出来;所述查询语句对象流,用来对查询语句抽象,通过类的继承结构反应查询语句的结构,将之传送到查询逻辑来进行查找操作。
8.根据权利要求7所述知识库检索实现方法,其特征在于,所述文本流采用UCS-2作为编码。
9.根据权利要求8所述知识库检索实现方法,其特征在于,所述索引过程的原理流程包括: W)有一系列被索引文件;X)被索引文件经过语法分析和语言处理形成一系列词;Y)经过索引创建形成词典和反向索引表;Z)通过索引存储将索引写入索引文件。
10.根据权利要求9所述知识库检索实现方法,其特征在于,所述搜索过程的原理流程包括:a)用户输入查询语句;b)对查询语句经过语法分析和语言分析得到一系列词;c)通过查询语句分析得到一个查询树;d)通过索引文件将索引读入到内存;e)利用查询树搜索索引,得到每个词的文档链表,对文档链表进行交、差、并得到结果文档;f)将搜索到的结果文档对查询的相关性进行排序;g)返回查询结果给用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮商用系统有限公司,未经山东浪潮商用系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810522891.5/1.html,转载请声明来源钻瓜专利网。