[发明专利]数据处理方法、服务器及计算机存储介质在审

申请号：	201810198710.8	申请日：	2018-03-12
公开（公告）号：	CN108520002A	公开（公告）日：	2018-09-11
发明（设计）人：	张师琲;侯丽	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	深圳市沃德知识产权代理事务所(普通合伙) 44347	代理人：	于志光;郭梦霞
地址：	518000 广东省深***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	搜索结果数据处理计算机可读存储介质服务器搜索索引文件索引库计算机存储介质生成索引文件查询对象得分结果模糊匹配模糊文字输出显示数据建立文本数据预设方式预设索引排序存储
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种数据处理方法，该方法包括：对所述文本数据或者其他类型的数据建立索引并生成索引文件，将所述索引文件存储到索引库，根据查询对象对所述索引库中的索引文件进行搜索，对搜索结果按照搜索评价方法进行评价打分，根据得分结果将所述搜索结果进行排序，将所述得分高于预设阈值的搜索结果按照预设方式进行输出显示。本发明还提供一种服务器及计算机可读存储介质。本发明提供的数据处理方法、服务器及计算机可读存储介质能够快速针对与模糊文字的搜索，快速实现模糊匹配。

技术领域

本发明涉及数据分析技术领域，尤其涉及一种数据处理方法、服务器及计算机存储介质。

背景技术

在当今信息爆炸的时代，每个单位或个人都在为信息的快速增长做出了各种贡献。信息的种类也在不断的扩展，越来越多的非结构化信息不断出现，包括企业的各种报表、帐单、电子文档等等。这些非结构化信息存入数据库中，很多时候，我们需要在数据库中检索，而针对与模糊文字的搜索，直接查询数据库的效率是非常慢的。因此，针对模糊文字的搜索，如何提高检索信息的效率是当下一大亟需解决的问题。

发明内容

有鉴于此，本发明提出一种数据处理方法、服务器及计算机存储介质，以解决如何的问题。

首先，为实现上述目的，本发明提出一种数据处理方法，该方法包括步骤：

获取数据库中的文本数据或者其他类型的数据，对数据库中的文本数据或者其他类型的数据进行处理；

基于lucene搜索引擎对处理后的所述文本数据或者其他类型的数据建立索引并生成索引文件将所述索引文件存储到索引库；

接收用户输入的查询信息，对所述查询信息进行处理生成查询对象，根据所述查询对象对所述索引库中的索引文件进行搜索，预设的搜索评价模型对搜索结果进行评价打分；及

根据得分结果将所述搜索结果按照分数从高到低的顺序进行排序，将所述得分高于预设阈值的搜索结果按照预设方式进行输出显示；

其中，所述预设方式为将所述得分结果生成条形图，并将所述得分结果按照百分比形式输出显示，所述预设阈值为40％。

优选地，所述其他类型的数据包括pdf文件数据、office文件数据，所述对数据库中的文本数据或者其他类型的数据进行处理的处理步骤包括：

将其他类型的数据转换为文本数据；

将数据库中的文本数据和所述文本数据按照词语切分、词性标注及词语过滤的步骤进行分词处理；及

生成分词结果，将过滤后的词语作为最终分词结果，将所述最终分词结果作为处理后的所述文本数据或者其他类型的数据。