[发明专利]数据处理方法、服务器及计算机存储介质在审
申请号: | 201810198710.8 | 申请日: | 2018-03-12 |
公开(公告)号: | CN108520002A | 公开(公告)日: | 2018-09-11 |
发明(设计)人: | 张师琲;侯丽 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 于志光;郭梦霞 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索结果 数据处理 计算机可读存储介质 服务器 搜索 索引文件 索引库 计算机存储介质 生成索引文件 查询对象 得分结果 模糊匹配 模糊文字 输出显示 数据建立 文本数据 预设方式 预设 索引 排序 存储 | ||
本发明公开了一种数据处理方法,该方法包括:对所述文本数据或者其他类型的数据建立索引并生成索引文件,将所述索引文件存储到索引库,根据查询对象对所述索引库中的索引文件进行搜索,对搜索结果按照搜索评价方法进行评价打分,根据得分结果将所述搜索结果进行排序,将所述得分高于预设阈值的搜索结果按照预设方式进行输出显示。本发明还提供一种服务器及计算机可读存储介质。本发明提供的数据处理方法、服务器及计算机可读存储介质能够快速针对与模糊文字的搜索,快速实现模糊匹配。
技术领域
本发明涉及数据分析技术领域,尤其涉及一种数据处理方法、服务器及计算机存储介质。
背景技术
在当今信息爆炸的时代,每个单位或个人都在为信息的快速增长做出了各种贡献。信息的种类也在不断的扩展,越来越多的非结构化信息不断出现,包括企业的各种报表、帐单、电子文档等等。这些非结构化信息存入数据库中,很多时候,我们需要在数据库中检索,而针对与模糊文字的搜索,直接查询数据库的效率是非常慢的。因此,针对模糊文字的搜索,如何提高检索信息的效率是当下一大亟需解决的问题。
发明内容
有鉴于此,本发明提出一种数据处理方法、服务器及计算机存储介质,以解决如何的问题。
首先,为实现上述目的,本发明提出一种数据处理方法,该方法包括步骤:
获取数据库中的文本数据或者其他类型的数据,对数据库中的文本数据或者其他类型的数据进行处理;
基于lucene搜索引擎对处理后的所述文本数据或者其他类型的数据建立索引并生成索引文件将所述索引文件存储到索引库;
接收用户输入的查询信息,对所述查询信息进行处理生成查询对象,根据所述查询对象对所述索引库中的索引文件进行搜索,预设的搜索评价模型对搜索结果进行评价打分;及
根据得分结果将所述搜索结果按照分数从高到低的顺序进行排序,将所述得分高于预设阈值的搜索结果按照预设方式进行输出显示;
其中,所述预设方式为将所述得分结果生成条形图,并将所述得分结果按照百分比形式输出显示,所述预设阈值为40%。
优选地,所述其他类型的数据包括pdf文件数据、office文件数据,所述对数据库中的文本数据或者其他类型的数据进行处理的处理步骤包括:
将其他类型的数据转换为文本数据;
将数据库中的文本数据和所述文本数据按照词语切分、词性标注及词语过滤的步骤进行分词处理;及
生成分词结果,将过滤后的词语作为最终分词结果,将所述最终分词结果作为处理后的所述文本数据或者其他类型的数据。
优选地,所述“基于lucene搜索引擎对处理后的所述文本数据或者其他类型的数据建立索引并生成索引文件”的步骤包括:
构造索引库,设置索引库的位置,用于存入索引;
构造索引创建器,用于创建索引;及
为分词后的所述文本数据或者其他类型的数据建立索引,根据不同的文件类型创建相应的文档描述,并设置相应属性域的内容。
优选地,对所述查询信息进行处理生成查询对象的步骤包括:
对所述查询信息进行分词处理,分词处理的步骤包括:词语切分、词性标注及词语过滤;
对分词集中的词语进行同义词、近义词转换,获得分词集的同义词、近义词集;及
将所述分词集,同义词、近义词集中的词语作为查询对象。
优选地,所述搜索评价模型对所述搜索结果进行打分包括如下步骤:
根据第一评分公式获得本次搜索的第一得分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810198710.8/2.html,转载请声明来源钻瓜专利网。