[发明专利]数据处理方法、服务器及计算机存储介质在审
申请号: | 201810198710.8 | 申请日: | 2018-03-12 |
公开(公告)号: | CN108520002A | 公开(公告)日: | 2018-09-11 |
发明(设计)人: | 张师琲;侯丽 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 于志光;郭梦霞 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索结果 数据处理 计算机可读存储介质 服务器 搜索 索引文件 索引库 计算机存储介质 生成索引文件 查询对象 得分结果 模糊匹配 模糊文字 输出显示 数据建立 文本数据 预设方式 预设 索引 排序 存储 | ||
1.一种数据处理方法,应用于服务器,其特征在于,所述方法包括步骤:
获取数据库中的文本数据或者其他类型的数据,对数据库中的文本数据或者其他类型的数据进行处理;
基于lucene搜索引擎对处理后的所述文本数据或者其他类型的数据建立索引并生成索引文件,将所述索引文件存储到索引库;
接收用户输入的查询信息,对所述查询信息进行处理生成查询对象,根据所述查询对象对所述索引库中的索引文件进行搜索,预设的搜索评价模型对搜索结果进行评价打分;及
根据得分结果将所述搜索结果按照分数从高到低的顺序进行排序,将所述得分高于预设阈值的搜索结果按照预设方式进行输出显示;
其中,所述预设方式为将所述得分结果生成条形图,并将所述得分结果按照百分比形式输出显示,所述预设阈值为40%。
2.如权利要求1所述的数据处理方法,其特征在于,所述其他类型的数据包括pdf文件数据、office文件数据,所述对数据库中的文本数据或者其他类型的数据进行处理的步骤包括:
将其他类型的数据转换为文本数据;
将数据库中的文本数据和所述文本数据按照词语切分、词性标注及词语过滤的步骤进行分词处理;及
生成分词结果,将过滤后的词语作为最终分词结果,将所述最终分词结果作为处理后的所述文本数据或者其他类型的数据。
3.如权利要求2所述的数据处理方法,其特征在于,所述“基于lucene搜索引擎对处理后的所述文本数据或者其他类型的数据建立索引并生成索引文件”的步骤包括:
构造索引库,设置索引库的位置,用于存入索引;
构造索引创建器,用于创建索引;及
为分词后的所述文本数据或者其他类型的数据建立索引,根据不同的文件类型创建相应的文档描述,并设置相应属性域的内容。
4.如权利要求1-3所述的数据处理方法,其特征在于,对所述查询信息进行处理生成查询对象的步骤包括:
对所述查询信息进行分词处理,分词处理的步骤包括:词语切分、词性标注及词语过滤;
对分词集中的词语进行同义词、近义词转换,获得分词集的同义词、近义词集;及
将所述分词集,同义词、近义词集中的词语作为查询对象。
5.如权利要求4所述的数据处理方法,其特征在于,所述搜索评价模型对所述搜索结果进行打分包括如下步骤:
根据第一评分公式获得本次搜索的第一得分;
根据最小编辑距离法获得本次搜索的第二得分;及
获取所述第一得分及第二得分的平均值,所述平均值作为本次搜索的最终得分。
6.如权利要求5所述的数据处理方法,其特征在于,所述第一评分公式为:
,
其中,所述Score为所述第一得分,q为所述查询信息,t为所述查询信息分词后的每一项,d为去匹配的文档,函数tf(t in d)表示词项t在该文档中出现的频率,函数idf(t)2表示词项t在所有文档中出现的频率,boost(t.field in d)为激励因子,boost(t.field ind)*lengthNorm(t.field in d)的值表示此条搜索结果中,给定字段中包含词项的总数,coord(q,d)表示当一篇文档中包含的搜索词越多,则词文档打分越高,QueryNorm(q)计算每个查询条目的方差和。
7.如权利要求6所述的数据处理方法,其特征在于,将所述函数tf(t in d)的值设置为1,去除重复出现的词对所述第一得分的影响。
8.如权利要求7所述的数据处理方法,其特征在于,所述“根据最小编辑距离法获得本次搜索的第二得分”的步骤包括:
计算所述查询对象及所述搜索结果的编辑距离;
获取最小编辑距离;及
将所述最小编辑距离的值作为所述第二得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810198710.8/1.html,转载请声明来源钻瓜专利网。