[发明专利]目标文档获取方法及应用服务器有效
申请号: | 201710994507.7 | 申请日: | 2017-10-23 |
公开(公告)号: | CN108427702B | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 阮晓雯;周瑜;徐亮;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G16H10/60 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标 文档 获取 方法 应用 服务器 | ||
本发明公开了一种目标文档获取方法,该方法包括:获取检索关键字;建立基于字符删除表,同义近义词表及规格参数表的文档选择模型;将预处理后的文档信息输入所述文档选择模型,所述文档选择模型根据所述检索关键字对所述文档信息进行处理;根据预设的关键词词频及密度算法计算所述文档选择模型输出的所述文档中所述检索关键词的词频及密度分数,并根据所述词频及密度分数对所述文档进行相关度排序;及根据预设相关度阈值,输出所述文档中所述相关度大于所述预设相关度阈值的目标文档。本发明还提供一种应用服务器及计算机可读存储介质。本发明提供的目标文档获取方法、应用服务器及计算机可读存储介质能够快速获得目标文档。
技术领域
本发明涉及数据分析技术领域,尤其涉及一种目标文档获取方法及应用服务器。
背景技术
随着信息时代的来临,人们将大量的信息存储在大容量的存储设备并利用数据库管理系统进行信息整合和管理,通过查询数据库从而获得所需的信息。目前,基于关键词匹配的检索,由于词汇的歧义、查询条件和表达形式的不统一,使得检索遇到很多问题。例如,在医保政策下,限定性胰岛素使用逻辑分为两种,其中一种便是限反复发作低血糖,转换为数据特征就是有两次或以上葡萄糖使用记录,即需要用自然语言抓取药品中涉及“葡萄糖”字段信息。但不同的城市读取在录入数据时存在各种书写格式、方式不同,很多时候对数据难以正确解析。如直接使用原始数据进行自然语言抓取“葡萄糖”产生效果会不大理想,甚至与真实结果偏离等问题。若对某个地区做特殊处理,则迁移到其他地区时又需要重新处理,增加了很多时间成本。
因此,针对以上问题,亟需提供一种新的检索方法,以获得真实的检索结果并适应不同地区的情况,降低成本。
发明内容
有鉴于此,本发明提出一种目标文档获取方法及应用服务器,以解决如何的问题。
首先,为实现上述目的,本发明提出一种目标文档获取方法,该方法包括步骤:
获取至少一个文档及与所述文档对应的文档信息,并对所述文档信息进行预处理;
获取检索关键字;
建立基于字符删除表,同义近义词表及规格参数表的文档选择模型;
将预处理后的文档信息输入所述文档选择模型,所述文档选择模型根据所述检索关键字对所述文档信息进行处理;
根据预设的关键词词频及密度算法计算所述文档选择模型输出的所述文档中所述检索关键词的词频及密度分数,并根据所述词频及密度分数对所述文档进行相关度排序;及
根据预设相关度阈值,输出所述文档中所述相关度大于所述预设相关度阈值的目标文档。
优选地,所述步骤“获取至少一个文档及与所述文档对应的文档信息,并对所述文档信息进行预处理”之预处理还包括以下步骤:
对所述文档进行分词,以获得至少一个词语;
对所述词语进行词性分析以获得所述词语的第一信息;及
将所述词语为预定词性或者所述第一信息为预设第一信息的词语作为候选词语。
优选地,所述字符删除表中包括与所述候选词语中明显与检索关键字不相符的字符;述同义近义词表包括与检索关键词对应的同义词、近义词;所述规格参数表中包括对应检索关键词的多种参数。
优选地,所述目标文档建立的步骤包括:
对所述检索关键词进行分析,获得所述检索关键词的技术领域;
在所述技术领域,根据分析结果设置字符删除表;
在所述技术领域,从数据库中获得所述关键词的同义词、近义词并建立同义近义词表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710994507.7/2.html,转载请声明来源钻瓜专利网。