[发明专利]名单筛查方法、装置、设备及计算机存储介质在审
| 申请号: | 202111470152.4 | 申请日: | 2021-12-03 |
| 公开(公告)号: | CN114117031A | 公开(公告)日: | 2022-03-01 |
| 发明(设计)人: | 余孟泽 | 申请(专利权)人: | 建信金融科技有限责任公司 |
| 主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/332 |
| 代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 赵秀芹 |
| 地址: | 200120 上海市中国(上海*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 名单 方法 装置 设备 计算机 存储 介质 | ||
本申请实施例提供了一种名单筛查方法、装置、设备及计算机存储介质,该名单筛查方法包括获取待筛查的目标文本中的关键词;确定关键词的词性、关键词对应的名词短语以及关键词在目标文本中的位置;从预设名单中获取名单名称包括目标文本中的至少一个关键词的第一名单;根据关键词在目标文本中的位置,按照预设文本间隔对目标文本进行切分,得到关键词在目标文本中对应的匹配串;计算第一名单的每个名单名称与匹配串的相似度,得到第一名单中相似度大于预设阈值的名单名称对应的第二名单;确定第二名单中除只包括一个动词词性的关键词或名词短语中包括部分关键词之外的名单名称对应的目标筛查名单。根据本申请实施例,可以有效降低误告警率。
技术领域
本申请属于信息提取技术领域,尤其涉及一种名单筛查方法、装置、 设备及计算机存储介质。
背景技术
现有技术中,主要通过采用提词算法从文本提取关键词的方式,对提 取后的关键词进行筛查,然而,以上方式严重依赖于提词算法的准确度, 提取错误就会导致漏报误报,存在误告警量大的问题。
发明内容
本申请实施例提供一种名单筛查方法、装置、设备及计算机存储介 质,能够解决现有技术中进行名单筛查时漏报误报,存在误告警量大的问 题。
第一方面,本申请实施例提供一种名单筛查方法,该方法包括:
获取待筛查的目标文本中的关键词;
确定所述关键词的词性、所述关键词对应的名词短语以及所述关键词 在所述目标文本中的位置;
从预设名单中获取名单名称包括所述目标文本中的至少一个关键词的 第一名单;
根据所述第一名单的名单名称中的关键词在所述目标文本中的位置, 按照预设文本间隔对所述目标文本进行切分,得到所述第一名单的名单名 称中的关键词在所述目标文本中对应的匹配串;
计算所述第一名单的每个名单名称与所述匹配串的相似度,得到所述 第一名单中所述相似度大于预设阈值的名单名称对应的第二名单;
确定所述第二名单中除只包括一个动词词性的关键词或所述名词短语 中包括部分关键词之外的名单名称对应的目标筛查名单。
在一种实施例中,所述获取待筛查的目标文本中的关键词,包括:
获取待筛查的所述目标文本;
根据预设筛查算法,对待筛查的所述目标文本进行分词处理,得到待 筛查的所述目标文本的关键词。
在一种实施例中,所述根据预设筛查算法,对待筛查的所述目标文本 进行分词处理,得到待筛查的所述目标文本的关键词,包括:
根据预设筛查算法,对待筛查的所述目标文本进行分词处理,得到待 筛查的所述目标文本的第一分词结果;
对待筛查的所述目标文本的第一分词结果进行预处理,得到待筛查的 所述目标文本的关键词,所述预处理包括删除所述分词结果中的无用标 签、特殊符号以及停用词,对所述分词结果进行标准化处理以及大写转小 写处理中的至少一项。
在一种实施例中,所述确定所述关键词的词性、所述关键词对应的名 词短语以及所述关键词在所述目标文本中的位置,包括:
对所述目标文本中的关键词进行位置标注与词性标注,得到所述关键 词在所述目标文本中的位置以及所述关键词的词性;
根据预设提取算法以及所述关键词在所述目标文本中的位置,提取所 述目标文本中所述关键词对应的名词短语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于建信金融科技有限责任公司,未经建信金融科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111470152.4/2.html,转载请声明来源钻瓜专利网。





