[发明专利]一种风险要素重复度比对方法在审
申请号: | 202310122409.X | 申请日: | 2023-02-15 |
公开(公告)号: | CN116129433A | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 黄维那 | 申请(专利权)人: | 四川蜀地智能中登科技有限公司 |
主分类号: | G06V30/10 | 分类号: | G06V30/10;G06N5/048;G06F40/295;G06F40/284;G06F40/289;G06Q50/18;G06F18/22;G06F40/30 |
代理公司: | 成都科奥专利事务所(普通合伙) 51101 | 代理人: | 苏亚超 |
地址: | 610000 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 风险 要素 重复 方法 | ||
本发明涉及电子信息技术领域,具体涉及一种风险要素重复度比对方法,包括从登记文件中获取待识别文本并将其转换为文本数据;通过要素提取算法从所述文本数据中提取关键要素信息,得到提取数据;将基础数据与所述提取数据进行对比,通过模糊匹配算法判断所述基础数据中是否有重复内容,得到判断结果;将所述提取数据和所述判断结果输入风险判定模型,输出数据重复度和数据风险评级。本发明通过要素提取算法提高了关键要素信息提取的准确性,通过模糊度计算时,考虑基础数据和待比对的数据的编辑距离,考虑编辑的形式,设计到编辑距离算法逻辑中,提高了模糊度计算的准确性,从而提高了语义计算效果。
技术领域
本发明涉及电子信息技术领域,尤其涉及一种风险要素重复度比对方法。
背景技术
风险要素提取旨在从应收账款的质押及转让业务、融资租赁业务的登记文件中提取出一组具有风险可能性的内容以提高审核人员对登记文件的审核效率,是一项基本的自然语言处理任务。常见的关键词提取算法包括TF-IDF、TextRank、Yake、AutoPhrase、KeyBert等。
TF-IDF是通过统计语料库中词的逆文档频率(IDF)和词在句子中的频率(TF)来对关键词进行排序。TextRank通过构建词图,然后利用PageRank算法对关键词进行排序、Yake是一种综合多种统计指标的关键词提取算法,AutoPhrase利用知识库进行远程监督学习。TF-IDF、TextRank、Yake等算法从一定程度上能够快速提取出相对可靠的关键词,但是这些算法往往存在大量的噪音词(非关键词错误识别为了关键词),问题在于它们都忽略了文本的语义特征。KeyBert等基于语义的关键词提取算法通过计算N-Gram的方式生成候选词,但是这种做法的计算效率非常低,由于BERT各向异性的特点导致语义计算效果较差。
发明内容
本发明的目的在于提供一种风险要素重复度比对方法,旨在解决现有的风险要素提取方法的语义计算效果较差的问题。
为实现上述目的,本发明提供了一种风险要素重复度比对方法,包括以下步骤:
从登记文件中获取待识别文本;
通过OCR技术将所述待识别文本转换为文本数据;
通过要素提取算法从所述文本数据中提取关键要素信息,得到提取数据;
将基础数据与所述提取数据进行对比,通过模糊匹配算法判断所述基础数据中是否有重复内容,得到判断结果;
将所述提取数据和所述判断结果输入风险判定模型,输出数据重复度和数据风险评级。
其中,所述模糊匹配算法包括公共子串算法、编辑距离算法和阈值规则。
其中,所述将基础数据与所述提取数据进行对比,通过模糊匹配算法判断所述基础数据中是否有重复内容,得到判断结果,包括:
通过所述公共子串算法对所述基础数据与所述提取数据进行计算,得到用户公共子串;
通过所述编辑距离算法对所述基础数据与所述提取数据进行计算,得到编辑距离;
对比所述用户公共子串和所述编辑距离是否同时满足模糊度,得到比对结果;
通过所述阈值规则基于所述比对结果计算模糊度,得到判断结果。
其中,所述关键要素信息包括目标发票号、合同编号、合同名称和项目公司名称。
其中,所述对文本数据进行目标发票号提取,包括:
判断发票描述形式在文本数据中;
使用正则表达式从所述文本数据中提取所述发票描述形式,得到目标发票号。
其中,所述发票描述形式包括发票号、发票编号和发票信息中的任意一种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川蜀地智能中登科技有限公司,未经四川蜀地智能中登科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310122409.X/2.html,转载请声明来源钻瓜专利网。