[发明专利]一种风险要素重复度比对方法在审

申请号：	202310122409.X	申请日：	2023-02-15
公开（公告）号：	CN116129433A	公开（公告）日：	2023-05-16
发明（设计）人：	黄维那	申请（专利权）人：	四川蜀地智能中登科技有限公司
主分类号：	G06V30/10	分类号：	G06V30/10;G06N5/048;G06F40/295;G06F40/284;G06F40/289;G06Q50/18;G06F18/22;G06F40/30
代理公司：	成都科奥专利事务所(普通合伙) 51101	代理人：	苏亚超
地址：	610000 四川省成都***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种风险要素重复方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及电子信息技术领域，具体涉及一种风险要素重复度比对方法，包括从登记文件中获取待识别文本并将其转换为文本数据；通过要素提取算法从所述文本数据中提取关键要素信息，得到提取数据；将基础数据与所述提取数据进行对比，通过模糊匹配算法判断所述基础数据中是否有重复内容，得到判断结果；将所述提取数据和所述判断结果输入风险判定模型，输出数据重复度和数据风险评级。本发明通过要素提取算法提高了关键要素信息提取的准确性，通过模糊度计算时，考虑基础数据和待比对的数据的编辑距离，考虑编辑的形式，设计到编辑距离算法逻辑中，提高了模糊度计算的准确性，从而提高了语义计算效果。

技术领域

本发明涉及电子信息技术领域，尤其涉及一种风险要素重复度比对方法。

背景技术

风险要素提取旨在从应收账款的质押及转让业务、融资租赁业务的登记文件中提取出一组具有风险可能性的内容以提高审核人员对登记文件的审核效率，是一项基本的自然语言处理任务。常见的关键词提取算法包括TF-IDF、TextRank、Yake、AutoPhrase、KeyBert等。

TF-IDF是通过统计语料库中词的逆文档频率(IDF)和词在句子中的频率(TF)来对关键词进行排序。TextRank通过构建词图，然后利用PageRank算法对关键词进行排序、Yake是一种综合多种统计指标的关键词提取算法，AutoPhrase利用知识库进行远程监督学习。TF-IDF、TextRank、Yake等算法从一定程度上能够快速提取出相对可靠的关键词，但是这些算法往往存在大量的噪音词(非关键词错误识别为了关键词)，问题在于它们都忽略了文本的语义特征。KeyBert等基于语义的关键词提取算法通过计算N-Gram的方式生成候选词，但是这种做法的计算效率非常低，由于BERT各向异性的特点导致语义计算效果较差。

发明内容

本发明的目的在于提供一种风险要素重复度比对方法，旨在解决现有的风险要素提取方法的语义计算效果较差的问题。

为实现上述目的，本发明提供了一种风险要素重复度比对方法，包括以下步骤：

从登记文件中获取待识别文本；

通过OCR技术将所述待识别文本转换为文本数据；

通过要素提取算法从所述文本数据中提取关键要素信息，得到提取数据；

将基础数据与所述提取数据进行对比，通过模糊匹配算法判断所述基础数据中是否有重复内容，得到判断结果；

将所述提取数据和所述判断结果输入风险判定模型，输出数据重复度和数据风险评级。

其中，所述模糊匹配算法包括公共子串算法、编辑距离算法和阈值规则。

其中，所述将基础数据与所述提取数据进行对比，通过模糊匹配算法判断所述基础数据中是否有重复内容，得到判断结果，包括：

通过所述公共子串算法对所述基础数据与所述提取数据进行计算，得到用户公共子串；

通过所述编辑距离算法对所述基础数据与所述提取数据进行计算，得到编辑距离；