[发明专利]一种征信报告识别方法在审
| 申请号: | 202210145731.X | 申请日: | 2022-02-17 |
| 公开(公告)号: | CN114529932A | 公开(公告)日: | 2022-05-24 |
| 发明(设计)人: | 何倩倩;饶顶锋;陶坚坚;刘伟 | 申请(专利权)人: | 北京译图智讯科技有限公司 |
| 主分类号: | G06V30/416 | 分类号: | G06V30/416;G06V30/42;G06V30/148;G06V30/19;G06V10/82 |
| 代理公司: | 北京精金石知识产权代理有限公司 11470 | 代理人: | 杨兰兰 |
| 地址: | 100096 北京市昌平*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 报告 识别 方法 | ||
本发明涉及一种征信报告识别方法,该方法包括获取等待识别的征信报告的图像数据;对图像数据进行预处理;对预处理完成的图像数据进行全文识别,获取文本行内容以及框线信息;针对图像数据中版式结构进行分析,判断图像数据中单双页;将文本行内容与模板信息进行信息类型匹配;针对匹配完成的文本行内容根据信息类型进行提取;针对提取结果进行校验和汇总;将检验汇总后的提取结果依据特定格式输出至xml文件中;该方法可高效地从图像中抽取相关信息,并针对匹配到的字段类型进行结构化提取和字段校验,并运用组结构方式将所有信息进行分类整合出来,最终还原整份征信报告内容分布,其识别准确率高,识别结果完整,且支持多样场景识别,适应性强。
技术领域
本发明属于数据处理技术领域,涉及一种征信报告识别方法。
背景技术
征信报告是由中国人民银行征信中心出具的记载个人信用信息的记录,分为个人信用报告以及企业信用报告,用于查询个人或企业的社会信用。
其中,个人征信报告包含个人基本信息,信用交易信息以及其他信息。现实中,对于一些爱超前消费人们的征信报告信息更是冗长且复杂的,人工录入信息的方式将耗费大量人力和时间。相比之下,自动化的方式将会极大的提高工作效率。
简单地通过OCR识别得到的输出结果也是一行行的输出,直观性不强,不便分析本人的信用状况。其中,传统OCR识别并不能很好支持非单一场景下的识别,在此基础上基于深度学习的OCR识别有非常大的优势。原则上,深度学习方法能将任何可以转换为图像的识别对象作为输入,包括PDF,扫描文档等。通过对图像文字的行检测和识别所得信息进行地,包含图像方向判断,倾斜矫正,水印检测和过滤等预处理方法可以更好地将文字在复杂场景下准确的识别出来。后续的处理方式需要利用表格分析的方法,由于表格存在不同的版式和内部结构。用于判断的重要指标“行列分割线”在现实中存在部分缺失或完全缺失的情况。由于上述难点,市场上提供征信报告识别的厂家非常少,且仅支持完整的扫描的pdf文件,支持场景单一,整份的识别率也不高。市面上现有的征信报告识别软件只能处理完整的扫描的PDF文件,处理信贷交易信息较少的识别。
发明内容
针对上述现有技术中存在的问题,本发明公布了一种征信报告识别方法,该方法运用文本行内容和模板信息相互匹配的方式,可高效地从图像抽取文本信息,并针对匹配到的文本字段类型进行结构化提取和字段校验,再运用组结构方式将所有信息进行分类整合,最终实现还原整份征信报告内容分布,其识别准确率高,识别结果完整,且支持多样场景识别,适应性强,解决了现有技术中识别方法图像要求较高,且无法在复杂情况下准确识别的问题。
本发明为解决上述技术问题首先提供了一种征信报告识别方法,其包括如下步骤:
S1获取等待识别的征信报告的图像数据:征信报告图像数据包括jpg、bmp、png、pdf、 tiff文件格式,且针对pdf格式的多页文件首先进行单页拆分,再将拆分后的单页转换为图像数据;
S2对图像数据进行预处理过程,获得预处理后的图像数据;
S3对预处理完成的图像数据进行全文识别,获取文本行内容以及框线信息;
S4针对图像数据中版式结构进行分析,判断图像数据中单双页;
S5将文本行内容与模板信息进行信息类型匹配:根据S4中图像数据的单页或双页判断结果以及识别的框线信息对文本行内容进行切分、聚行和分类,根据整理获得的文本行内容与模板信息进行信息类型匹配,其中模板信息包括有:关键词的文本信息、关键词的位置信息、关键词是否多行属性、结果值是否多行属性、关键词类型值、关键词是否为主列、关键词所在行类型值;
S6针对匹配完成的文本行内容根据信息类型进行提取,其中信息类型包括组名称提取、通用行提取、通用表格提取、还款记录提取、子组名称提取以及单行提取;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京译图智讯科技有限公司,未经北京译图智讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210145731.X/2.html,转载请声明来源钻瓜专利网。





