[发明专利]一种征信报告识别方法在审
| 申请号: | 202210145731.X | 申请日: | 2022-02-17 |
| 公开(公告)号: | CN114529932A | 公开(公告)日: | 2022-05-24 |
| 发明(设计)人: | 何倩倩;饶顶锋;陶坚坚;刘伟 | 申请(专利权)人: | 北京译图智讯科技有限公司 |
| 主分类号: | G06V30/416 | 分类号: | G06V30/416;G06V30/42;G06V30/148;G06V30/19;G06V10/82 |
| 代理公司: | 北京精金石知识产权代理有限公司 11470 | 代理人: | 杨兰兰 |
| 地址: | 100096 北京市昌平*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 报告 识别 方法 | ||
1.一种征信报告识别方法,其特征在于,包括如下步骤:
S1获取等待识别的征信报告的图像数据:征信报告图像数据包括jpg、bmp、png、pdf、tiff文件格式,且针对pdf格式的多页文件首先进行单页拆分,再将拆分后的单页转换为图像数据;
S2对图像数据进行预处理过程,获得预处理后的图像数据;
S3对预处理完成的图像数据进行全文识别,获取文本行内容以及框线信息;
S4针对图像数据中版式结构进行分析,判断图像数据中单双页;
S5将文本行内容与模板信息进行信息类型匹配:根据S4中图像数据的单页或双页判断结果以及识别的框线信息对文本行内容进行切分、聚行和分类,根据整理获得的文本行内容与模板信息进行信息类型匹配,其中模板信息包括有:关键词的文本信息、关键词的位置信息、关键词是否多行属性、结果值是否多行属性、关键词类型值、关键词是否为主列、关键词所在行类型值;
S6针对匹配完成的文本行内容根据信息类型进行提取,其中信息类型包括组名称提取、通用行提取、通用表格提取、还款记录提取、子组名称提取以及单行提取;
S7针对提取结果进行校验和汇总:针对提取结果依照匹配得到的数据类型进行数据校验,针对匹配到的不同数据类型,通过正则表达式方式对提取结果进行过滤;将校验后的提取结果按照组结构进行整合,并保留当前图像数据中未构成组结构的信息;
S8将检验汇总后的提取结果依据特定格式输出至xml文件中。
2.根据权利要求1所述的征信报告识别方法,其特征为:所述S2中预处理过程包括:
S21.图像方向判断:利用深度学习模型对图像上的文本内容进行文本行检测,并利用OCR识别技术来判断当前图像方向;
S22.图像倾斜校正:通过深度学习模型对图像上的文本内容进行文本行检测,并利用OCR识别技术计算当前图像的倾斜角度,并将图像旋转相应角度进行矫正;
S23.图像水印检测与过滤:通过深度学习模型对图像进行水印位置检测以及去除水印,
S231.图像预处理:在确保图像的长宽比不变的条件下,对图像进行归一化处理;
S232.利用生物医学图像分割技术并结合卷积网络模型,对预处理后的图像进行降采样,即通过卷积和池化以获得不同尺度的特征图和特征值,然后进行上采样和反卷积,上采样部分包括将特征值上采样回去与ground truth进行匹配,完成像素级的分类,最终得到与预处理图像同等大小的图像,并利用分类结果完成包含水印信息的图像分割;
S233.通过调整感受野大小,使图像中水印整体完全呈现,并根据回归损失函数的均方误差得到:输入含水印的图像到输出去除水印的图像的最小损失;
S234.通过水印的方向、大小以及角度生成训练样本进行训练,然后利用训练后的深度学习模型去除图像的水印。
3.根据权利要求1所述的征信报告识别方法,其特征为:所述S4中针对图像数据版式结构进行分析的具体方法为:
S41.识别图像数据中连续页:通过读取图像数据中拆分获得的页数以及通过判断图像数据中的结束标志判断是否存在续页;
S42.判断单页图像数据的页面是单页或多页,针对单页图像数据的判断方法包括深度学习分类方法和模板匹配方法;
所述其中深度学习分类方法的具体步骤为:
对图像数据进行预处理,在确保图像长宽比例不变的基础上对图像数据进行归一化处理;
利用视觉几何群网络获得不同大小的特征映射图,并利用特征映射图中各点构造若干个不同尺度大小的default box;
将不同特征图生成的default box组合起来,并通过非极大值抑制方法持续与groundtruth进行匹配,过滤掉重叠或者不正确的default box;
通过图像数据中边界框大小、位置以及角度生成训练样本进行训练;
通过检测图像数据中边界框大小及位置判断页面结构:如果检测图像数据中边界框大小相似且左右分布,则判断图像数据为双页,否则为单页;
所述模板匹配方法的具体步骤为:
通过计算文本块在垂直方向上的重合度判断是否属于同一行,并对文本块进行聚行,利用检测到的框线信息对聚行结果进行校正;
利用聚行后的文本行内容遍历整个模板内容,通过计算特定阈值来判断是否匹配成功;
通过匹配成功的文本行在模板中的分布情况判断图像是单页或双页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京译图智讯科技有限公司,未经北京译图智讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210145731.X/1.html,转载请声明来源钻瓜专利网。





