[发明专利]一种表格证件影像件的文本识别方法及计算设备在审
| 申请号: | 202111382325.7 | 申请日: | 2021-11-22 |
| 公开(公告)号: | CN114049642A | 公开(公告)日: | 2022-02-15 |
| 发明(设计)人: | 郎志刚;付勇;范增虎 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
| 主分类号: | G06V30/413 | 分类号: | G06V30/413;G06F16/33;G06F40/186;G06F40/289;G06F40/30 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 王春波 |
| 地址: | 518027 广东省深圳市*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 表格 证件 影像 文本 识别 方法 计算 设备 | ||
本发明实施例提供了一种表格证件影像件的文本识别方法及计算设备,该方法包括针对任一类型的表格证件影像件,通过对该类型的表格证件影像件进行文本内容识别,确定出第一文本内容,在第一文本内容中第一文本行的字符串的数量与该类型的表格证件所具有的各关键字段的数量不相同时,将第一文本行的任一字符串与第二文本行中的各字符串进行拼接处理,对拼接后的字符串进行验证,在任一拼接后的字符串符合该类型的表格证件中任一关键字段的文本内容规则时,将拼接后的字符串确定为关键字段的文本内容,从而可确定出各关键字段的文本内容。如此,该方案可以有效地提高识别表格证件影像件中文本内容的准确性,并降低因维护不同的内容模板所耗费的成本。
技术领域
本发明实施例涉及金融科技(Fintech)领域,尤其涉及一种表格证件影像件的文本识别方法及计算设备。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技转变,但由于金融行业的安全性、实时性要求,也对技术提出的更高的要求。在金融领域,用户在办理金融业务(比如贷款业务等)时,为了确保金融业务操作的安全性,需要用户上传相关的证件影像件进行辅助审核,此时就需要用户上传自己相关的证件影像件,比如上传自己的房屋产权证影像件、机动车登记证书影像件或企业工商登记影像件等,以便业务人员利用OCR(Optical Character Recognition,光学字符识别)技术对客户上传的证件影像件进行内容提取并审核。
现阶段,在针对每种类型的表格证件影像件进行识别处理之前,会在对该类型的表格证件所对应的内容模板进行定义行与列的过程中,引入该类型的表格证件的每个单元格的四个角的坐标值,以此实现针对该类型的表格证件影像件中文本内容的识别。具体地,对于某一用户上传的某一种类型的表格证件影像件,在针对该类型的表格证件影像件进行识别处理时,可以先根据该类型的表格证件的各单元格的四个角的坐标值针对各单元格进行切分,再针对切分出的每个单元格进行OCR识别,得到每个单元格中的文本内容,然后通过内容模板针对每个单元格识别出的文本内容进行解析和结构化处理,如此即可得到该类型的表格证件中每个关键字段所对应的完整内容信息,但是,这种方案由于某一类型的表格证件影像件若出现扫描偏差、拍摄偏差,或该类型的表格证件影像件中的字段位置发生变动,因此在根据各单元格的四个角的坐标值针对各单元格进行切分时,就会出现切分出的单元格是不准确的,从而导致识别出的至少一个关键字段对应的文本内容也是不准确的。其中,由于现有方案会为每种类型的表格证件都配置一个符合该类型的表格证件所具有的内容格式要求的内容模板,且每种类型的表格证件所对应的内容模板是固定的,在某一类型的表格证件中的内容发生变更时需要重新设计并开发该类型的证件所对应的内容模板,因此通用性较差、维护成本较高。比如针对房屋产权证,不同的城市所定义的房屋产权证的内容会存在大大小小的差异,那么就需要针对每个城市所定义的房屋产权证都配置一种内容模板,如此就会导致房屋产权证所对应的内容模板的开发周期长、人力成本高。
综上,目前亟需一种表格证件影像件的文本识别方法,用以有效地提高识别表格证件影像件中文本内容的准确性,并可以降低因维护内容模板所耗费的成本。
发明内容
第一方面,本发明实施例提供了一种表格证件影像件的文本识别方法,包括:
针对任一类型的表格证件影像件,通过对所述类型的表格证件影像件进行文本内容识别,确定出所述类型的表格证件影像件的第一文本内容;
在确定所述第一文本内容中第一文本行的字符串的数量与所述类型的表格证件所具有的各关键字段的数量不相同时,将所述第一文本行的任一字符串,与第二文本行中的各字符串进行拼接处理,并对拼接后的字符串进行验证;所述第二文本行为所述第一文本内容中位于所述第一文本行之前的最近一行;
在任一拼接后的字符串符合所述类型的表格证件中任一关键字段的文本内容规则时,将所述拼接后的字符串确定为所述关键字段的文本内容;
将所述各关键字段的文本内容确定为所述类型的表格证件影像件的第二文本内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111382325.7/2.html,转载请声明来源钻瓜专利网。





