[发明专利]智能防漏的资产查重方法、系统、设备及计算机可读存储介质在审
申请号: | 202111657068.3 | 申请日: | 2021-12-30 |
公开(公告)号: | CN114399756A | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 吕永 | 申请(专利权)人: | 上海聚均科技有限公司 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V10/28;G06V10/44;G06V30/10 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200135 上海市浦东新区中国*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能 防漏 资产 方法 系统 设备 计算机 可读 存储 介质 | ||
本发明提供了一种智能防漏的资产查重方法、系统、设备和计算机可读存储介质。通过本申请提出的技术方案,能够利用光学字符识别结果对识别出来的字符进行坐标位置的确定,并据此获取光学字符识别结果对应的识别文字分布情况和空白区域分布情况,进而对于基于光学字符识别结果获取的空白区域在原始图像的基础上进行位置分布判断和像素色彩分布判断,进而得出上述空白区域中是否存在可能遗漏识别的情况,并对出现可能遗漏识别情况的区域进行二次文字识别以防止遗漏识别和资产遗漏查询的情况产生,具有可推广价值。
技术领域
本发明涉及图像识别技术领域,具体地,公开了一种智能防漏的资产查重方法、系统、设备及计算机可读存储介质。
背景技术
近几年来,应收账款等动产抵押相关业务在银行兴起。此类资产的特点是一个资产包会有成千上万笔小资产,单纯靠人工去核查资产是否有被重复登记,成本过高,几乎不具可行性。因此必须借助计算机进行资产查重。大部分的资产登记文件都是图片,所以计算机首先会对资产登记文件进行光学字符识别,把图片转化成文本。业务员会去使用一些关键词去搜索文本,一个资产登记文件文本中如果包含这些关键词,就表示该资产已经被登记了,是重复资产。由于光学字符识别技术的局限性,往往会造成部分图片文字没有被识别出来,如果这些文字没有识别出来,业务员使用关键词搜索就有可能会遗漏一些资产。
在现有技术中,还可以通过光学字符识别引擎识别出来的字符识别率去合成一个文件的识别率,对于识别率低的文件可以挑选出来让人工进行复核。但由于光学字符识别的字符识别率往往只是针对已经识别出来的字符进行识别率的评分,仍然无法从根源上解决遗漏识别字符的情况。
发明内容
为了解决现有技术中存在的上述问题,本发明提供一种智能防漏的资产查重方法、系统、设备及计算机可读存储介质。
在本申请的第一方面提供了一种智能防漏的资产查重方法,用于根据资产登记文件对应的图像数据进行重复资产查询,该种资产查重方法包括如下步骤:
获取资产登记文件对应的原始图像;
根据原始图像进行文字识别处理,获取资产登记文件对应的第一文字识别结果以及第一文字分布区域;
根据原始图像进行黑白二值化处理,获取由黑色像素和白色像素组成异色图像;
根据非第一文字分布区域的分布情况,获取对应的可能漏识别区域;
根据异色图像的像素分布情况,于可能漏识别区域中,获取黑色像素占比值;
在黑色像素占比值处于预设区间的情况下,根据对应的可能漏识别区域进行二次文字识别处理以获取对应的第二文字识别结果;
重复资产查询的结果包括第一文字识别结果和第二文字识别结果。
在上述第一方面的一种可能的实现中,在根据原始图像进行文字识别处理的过程中,还包括:
使用光学字符识别引擎对原始图像进行字符识别,获取每个可识别字符于原始图像中的坐标信息;
根据每个可识别字符对应的坐标信息,确定每个可识别字符于原始图像中的占位区域;
第一文字识别结果包括每个可识别字符对应的字符含义信息;
第一文字分布区域包括每个可识别字符对应的占位区域。
在上述第一方面的一种可能的实现中,进一步地,非第一文字分布区域包括原始图像中除每个可识别字符对应的占位区域以外的全部区域。
在上述第一方面的一种可能的实现中,进一步地,在根据原始图像进行黑白二值化处理的过程中,还包括:
将原始图像中全部白色像素对应的区域保持不变;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海聚均科技有限公司,未经上海聚均科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111657068.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可调角度吊笼的安全监测系统及监测方法
- 下一篇:一种转印膜的转印方法