[发明专利]一种可配置化OCR识别准确率评测方法、系统、电子设备和可读存储介质在审

专利信息
申请号: 202210394782.6 申请日: 2022-04-15
公开(公告)号: CN114579618A 公开(公告)日: 2022-06-03
发明(设计)人: 夏范进 申请(专利权)人: 中信百信银行股份有限公司
主分类号: G06F16/2455 分类号: G06F16/2455;G06F16/25
代理公司: 北京市兰台律师事务所 11354 代理人: 张博;张峰
地址: 100029 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 配置 ocr 识别 准确率 评测 方法 系统 电子设备 可读 存储 介质
【说明书】:

发明涉及一种可配置化OCR识别准确率评测方法、系统、电子设备和可读存储介质。该方法可改善传统识别方式所采用的需要耗费大量人力的情况,所述方法的主要步骤包括:第一,由评测机构配置yaml格式文件,为后续与供应商的识别结果进行比对之用。第二,评测机构收集各供应商所识别的数据结果。第三,评测机构通过程序解析配置文件。第四,评测机构处理识别结果数据,与供应商的OCR数据进行对比,输出对比结果,从而为评测机构选择供应商提供参考依据。该通过修改配置的方法,来代替传统的修改程序,可解决在核对过程中的标注错误问题、同义字符问题、非功能性漏识等问题。

技术领域

本发明涉及OCR识别准确率评测技术领域,尤其涉及一种可配置化OCR识别准确率评测方法、系统、电子设备和可读存储介质。

背景技术

OCR识别准确率评测,是一项繁琐且耗人力的工作。企业(比如银行)在对接OCR供应商们时,一般会邀请供应商们来现场POC,在大量的内部测试样本(图片)上,输出识别结果(文本)。对供应商们的识别结果进行准确率评测,并给出识别优劣的排序,就成为企业的一项繁重的工作。

现假设企业要采集10种证件OCR(如身份证、驾驶证、营业执照、行驶证等),平均每种证件有500个测试图片,每种张测试图片有20个字段。在公开招标的场景下,共有8家厂商应标,如此便需要核对10*500*20*8=800,000个字段的准确率。假如核对一个字段需要10秒,则共需8000,000秒,2222个小时的人力。

如此大量的核对工作,需要耗费大量人力。所以有能力的企业,一般采用写“OCR结果核对程序”进行核对的方法。对测试图片进行标注,准备一份标准答案,跟厂商的识别结果进行匹配,给出准确率的结果。

写程序核对,也是非常耗时的一项工作,因为程序需随数据的变化而做出改变。核对身份证的程序,考虑不到行驶证中有两个如“号牌号码”同样的字段,直接套用会报错;核对同一个证件的不同厂商,考虑不到厂商在比如”价税合计”字段,是输出“价税合计:¥1200”,还是输出“price_tax:1200元”,直接使用会核对不准。也就是说,程序员需要根据证件的不同和厂商的不同,随时调整程序。以上的例子中,程序员需要调整出80份程序,才成完成核对这项工作。

目前还没有可配置化的OCR识别准确率评测工具,以快速应对这种需要大量人力工作。

发明内容

为提升核对工作的效率,本发明并未采用传统的编写OCR结果核对程序的方式解决该问题,而是提出一种可配置化OCR识别准确率评测方法。该方法通过对业务场景进行抽象,建设通用的可配置的“OCR结果核对程序”,以修改配置的方法,来代替修改程序。这种程序还能够解决在核对过程中出现的标注错误问题,同时还可解决同义字符问题以及非功能性漏识问题和字段合并问题。

为实现以上目的,本发明所采用的一种可配置化OCR识别准确率评测方法,包括以下步骤:

S101,评测机构配置文件;

S102,评测机构解析配置文件;

S103,评测机构处理识别结果数据,从而将供应商的OCR数据转换成统一格式的标准化数据,评测机构使用评测程序与供应商的OCR数据进行对比。

进一步地,所述评测机构解析配置文件,是通过配置yaml格式文件实现。

进一步地,配置yaml格式文件字段包括replace、return、add、merge。

进一步地,所述通过可配置化方法将数据进行标准化可归纳(抽象)为将字段名称进行替换、添加、合并、选择四个序列化处理步骤。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中信百信银行股份有限公司,未经中信百信银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210394782.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top