[发明专利]票据进行批量OCR识别方法及系统在审
申请号: | 202110345101.2 | 申请日: | 2021-03-30 |
公开(公告)号: | CN115147855A | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 丁雯;王义山 | 申请(专利权)人: | 上海聚均科技有限公司 |
主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/418;G06V20/62;G06V30/146;G06V30/162;G06V30/164;G06V30/19 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200135 上海市浦东新区中国*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 票据 进行 批量 ocr 识别 方法 系统 | ||
一种票据进行批量OCR识别方法和系统。它包括:对待批量识别的票据图像进行预处理;获取所述待批量识别票据图像的票据数据,通过分别对比匹配模板库中匹配模板的匹配锚点及关键词字符来匹配,从所述匹配模板库中得到相似度最高的匹配模板;基于识别出来相似度最高的所述匹配模板,匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域;模糊匹配该批量待识别票据图像的所述待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符信息的权重,以此提高识别率。本发明就是充分利用相关性强的单据,通过语义关联分析及知识跨单据迁移,动态调整后续识别字符的权重,从而提高文本识别的正确率。
技术领域
本发明涉及图像识别领域,尤其票据进行批量OCR识别方法及系统。
背景技术
票据是在涉及经济、运输等业务的载明交易、事项实际情况的书面证明,货款的支付、权利凭证的纸质或电子依据。可以以票据作为提取、消费、权限的依据,由于种类多种多样,故票据的模式匹配、定位和识别十分的困难。
虽然由于票据五花八门的种类,例如发票、机票、火车票、收据、凭条、存根、购物券等,这些不同的票据,特征词位置不一样,敏感词的表达形式也各有差异,数字的大小写也无规范,故如果票据数量多的话,在审计工作中,审计规则的内容集合,包括:发票类型、单位名称、金额的审计规则的集合,类别多种多样,故通过人工进行识别判断十分的困难,极易出错。
中国南方电网有限责任公司在201911404676.6公开了一种基于特征检测的OCR识别票据问题的方法及系统,通过对票据图像进行背景消除并去噪处理得到第一图像;对第一图像做投影变换并去除分隔符后识别字符得到票据文本;抽取票据文本的关键词组合;将关键词组合在知识库中进行匹配得到匹配度最高的规则集作为基准规则集;若票据文本的审计内容信息大于基准规则集预设的风险阈值则发出警报信息,有效的解决了原始文件字迹清晰度、整洁度等较难识别问题,能够大批量的导入票据,并快速的对票据进行相似度识别,利用基于文本字符特征的智能识别的智能检校实现OCR识别纠错,进一步提高准确率,根据定位出的风险点快速减少了审计的工作量,提升了此类信息化系统的用户体验。
该专利虽然解决了一张票据的99%的OCR识别问题,或者可以通过人工智能做针对性训练,但识别率还是无法达到99%,还是需要大量的人力录入及复核工作,并且因为过多的人工参与,不但准确率很难保证,而且容易造成信息泄露等安全风险以及数字金融服务时对必须规避人为操作造成的道德风险。
同时在对产业数字化时,经常需要对大量同种类型的票据进行批量化的扫描及文本识别结构化数据提取。这种情况下待识别的票据,是一种样式的票据,每张单据之间只是有部分内容是变动的,而且相邻的票据的内容,进行语义分析时,相关性一般比较大,如何提高同种类型票据批量化文本识别的正确率,这是本行业急需要解决的问题。
发明内容
本发明提供一种票据进行批量OCR识别方法,以解决同种类型票据批量化文本识别的正确率的问题。
一种票据进行批量OCR识别方法,它包括:
对待批量识别的票据图像进行预处理;
获取所述待批量识别票据图像的票据数据,通过分别对比匹配模板库中匹配模板的匹配锚点及关键词字符来匹配,从所述匹配模板库中得到相似度最高的匹配模板;
基于识别出来相似度最高的所述匹配模板,匹配出所述待批量识别票据图像的票据数据中关键词字符区域和待识别字符区域;
模糊匹配该批量待识别票据图像的所述待识别字符区域,通过跨票据计算相对应区域的汉明距离,动态调整候选字符信息的权重,以此提高识别率。
批量OCR识别之前还包括:预先通过人工标注每一模板的匹配锚点和关键词字符区,得到匹配模板库的匹配模板;
“当前待识别票据对比匹配模板的匹配锚点及关键词字符区计算其相似度”进一步包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海聚均科技有限公司,未经上海聚均科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110345101.2/2.html,转载请声明来源钻瓜专利网。