[发明专利]票据识别方法及装置在审
申请号: | 201910921362.7 | 申请日: | 2019-09-27 |
公开(公告)号: | CN110688998A | 公开(公告)日: | 2020-01-14 |
发明(设计)人: | 丁平;杨春明;郭铸 | 申请(专利权)人: | 中国银行股份有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06F9/54;G06K9/62 |
代理公司: | 11127 北京三友知识产权代理有限公司 | 代理人: | 薛平;谷敬丽 |
地址: | 100818 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 票据 数据元组 字段 票据识别 数据识别 真实数据 相似度 多应用场景 准确率 | ||
本发明公开了一种票据识别方法及装置,该方法包括:获取待识别票据的OCR识别结果,其中,OCR识别结果包含待识别票据中每个票据元素包含的各个字段的数据识别结果;根据OCR识别结果,获取每个票据元素对应的多个数据元组,其中,每个数据元组中包含相应字段的一个真实数据;根据每个票据元素包含的各个字段的数据识别结果,以及每个票据元素对应的各个数据元组中相应字段的真实数据,计算每个票据元素与对应各个数据元组的相似度;将相似度最大的数据元组,确定为每个票据元素的识别结果;根据待识别票据中各个票据元素的识别结果,生成待识别票据的识别结果。本发明能够提高对多样化票据识别的准确率,满足更多应用场景的票据识别要求。
技术领域
本发明涉及图像处理领域,尤其涉及一种票据识别方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
票据,作为企业财务核算的原始凭据,须进行电子化处理,才能实现数字流动。传统的人工录入方式,企业往往需要投入大量的人力成本和时间成本,不仅增加了运营成本,而且录入速度难以提升,经常容易出现错误。随着光学识别字符(Optical CharacterRecognition,OCR)技术的快速发展和广泛应用,票据识别效率大大提高。OCR识别技术作为一种高效率、低成本的数据采集方案,为企业业务快速发展提供了有力支撑。
由于OCR识别技术无法实现百分之百的识别准确率,一些OCR后处理方法相继出现。现有的OCR后处理方法,以通用语料库为基础,经过N-Gram语言模型、上下文无关模型、N-POS模型和基于决策树的语言模型等技术,对OCR识别后的文字进行后处理。这种基于通用语料库的OCR识别方法,对通用票据的识别准确率能起到一定的提升作用,但难以满足一些专用票据的识别后处理。
例如,银行在办理业务过程中,会产生大量的票据。为了实现将这些数量巨大、种类繁多的纸质票据电子化存储,需要进行票据扫描、数据录入、人工校对等工作,OCR票据识别发挥了巨大的作用。相对于传统的手工录入方式来说,OCR票据识别的智能录入具有强大的优势,其识别速度远快于手工录入,节省了大量人力资源,优化资源配置,使人员分配于更加有意义的工作。但是,由于一些大型银行经营范围较广,在办理业务过程中,会产生种类繁多的票据。票据种类的多样化,不仅会增加OCR的识别难度,而且一些新增票据字段内容可能没有纳入通用语料库中,会导致OCR识别错误。另外,对于某一字段,如果通用语料库中存储的字段内容与银行定义的字段内容不一致,也会导致OCR识别出现错误。
由此,现有技术中急需一种票据识别方法,在提高票据识别效率的同时,能够满足更多应用场景的票据识别要求,提高多样化票据识别准确率。
发明内容
本发明实施例提供一种票据识别方法,用以现有基于通用语料库的OCR识别方法,对于多样化票据识别,准确率较低的技术问题,该方法包括:获取待识别票据的OCR识别结果,其中,待识别票据中包含至少一个票据元素,每个票据元素中包含具有关联关系的多个字段,OCR识别结果包含待识别票据中每个票据元素包含的各个字段的数据识别结果;根据OCR识别结果,获取每个票据元素对应的多个数据元组,其中,每个数据元组中包含相应字段的一个真实数据;根据每个票据元素包含的各个字段的数据识别结果,以及每个票据元素对应的各个数据元组中相应字段的真实数据,计算每个票据元素与对应各个数据元组的相似度;将每个票据元素对应的多个数据元组中,与每个票据元素相似度最大的数据元组,确定为每个票据元素的识别结果;根据待识别票据中各个票据元素的识别结果,生成待识别票据的识别结果
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910921362.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像处理方法及装置
- 下一篇:马赫带效应模拟的点光源金属钢印文字检测方法