[发明专利]一种发票识别方法在审
申请号: | 202310053440.2 | 申请日: | 2023-02-02 |
公开(公告)号: | CN116563876A | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 周翚;高伟杰;李松 | 申请(专利权)人: | 青岛中瑞数研院科技有限公司 |
主分类号: | G06V30/42 | 分类号: | G06V30/42;G06V30/19;G06V20/70;G06V10/82 |
代理公司: | 青岛海知誉知识产权代理事务所(普通合伙) 37290 | 代理人: | 高凤全 |
地址: | 266000 山东省青岛市李*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 发票 识别 方法 | ||
本发明涉及一种发票识别方法,包括以下步骤:S1、人工标注制作发票模版;S2、获取用户上传的发票图像;S3、对上传发票图像中的文字位置、包围框以及文字内容进行提取;S4、根据提取的文字内容,与模版中发票信息进行匹配,确定发票种类;S5、确定发票种类后,获取校正变换矩阵,对上传图像以及识别的文字位置进行校正,得到目标字段;S6、获取目标字段的文字内容。本发明的优点是:可解决发票种类识别,上传图像歪斜、畸变、拍摄表格不清晰等问题,提升发票字段提取准确率。
技术领域
本发明涉及一种发票识别方法,属于识别领域,通过对图像进行分析处理,实现对发票中关键字段内容的提取。
背景技术
目前通用的文件检测识别技术比较成熟,可以快速检测并识别出图像中的所有文字,尤其是印刷字体的检测识别目前已经达到很高的准确率,进入大规模实用阶段。在金融领域,发票、表单文字识别是使用最为广泛的技术,本发明提供的一种发票识别的方法,可以对上传的发票图像进行自动分类识别,并识别出发票图像中的发票字段和对应的数据,将识别出发票数据和其对应的切片图像填入到发票验证系统中对发票真伪进行查询验证,并可以获取到发票验证系统反馈的验证结果,从而可以自动确定发票真伪。该方式不需要人工验证,可以大量节省工作人员的时间和成本,提高验证发票真伪的速度和准确率。
平安科技(深圳)有限公司的发明专利:一种发票识别的方法、装置、存储介质及计,CN110263239 A。(1)该专利中披露的发票文字识别方法无法判断上传发票的种类,例如:购车发票、普通电子发票、二手车购置发票等。由于发票种类较多,对于不同种类的发票需要提取的信息不同,所以要对上传发票图像进行发票类别识别。(2)该专利在识别数据和发票数据对应时采用的是通过识别数据本身的内容进行其属于哪一个字段的判断,由于很多字段对应内容相似,所以此方法很容易出现对应错误的情况发生,进而导致其他字段信息对应错误。
缺点1:发票种类多样,在不同种类发票中,用户需求的字段是不一样的,所以在提取字段前需要知道待识别发票的种类,进而知道本上传发票需要提取哪些字段。现有技术无法同时支持多种发票的识别,无法对上传的图像进行判断属于哪一类发票。
缺点2:很多应用场景中,待识别发票的图像是用户通过手机或其它拍照、扫描设备进行采集,由于用采集图像的随意性,导致上传的发票图像存在大小不一致、倾斜、旋转、光线不佳、阴影、拍摄质量较低等问题,致使现有方法无法准确获取发票的表格边框或特定字段,进而无法对发票进行准确的识别。
发明内容
为克服现有技术的缺陷,本发明提供一种发票识别方法,本发明的技术方案是:
一种发票识别方法,包括以下步骤:
S1、人工标注制作发票模版;
S2、获取用户上传的发票图像;
S3、对上传发票图像中的文字位置、包围框以及文字内容进行提取;
S4、根据提取的文字内容,与模版中发票信息进行匹配,确定发票种类;
S5、确定发票种类后,获取校正变换矩阵,对上传图像以及识别的文字位置进行校正,得到目标字段;
S6、获取目标字段的文字内容。
在所述的步骤S4中,当多个字段对应同一个内容框时,具体匹配步骤如下:根据模版字段域中标注的包围框,分析字段的位置关系,将字段域中包围框的位置关系对应到内容域中的包围框,以及校正后文字的包围框,进而在对应的位置上获取对应字段的文字内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛中瑞数研院科技有限公司,未经青岛中瑞数研院科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310053440.2/2.html,转载请声明来源钻瓜专利网。