[发明专利]票据识别方法和装置在审
申请号: | 202011330551.6 | 申请日: | 2020-11-24 |
公开(公告)号: | CN112329708A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 韩光耀;庞敏辉;陈禹燊;冯博豪 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/62;G06N3/04;G06N3/08;G06N20/20 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 票据 识别 方法 装置 | ||
本申请涉及图像识别领域和自然语言处理领域,公开了票据识别方法和装置:通过获取票据图片,以及获取票据图片中关键字段的机器识别结果和机器识别结果关联的特征数据,并基于机器识别结果关联的特征数据和关键字段对应的二分类模型,得到关键字段的机器识别结果的置信度,二分类模型与关键字段一一对应,最后对关键字段的机器识别结果的置信度进行判断,以及响应于确定关键字段的机器识别结果的置信度符合预设条件,将关键字段的机器识别结果确定为票据图片中关键字段的识别结果。使得机器识别结果的置信度与机器识别结果的特征数据相关,提高了机器识别结果的置信度的准确性,从而根据该置信度确定票据识别结果,提高了票据识别结果的准确性。
技术领域
本申请涉及计算机技术领域,具体涉及图像识别领域和自然语言处理领域,尤其涉及一种票据识别方法和装置。
背景技术
随着科技不断进步,越来越多的票据需要审核,通过对票据进行机器识别,得到票据中关键字段的识别结果,比如金额、日期、客户姓名和用途等的机器识别结果,然后根据识别后的机器识别结果对票据进行审核。然而很多票据由于拍摄的图片比较模糊,不同的票据版式相差很大,图片的拍摄角度差别也很大,对票据中关键字段的识别难度很大,从而导致关键字段的机器识别结果准确率不高。因此,为了提高票据识别结果的准确率,将关键字段的平均识别概率作为该关键字段的置信度,并通过提高关键字段的置信度阈值来提高关键字段的识别结果的准确率。
然而随着置信度阈值的不断提高,关键字段的识别结果的准确率会不断增加,但是关键字段的识别结果的召回率会不断下降,从而会损失很多识别正确的关键字段。
发明内容
本申请实施例提供了一种票据识别方法、装置、电子设备以及存储介质。
第一方面,本申请实施例提供了一种票据识别方法,该方法包括:获取票据图片,以及获取票据图片中关键字段的机器识别结果和机器识别结果关联的特征数据;基于机器识别结果关联的特征数据和关键字段对应的二分类模型,得到关键字段的机器识别结果的置信度,其中,二分类模型与关键字段一一对应;对关键字段的机器识别结果的置信度进行判断,以及响应于确定关键字段的机器识别结果的置信度符合预设条件,将关键字段的机器识别结果确定为票据图片中关键字段的识别结果。
在一些实施例中,二分类模型基于以下步骤实现:获取样本票据图片集,样本票据图片集包括训练图片集;获取训练图片集中样本关键字段的机器识别结果关联的样本特征数据和样本关键字段的机器识别结果的标注结果,其中,样本关键字段的机器识别结果的标注结果用于表征机器识别结果是否正确;基于样本关键字段的样本特征数据和对应的标注结果进行训练,得到样本关键字段对应的二分类模型。
在一些实施例中,二分类模型还包括与关键字段对应的模型标识;以及基于机器识别结果关联的特征数据和关键字段对应的二分类模型,得到关键字段的机器识别结果的置信度,包括:获取与关键字段对应的模型标识,并基于模型标识调用与模型标识对应的二分类模型;将机器识别结果关联的特征数据输入二分类模型,得到关键字段的机器识别结果的置信度。
在一些实施例中,样本票据图片集还包括验证图片集;该方法还包括:获取验证图片集中验证关键字段的机器识别结果的验证特征数据和验证关键字段的机器识别结果的标注结果,其中,验证关键字段和样本关键字段相同;响应于获取到样本关键字段对应的二分类模型,基于验证关键字段的机器识别结果的验证特征数据和标注结果对二分类模型进行参数调整,得到调整后的二分类模型。
在一些实施例中,样本票据图片集还包括测试图片集;该方法还包括:获取测试图片集中的测试关键字段的机器识别结果的测试特征数据和测试关键字段的机器识别结果的标注结果,其中,测试关键字段和样本关键字段相同;响应于获取到调整后的二分类模型,基于测试关键字段的机器识别结果的测试特征数据和标注结果对调整后的二分类模型进行测试,得到调整后的二分类模型的准确率和召回率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011330551.6/2.html,转载请声明来源钻瓜专利网。