[发明专利]一种票据审核方法及系统在审
申请号: | 201910577167.7 | 申请日: | 2019-06-28 |
公开(公告)号: | CN110334640A | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 王宇;郭近之;赵娟;陆俊龙;彭举 | 申请(专利权)人: | 苏宁云计算有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 许峰 |
地址: | 210042 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 票据审核 票据 审核 正确率 构建 图片 | ||
本发明公开了一种票据审核方法及系统,能够自动审核票据,提高了审核效率和正确率。所述票据审核方法,包括:获取含有票据的图片,对图片中的票据进行识别,构建专项模型;对所述专项模型进行训练;利用训练后的专利模型对票据进行审核。
技术领域
本发明属于电子办公技术领域,尤其涉及一种票据审核方法及系统。
背景技术
目前财务共享办公领域发票报销,扫描,审核大多仍采取人工审核方式,财务人员每天都面临着实物票接受,分拣,扫描,审核,批复的过程。整个流程线枯燥乏味,存在着大量重复手工操作,尤其是票据审核,需要反复对比员工提报的报销流程信息与票面信息是否一致,费时费力。
传统的ocr识别都是基于attention_ocr技术完成通用识别模型。通过打标平台不停的标注训练,识别出从左往右,自上至下的文字识别结果,通过坐标和关键字做专项模型封装。需事先告诉模型要识别哪种类型票据才能进行专属模型研发。如果需要提高识别成功率,需要大量样本进行打标训练,缺少基于业务系统整个流水线的纠错机制来提高整体的识别率。
发明内容
本发明的实施例提供一种票据审核方法及系统,能够自动审核票据,提高了审核效率和正确率。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,本发明的实施例提供一种票据审核方法,包括:
获取含有票据的图片,对图片中的票据进行识别,构建专项模型;
对所述专项模型进行训练;
利用训练后的专利模型对票据进行审核。
结合第一方面,作为第一种可能实现的技术方式,所述获取含有票据的图片,对图片中的票据进行识别,构建专项模型,包括:
获取含有票据的图片,对所述图片中的票据进行识别分类,获得票据识别结果,所述图片包括N张票据,N为大于1的整数,所述票据识别结果包括N张单张票据图片;
对所述N张单张票据图片进行文字识别,获得文字识别结果;
将所述文字识别结果封装成专项模型。
结合第一方面的第一种可能的实现方式,作为第二种可能的实现方式,所述对所述图片中的票据进行识别分类,具体包括:
将所述图片的大小调整设定值;
在所述调整后的图片上运行单个卷积网络;
由OCR识别技术中的目标检测模型的置信度对S102获得的图片运行卷积结果进行阈值处理;
利用神经网络做图像语义分割,获得N张单张票据图片。
结合第一方面的第一种可能的实现方式,作为第三种可能的实现方式,所述将所述文字识别结果封装成专项模型,具体包括:
根据所述文字识别结果,得到所述单张票据图片上的票据所属的类型;
根据所述票据所属的类型,将文字识别结果封装成所述票据的专项模型,所述专项模型包括至少一个业务字段;
将所述一个或多个业务字段约定为所述专项模型的目标字段。
结合第一方面,作为第四种可能的实现方式,所述对所述专项模型进行训练,包括:
从图片中采集数据信息,所述数据信息包括业务数据和模型识别数据一致的正确数据信息,以及业务数据和模型识别数据不一致的错误数据信息;
判断所述错误数据信息是否为模型识别错误,若是,则进入下一步;
根据所述错误数据信息,进行模型反义,并自动打标,训练模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁云计算有限公司,未经苏宁云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910577167.7/2.html,转载请声明来源钻瓜专利网。