[发明专利]票据的金额识别方法、装置、计算机设备及存储介质在审
申请号: | 202110694971.0 | 申请日: | 2021-06-23 |
公开(公告)号: | CN113408536A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 郭喜亚 | 申请(专利权)人: | 平安健康保险股份有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34 |
代理公司: | 北京英特普罗知识产权代理有限公司 11015 | 代理人: | 程超 |
地址: | 200030 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 票据 金额 识别 方法 装置 计算机 设备 存储 介质 | ||
本发明提供一种票据的金额识别方法、装置、计算机设备及存储介质,所述方法包括以下步骤:通过文字识别算法对票据进行识别,以获得与一个或多个切片相对应的识别文本;从所述识别文本中提取大写数字字符和单位字符;计算所述大写数字字符和所述单位字符对应的大写金额数值;从所述识别文本中提取小写金额字符并确定小写金额数值;对所述大写金额数值和所述小写金额数值进行核验;根据核验结果提取所述票据的金额。
技术领域
本发明涉及文字识别技术领域,特别涉及一种票据的金额识别方法、装置、计算机设备及存储介质。
背景技术
票据识别是人工智能的重要应用领域,自动识别票据的各个关键字段尤其是金额可有效减少人工核算成本,实现费用自动化报销。现有技术对于票据场景中的结构化识别通常有以下几种解决方案:(1)通过对整张图像进行OCR(Optical CharacterRecognition,光学字符识别),基于领域词典对OCR结果进行纠错,并基于固定字段切片或固定区域,抽取所需关键字段信息;(2)制作自定义识别模板,基于位置和内容固定不变的参考文字识别目标区域的文字,实现对相同版式图片的结构化识别;(3)定制定位或分割模型,寻找所需字段区域,根据字段类型(如目标数字、英文、符号、汉字)定制识别模型。
然而,自定义模板匹配仅适用于身份证等不易发生折叠或褶皱的硬质票据,对于纸质票据则由于纸张空间容易变形而造成识别成功率低;专用定位、分割或识别模型开发成本高、移植性差;当票据存在打印偏移时会对金额提取造成障碍;存在将其他文字误识别为大写数字字符的风险,并且当大写金额内任一字识别错误会导致该金额无法翻译为数值;当识别出的大小金额数值不一致时,缺少相应的取舍。
因此,现有技术对票据金额的抽取及纠错能力有限,合计金额的解析成功率高度依赖于OCR识别结果。使得报销等票据识别应用场景效率降低,需要人工介入,拉长周期,同时也提高了企业管理成本。
发明内容
本发明的目的是提供一种能够快速、准确识别票据金额的技术方案,以解决现有技术中存在的上述问题。
为实现上述目的,本发明提供一种票据的金额识别方法,包括以下步骤:
通过文字识别算法对票据进行识别,以获得与一个或多个切片相对应的识别文本;
从所述识别文本中提取大写数字字符和单位字符;
计算所述大写数字字符和所述单位字符对应的大写金额数值;
从所述识别文本中提取小写金额字符并确定小写金额数值;
对所述大写金额数值和所述小写金额数值进行核验;
根据核验结果提取所述票据的金额。
根据本发明提供的票据的金额识别方法,所述从所述识别文本中提取大写数字字符和单位字符的步骤包括:
根据首尾字符特性对所述识别文本进行截断;
构造正则匹配项对截断后的所述识别文本进行字符提取,所述正则匹配项包括预设的多个候选大写数字字符以及多个候选单位字符;
对提取到的大写数字字符或单位字符进行纠错。
根据本发明提供的票据的金额识别方法,所述对提取到的大写数字字符或单位字符进行纠错的步骤包括以下任一种:
基于形近字字典对所述大写数字字符或单位字符中的形近字进行纠错;
基于规则库对所述大写数字字符或单位字符进行纠错,所述规则库包括大写金额与单位之间的结构顺序关系;
根据单位由大到小排列的顺序对所述单位字符进行纠错;
根据四角编码和FASPell编码对所述大写数字字符或单位字符进行评分并纠错;其中评分公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安健康保险股份有限公司,未经平安健康保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110694971.0/2.html,转载请声明来源钻瓜专利网。