[发明专利]票据识别后信息结构化提取方法、装置和设备在审
申请号: | 202011628351.9 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112800848A | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 刘渊;张科;梁扩战 | 申请(专利权)人: | 中电金信软件有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 唐菲 |
地址: | 100000 北京市海淀区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 票据 识别 信息 结构 提取 方法 装置 设备 | ||
本申请提供一种票据识别后信息结构化提取方法、装置和设备,该方法包括:获取待识别的票据的影像信息;解析所述影像信息,从上向下,逐行识别所述票据中的至少一个文本信息,以及所述至少一个文本信息中的每一文本信息在所述票据上的位置信息;对所述文本信息进行分类,根据分类结果从预设模板库中选取语义匹配的目标数据模板;根据所述文本信息、所述位置信息和所述目标数据模板提取所述文本信息中的文本数据。本申请通过坐标、语义概念的双重匹配实现模板对齐,实现了在文字行数、字数等动态变化情况下的模板对齐,基于模板确定信息的成份,提升了复杂版面票据的信息结构化提取精度,最终提高了数据识别准确度。
技术领域
本申请涉及数据识别技术领域,具体而言,涉及一种票据识别后信息结构化提取方法、装置和设备。
背景技术
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。OCR技术被广泛应用在手写识别、打印识别及文本图像识别等相关领域。小到文档识别、银行卡身份证识别,大到广告、海报,极大简化了处理数据的方式。
在票据识别领域,首先将票据图像输入OCR模型,输出的是非结构化数据。在票据识别后,会将非结构化数据转换为结构化数据,一般通过将票据与模板匹配,再根据模板中的数据提取规则从非结构化数据中抽取数据形成结构化数据。
但是,现有技术中通用的方法为光学锚点的对齐,如果文字行数,字数等动态变化,很难根据模板对齐哪个区域是什么内容,因此会导致在文字行数、字数等动态变化情况下的模板对齐鲁棒性较差。
发明内容
本申请实施例的目的在于提供一种票据识别后信息结构化提取方法、装置和设备,通过坐标、语义概念的双重匹配实现模板对齐,实现了在文字行数、字数等动态变化情况下的模板对齐,提高了数据识别准确度。
本申请实施例第一方面提供了一种票据识别方法,包括:获取待识别的票据的影像信息;解析所述影像信息,从上向下,逐行识别所述票据中的至少一个文本信息,以及所述至少一个文本信息中的每一文本信息在所述票据上的位置信息;对所述文本信息进行分类,根据分类结果从预设模板库中选取语义匹配的目标数据模板;根据所述文本信息、所述位置信息和所述目标数据模板提取所述文本信息中的文本数据。
于一实施例中,所述解析所述影像信息,从上向下,逐行识别所述票据中的至少一个文本信息,以及所述至少一个文本信息中的每一文本信息在所述票据上的位置信息,包括:识别所述影像信息,生成所述票据的文本库,所述文本库包括:所述票据的全部文本内容和每个字符在所述票据上的坐标信息;从所述文本库中,选取每个预设字段指向的目标文本内容作为所述预设字段的所述文本信息,所述位置信息为所述目标文本内容所在的目标坐标范围。
于一实施例中,所述对所述文本信息进行分类,根据分类结果从预设模板库中选取语义匹配的目标数据模板,包括:针对所述每个预设字段,识别所述目标文本内容的目标语义信息;基于所述目标语义信息,于所述模板库中,选取模板语义信息与所述目标语义信息的相似度最大的所述目标数据模板。
于一实施例中,所述目标数据模板中包括:多个标记了语义标签和位置标签的标注框;所述根据所述文本信息、所述位置信息和所述目标数据模板提取所述文本信息中的文本数据,包括:针对所述每个预设字段,分别计算所述位置信息与所述目标数据模板中每个标注框的位置标签的重叠率,将所述重叠率大于预设阈值的所述标注框作为候选标注框;于所述候选标注框中,分别计算同一预设字段下的所述文本信息与每个所述候选标注框内的语义标签之间的语义相似度,选取所述语义相似度最大的一个所述候选标注框作为所述预设字段的模板标注框;提取所述模板标注框所标注的文本信息的文本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电金信软件有限公司,未经中电金信软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011628351.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:适用于寒冷季节时的电动汽车的启动方法
- 下一篇:图腾柱型PFC电路
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置