[发明专利]基于语义分析的对称表格文字数据结构化提取的方法及系统在审
申请号: | 202110344967.1 | 申请日: | 2021-03-30 |
公开(公告)号: | CN115147857A | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 邓曦曦;吴小闯 | 申请(专利权)人: | 上海聚均科技有限公司 |
主分类号: | G06V30/414 | 分类号: | G06V30/414;G06V30/148;G06F40/30;G06F40/242 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200135 上海市浦东新区中国*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 分析 对称 表格 文字 数据结构 提取 方法 系统 | ||
一种基于语义分析的对称表格文字数据结构化提取的方法,它包括:对待处理图像数据进行预处理;若当前待处理图像的长宽比超过预设值,则判定所述待处理图像为长表格图像,先进行页切割处理成页图像帧信息;从每一页图像帧或待处理图像数据中识别出表格的每单元格区域,据此将图像以所述单元格为单元裁剪出对应图像切片,并依次存储到矩阵序列中,图像切片在所述矩阵序列中的次序编号信息映射出表格单元格在所述页图像帧中的位置关系;基于当列语义分析确定所述表格的标题行,根据全表的标表头及表格的语义距离,动态调整候选字符的权重;提取表格文字的文本识别信息后,进行结构化数据输出。本发明成本低且更大比例提高文本识别数据提取的正确率。
技术领域
本发明涉及表格识别领域,尤其基于语义分析的对称表格文字数据结构化提取的方法及系统。
背景技术
在产业数字化、金融数字化等场景,有大量重复率高的对称表格文字的扫描件货影像件,需要进行数据结构化提取。无论通过人工输入计算机电子表格的方式,还是传统基于模式匹配的光学识别字符(Optical Character Recognition,OCR)技术自动提取,不但效率低下,准确度也不满足业务进行数字化的需求,还需要投入大量的复核确认工作。
随着计算机技术的发展及近几年深度神经网络等机器学习技术的发展应用,文本识别技术也发展到更多的依靠场景文字识别(Scene Text Recognition,STR)等技术,表格文字的字符识别数据结构化提取效率也大大提高。但实际产业场景,因采集手段、现场条件限制,影像件或扫描件的分辨率及清晰度有限,目前行业应用的文本识别及提取技术,大多数情况下识别率还是无法满足实际的产业数字化升级需求,经常还是需要大量的人工录入及复核确认等工作。
中国农业银行股份有限公司在CN202011175185.1中公开了一种报表处理方法及系统,根据报表选择指令,从多个预设的已配置报表中确定待查报表;利用查询条件和待查报表中每个表格的指标信息,构建查询语句;在数据库中执行查询语句得到目标数据;根据待查报表中每个表格的指标信息,将目标数据对应填写到待查报表中的每个表格,得到最终的结果报表;利用用户提交的查询请求或下载请求,将结果报表反馈给用户。在本方案中,确定待查报表后,利用查询条件和待查报表的指标信息构建查询语句,在数据库中执行查询语句得到目标数据。将目标数据对应填写到待查报表的表格中得到最终的结果报表,将结果报表反馈给用户,不需要业务人员和技术人员频繁沟通才能制作报表,降低制作成本和提高制作效率。在该过程只要如何对查询表格降低人员参加的一种方式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海聚均科技有限公司,未经上海聚均科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110344967.1/2.html,转载请声明来源钻瓜专利网。