[发明专利]一种数据表格扫描图像的结构化转换方法在审

专利信息
申请号: 202111651270.5 申请日: 2021-12-30
公开(公告)号: CN114357045A 公开(公告)日: 2022-04-15
发明(设计)人: 毛玮韵;魏本刚;徐湘忆;陈璐;吴天逸;彭政睿;任辰 申请(专利权)人: 国网上海市电力公司
主分类号: G06F16/25 分类号: G06F16/25;G06F16/24
代理公司: 上海科盛知识产权代理有限公司 31225 代理人: 杨元焱
地址: 200122 上海市浦*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 表格 扫描 图像 结构 转换 方法
【说明书】:

发明涉及一种数据表格扫描图像的结构化转换方法,包括以下步骤:1)获取数据表格的扫描图像;2)提取扫描图像中的文字位置信息和表格位置信息;3)根据文字位置信息和表格位置信息,获取文本在表格中的行列位置信息;4)根据行列位置信息,逐一识别每一个表格中单元格内的文本识别信息;5)重构包含文本识别信息和表格位置信息的电子表格文档;6)将电子表格文档转化成字典形式的结构化数据。与现有技术相比,本发明准确性高,实现自动结构化转换,效率高。

技术领域

本发明涉及数据处理技术领域,尤其是涉及一种数据表格扫描图像的结构化转换方法。

背景技术

目前信息可以划分为两大类,一类信息能够用数字或统一的结构加以表示,称之为结构化数据;另一类无法用数字或统一的结构表示,如文本、图像、声音、网页等,称之为非结构化数据。现今企业存储的非结构化数据大量堆积,然而无法遵循标准的数据结构,一定程度上很难理解或者调动这些数据,将不能满足日益增长的应用需求,目前传统的结构化转换方法是对非结构化数据特征提取,进行命名实体、关系识别,并依据所需要处理的属性具体划分构建数据表,需要人工参与,效率低;

同时企业多以电子表格扫描件的方式存储非结构化数据,目前电子表格逻辑提取方法是通过表格识别算法,获取电子表格文档(如excel等表格软件)中所有表格进行布局分析。再根据分析结果从中抽取内容,并做对应的转换处理得到结构化信息。而相当一部分信息资料是以扫描版本与照片版本的表格为主,不如电子表格工整清晰,会产生倾斜或者不对齐的情况。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种数据表格扫描图像的结构化转换方法,准确性高,实现自动结构化转换,效率高。

本发明的目的可以通过以下技术方案来实现:

一种数据表格扫描图像的结构化转换方法,可用于电力系统变电设备试验报告的结构化转换,包括以下步骤:

1)获取数据表格的扫描图像;

2)提取扫描图像中的文字位置信息和表格位置信息;

3)根据文字位置信息和表格位置信息,获取文本在表格中的行列位置信息;

4)根据行列位置信息,逐一识别每一个表格中单元格内的文本识别信息;

5)重构包含文本识别信息和表格位置信息的电子表格文档;

6)将电子表格文档转化成字典形式的结构化数据。

进一步地,所述的文字位置信息包括文字的位置信息和文字所在单元格的边框位置信息。

进一步地,所述的文字位置信息的提取过程包括:

通过OCR深度学习算法提取扫描图像中文字的位置信息;

对扫描图像进行二值化处理,获得文字所在单元格的边框位置信息。

进一步地,所述的表格位置信息包括表格中横线和竖线的交点坐标;

所述的表格位置信息的提取过程包括:

利用腐蚀、膨胀操作对二值化处理后的扫描图像进行分割,获得表格中的横线和竖线位置,进而获得横线和竖线的交点坐标。

进一步地,所述的步骤6)包括:

对于电子表格文档的每个表格,判断该表格的行列是否对齐,若是则判定该表格为标准表格,否则判定该表格为非标准表格;

采用关键字填充的方式对标准表格进行结构化;

对于非标准表格,首先构建一组关键字库以及字库内文本信息的上下级关系,提取非标准表格内文本信息的隶属关系,根据隶属关系将文本信息转化成字典形式的结构化数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网上海市电力公司,未经国网上海市电力公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111651270.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top