[发明专利]一种解决有线表格识别与解析的方法有效

专利信息
申请号: 202110377638.7 申请日: 2021-04-08
公开(公告)号: CN113221649B 公开(公告)日: 2023-04-18
发明(设计)人: 郭仲穗;张锦;杨帆;张贝贝 申请(专利权)人: 西安理工大学
主分类号: G06V30/412 分类号: G06V30/412;G06V30/414;G06V30/146;G06V30/18
代理公司: 西安弘理专利事务所 61214 代理人: 王敏强
地址: 710048 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 解决 有线 表格 识别 解析 方法
【说明书】:

发明公开了一种解决有线表格识别与解析的方法,具体按照以下步骤实施:步骤1、先将所有的pdf文件转化为图片集合,再进行筛选,筛选过程分为两步骤,第一步查找是否存在外轮廓框图筛选出图片集合中可能存在表格或流程图的图片;第二步筛选出图片集合中含有文字的图片并用矩形框将文字框出;步骤2、将所有筛选出来的对象用设计的函数方法进行分别定位、输出。本发明解决了现有技术中存在的将PDF中的表格进行筛选定位并将有效表格进行输出困难的问题。

技术领域

本发明属于人工智能技术领域,具体涉及一种解决有线表格识别与解析的方法。

背景技术

随着互联网技术尤其是人工智能领域的发展,其在人们生活中占重要的比重。图像识别技术是人工智能的一个重要领域,它是立体视觉、运动分析、数据融合等实用技术的基础,在导航、地图与地形配准、自然资源分析、天气预报、环境监测、生理病变研究等许多领域具有重要的应用价值。图片目标识别对行人、车牌、人脸等特征识别已经较为成熟。对文本的研究也是人工智能的另一个重要领域,它是建立在已有的文本上,对词义转换,词频统计等方面。当前图文转换的方面也有了深入发展。

虽然目前研究已有对PDF文本表格信息处理等纯文字或者高度统一的弱图像分析,如百度、微软等国际大型公司推出的已成熟的API调用,但是其操作对象均还是对于图片的操作,而目前人们在通讯交流、科学研究以及数据分析活动当中广泛采用着形形色色的表格,这些表格以及其内容大部分是以PDF文件形式加以保存,这些内容可能会被部分用户所需要,但其不是图片格式无法调用现有的相关API方法进行操作,而对于目前可浏览PDF的软件而言,其有专门的快速定位到表格中的代码,但是如若所需表格内容为图片形式粘贴在PDF上,则无法对图片进行查找,如若要求用户自己在几百页的PDF中寻找目标表格内容无异于增加难度并也难以符合实际需求,所以本项目针对这些实际情况将实现对PDF中的表格进行筛选定位,并将有效表格进行输出。本项目中所有实验数据均来自中国招标网官方发布PDF文件。

发明内容

本发明的目的是提供一种解决有线表格识别与解析的方法,解决了现有技术中存在的将PDF中的表格进行筛选定位并将有效表格进行输出困难的问题。

本发明所采用的技术方案是,一种解决有线表格识别与解析的方法,具体按照以下步骤实施:

步骤1、先将所有的pdf文件转化为图片集合,再进行筛选,筛选过程分为两步骤,第一步查找是否存在外轮廓框图筛选出图片集合中可能存在表格或流程图的图片;第二步筛选出图片集合中含有文字的图片并用矩形框将文字框出;

步骤2、将所有筛选出来的对象用设计的函数方法进行分别定位、输出。

本发明的特点还在于,

步骤1具体如下:

步骤1.1、对待检测的文件进行图片转换:输入待检测文件记为A,经过图片转换,将所有待检测文件A转化成图片集B;

步骤1.2、利用灰度化和adaptiveThreshold()自适应阈值二值化处理图片集B,将所述步骤1.1得到的图片集B中的图片转化为新的二值化图片集C;

步骤1.3、将所述步骤1.2得到的二值化图片集C中的图片运用公式n≥1进行筛选,S表示全部图片筛选后的结果集,Si表示序号为i的图片集C中的图片中含有外轮廓框的筛选结果,i表示图片集C中的图片序号,通过在二值化图片集C中利用膨胀腐蚀的方法,将所述步骤1.2得到的二值化图片集C中的图片分别转换为全横线与全竖线的图片,然后获取叠加后的全横线与全竖线图片;再采用形态学方法中的轮廓发现框出叠加后横竖线的外轮廓图并返回坐标信息;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110377638.7/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top