[发明专利]一种解决有线表格识别与解析的方法有效
申请号: | 202110377638.7 | 申请日: | 2021-04-08 |
公开(公告)号: | CN113221649B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 郭仲穗;张锦;杨帆;张贝贝 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V30/414;G06V30/146;G06V30/18 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 王敏强 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 解决 有线 表格 识别 解析 方法 | ||
1.一种解决有线表格识别与解析的方法,其特征在于,具体按照以下步骤实施:
步骤1、先将所有的pdf文件转化为图片集合,再进行筛选,筛选过程分为两步骤,第一步查找是否存在外轮廓框图筛选出图片集合中可能存在表格或流程图的图片;第二步筛选出图片集合中含有文字的图片并用矩形框将文字框出;
所述步骤1具体如下:
步骤1.1、对待检测的文件进行图片转换:输入待检测文件记为A,经过图片转换,将所有待检测文件A转化成图片集B;
步骤1.2、利用灰度化和adaptiveThreshold()自适应阈值二值化处理图片集B,将所述步骤1.1得到的图片集B中的图片转化为新的二值化图片集C;
步骤1.3、将所述步骤1.2得到的二值化图片集C中的图片运用公式进行筛选,S表示全部图片筛选后的结果集,Si表示序号为i的图片集C中的图片中含有外轮廓框的筛选结果,i表示图片集C中的图片序号,通过在二值化图片集C中利用膨胀腐蚀的方法,将所述步骤1.2得到的二值化图片集C中的图片分别转换为全横线与全竖线的图片,然后获取叠加后的全横线与全竖线图片;再采用形态学方法中的轮廓发现框出叠加后横竖线的外轮廓图并返回坐标信息;
所述步骤1.3具体如下:
步骤1.3.1、所运用的筛选公式为S表示全部图片筛选后的结果集,Si表示序号为i的图片集C中的图片中含有外轮廓框的筛选结果;
步骤1.3.2、通过对图片集C中的图片采用腐蚀的方法,将所述步骤1.2得到的二值化图片集C中的图片分别转换为全横线与全竖线的图片,然后获取叠加后的全横线与全竖线图片,针对叠加后的图片进行轮廓发现得到第一次筛选过后含有外轮廓框的目标图像集S,综上表达式为:
步骤1.3.3、使用形态学方法中的轮廓发现框出叠加后横竖线的外轮廓图并返回坐标信息;
步骤1.4、将所述步骤1.2得到的二值化图片集C用筛选公式进行筛选,R表示全部图片筛选后的结果集,Ri表示序号为i的图片中含有文字框的筛选结果,通过在二值化图片集C中的图片上利用腐蚀膨胀,通过形态学方法中的两次开环操作,将图片中的文字膨胀为较为规则的矩形块,寻找出图像文字块所构成的轮廓,并且将文字用框框出并返回坐标信息;
所述步骤1.4具体如下:
步骤1.4.1、所运用的筛选公式为:进行筛选,R表示全部图片筛选后含有文字框的目标图像集,Ri表示图片序号为i的筛选结果;
步骤1.4.2、通过在二值化图片集C中的图片上利用腐蚀膨胀,通过形态学方法中的两次开环操作,将图片中的文字膨胀为较为规则的矩形块,寻找出图像文字块所构成的轮廓,得到全部图片筛选后含有文字框的目标图像集R,综上所述表达式为:
步骤1.4.3、对两次开环操作后的图片中的文字块用框框出并返回坐标信息;
步骤2、将所有筛选出来的对象用设计的函数方法进行分别定位、输出;
所述步骤2中表格的定位具体如下:
步骤2.a.1、采用逻辑对比定位方法:首先将所述步骤1.3得到的图片和所述步骤1.4得到的图片进行叠加得到图片,然后判断叠加后的图片是否有外轮廓框的存在,若存在,则说明该pdf页面中可能含有横竖线组成的表格,那么遍历所有外轮廓框中所包含的文字框,提取并返回每一个文字框矩形的中心点坐标x,y值,并且对于x值与y值进行限制,以排除页眉页脚在内的噪声因素对于随后算法执行的影响,并对外轮廓框中每一个文字框的中心点坐标进行遍历,判断外轮廓框中是否有垂直和平行的文字框,若有这样情况存在,统计这样文字框的个数,当个数满足所设定一定的数值时,将外轮廓框截取并保存;
步骤2.a.2、所运用的定位公式为:Fi表示序号为i的图片中表格的定位结果,成功为1,失败为0,F表示全部图片的表格定位结果集;
步骤2.a.3、通过对图像进行判断,利用步骤1.3.2得到图像集S和步骤1.4.2得到图像集R,遍历外轮廓框图中所有文字框图,得到每一个文字框矩形的中心点坐标x、y值,判断外轮廓框中是否有垂直和平行的文字框存在,统计这种文字框的个数,当个数满足所设定的阈值时,即可认为存在表格;
当遍历完二值化图片集C时,即得到所需要的所有表格的图片集合
2.根据权利要求1所述的一种解决有线表格识别与解析的方法,其特征在于,所述步骤2中流程图的定位具体如下:
步骤2.b.1、采用逻辑对比定位方法:首先将所述步骤1.3得到的图片和步骤1.4得到的图片进行叠加得到图片,然后判断叠加后的图片是否有外轮廓框的存在,若存在并且数量大于设定阈值,则说明该pdf页面中可能含有流程图,那么遍历所有外轮廓框中所包含的文字框,提取并返回每一个文字框矩形的中心点坐标x,y值,并且对于x值与y值进行限制,以排除页眉页脚等噪声因素对于随后算法执行的影响,再对存储x坐标的列表进行处理,首先使用字典通过for循环将每个坐标值及其个数存储为键值对,再对字典中的值使用set()函数去掉相同且多余的值,每个不同的值只保留一个,最后使用len()函数得到经set()函数处理后的长度大小,当长度大小满足所设定一定的数值时,将步骤1.2得到的二值化图片C截取并保存;
步骤2.b.2、所运用的定位公式为:Ti表示序号为i的图片中流程图的定位结果,成功为1,失败为0,T表示全部图片的流程图定位结果集;
步骤2.b.3、通过对图像进行判断,利用步骤1.3.2得到图像集S和步骤1.4.2得到图像集R,将外轮廓框内的所有文字框进行遍历,统计其x坐标及个数,最后统计坐标个数不相同的数量,当数量大于所设定的阈值时,便可认为是流程图;
当遍历完二值化图片集C时,即得到所需要的所有流程图的图片集合
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110377638.7/1.html,转载请声明来源钻瓜专利网。