[发明专利]一种PDF等版式文档中识别表格的方法有效

专利信息
申请号: 202110598830.9 申请日: 2021-05-31
公开(公告)号: CN113343815B 公开(公告)日: 2022-06-07
发明(设计)人: 安永进;鲁林 申请(专利权)人: 北森云计算有限公司
主分类号: G06V30/413 分类号: G06V30/413;G06V30/414;G06F40/177;G06F40/174
代理公司: 成都九鼎天元知识产权代理有限公司 51214 代理人: 徐静
地址: 610041 四川省成都市*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 pdf 版式 文档 识别 表格 方法
【权利要求书】:

1.一种PDF等版式文档中识别表格的方法,其特征在于,包括以下步骤:

S1.在PDF页面渲染过程中,记录页面状态,忽略隐藏线条,记录有效的横向线段和纵向线段;

S2.合并近似共线且相交或近似相交的横向线段和纵向线段;

S3.找到所有横向线段和纵向线段的交点和两侧端点,并与线段建立关联;

S4.根据交点、端点、横向线段和纵向线段的连接关系,划分为多个互不联通的点线区域;

S5.遍历每个全连接的点线区域,将交点不超过4个即至多一个单元格的点线区域作为无效区域,多个相邻的无效区域作为无连通区域组;

S6.针对交点超过4个的点线区域,根据各个点之间是否有线段连接,得到每个单元格的坐标及边线;

S7.针对无连通区域组,如果存在多个横向线段或纵向线段,间距接近且长度相同,则将相邻横向线段或纵向线段之间的区域作为单元格;

S8.针对每个单元格组,划分为若干个表格行,若相邻表格行间单元格坐标未对齐,则拆分为两个单元格组;

S9.针对每个单元格组,遍历每个单元格,根据坐标计算单元格所占的行数和列数,并得到表格整体的行数和列数;

S10.遍历表格中的每个单元格,根据坐标设置单元格内的内容,包括文字和/或图片。

2.根据权利要求1所述的一种PDF等版式文档中识别表格的方法,其特征在于,步骤S1包括以下子步骤:

S101.对第一命令进行解析,将图片和/或图形绘制到页面空间上,所述第一命令包括渲染图片和/或图形;

S102.对第二命令进行支持和记录,所述第二命令包括设置线条颜色和背景颜色;

S103.对于第三命令,根据绘制状态中存储的线条颜色及其坐标对应的背景颜色,判断绘制的线段是否是不可见的,如果不可见,则跳过;如果可见,则从绘制状态中读取线条属性,并判断绘制的线段的类型,根据类型加入到横向线段集合或纵向线段集合;所述第三命令包括绘制线段的矩形或路径命令,所述线条属性包括线宽和颜色。

3.根据权利要求2所述的一种PDF等版式文档中识别表格的方法,其特征在于,步骤S2中:

针对横向线段集合,按纵坐标升序排序,纵坐标相同时按左或右端点坐标升序排序;然后针对任意位置接近的两个横向线段,判断是否近似共线;如果两个横向线段近似共线,且在横坐标上相交或近似相交,则合并为一个横向线段;

针对纵向线段集合,按横坐标升序排序,横坐标相同时按顶部或底部端点坐标升序排序;然后针对任意位置接近的两个纵向线段,判断是否近似共线;如果两个纵向线段近似共线,且在纵坐标上相交或近似相交,则合并为一个纵向线段。

4.根据权利要求1-3任一项所述的一种PDF等版式文档中识别表格的方法,其特征在于,步骤S3包括以下子步骤:

S301.设线段的两侧端点坐标为(X1,Y1)和(X2,Y2),则X1=X2表示该线段为纵向线段,Y1=Y2表示该线段为横向线段;

S302.取所有横向线段的X1和X2,以及所有纵向线段的X1,按升序排列,记为数组A;定义集合B表示当前横坐标所在的横向线段;

S303.遍历数组A的每个元素,如果是横向线段的X1则将此横向线段加入到集合B;如果是横向线段的X2则将此横向线段从集合B中移除;如果是纵向线段的X1,则判断此纵向线段与集合B中的横向线段是否相交,如相交则记录交点并与两个线段建立关联;

S304.在找到所有交点和线段端点之后组成点集合,取所有点的横纵坐标的最大最小值,组成(Xmin,Ymin),(Xmax,Ymin),(Xmin,Ymax),(Xmax,Ymax),分别表示表格的左下、右下、左上、右上四个点,检查这四个点是否已记录,如未记录则加入点集合,以确保只有内框线且没有外框线的表格的最外圈单元格不被丢失。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北森云计算有限公司,未经北森云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110598830.9/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top