[发明专利]一种PDF等版式文档中识别表格的方法有效
申请号: | 202110598830.9 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113343815B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 安永进;鲁林 | 申请(专利权)人: | 北森云计算有限公司 |
主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/414;G06F40/177;G06F40/174 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 徐静 |
地址: | 610041 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 pdf 版式 文档 识别 表格 方法 | ||
1.一种PDF等版式文档中识别表格的方法,其特征在于,包括以下步骤:
S1.在PDF页面渲染过程中,记录页面状态,忽略隐藏线条,记录有效的横向线段和纵向线段;
S2.合并近似共线且相交或近似相交的横向线段和纵向线段;
S3.找到所有横向线段和纵向线段的交点和两侧端点,并与线段建立关联;
S4.根据交点、端点、横向线段和纵向线段的连接关系,划分为多个互不联通的点线区域;
S5.遍历每个全连接的点线区域,将交点不超过4个即至多一个单元格的点线区域作为无效区域,多个相邻的无效区域作为无连通区域组;
S6.针对交点超过4个的点线区域,根据各个点之间是否有线段连接,得到每个单元格的坐标及边线;
S7.针对无连通区域组,如果存在多个横向线段或纵向线段,间距接近且长度相同,则将相邻横向线段或纵向线段之间的区域作为单元格;
S8.针对每个单元格组,划分为若干个表格行,若相邻表格行间单元格坐标未对齐,则拆分为两个单元格组;
S9.针对每个单元格组,遍历每个单元格,根据坐标计算单元格所占的行数和列数,并得到表格整体的行数和列数;
S10.遍历表格中的每个单元格,根据坐标设置单元格内的内容,包括文字和/或图片。
2.根据权利要求1所述的一种PDF等版式文档中识别表格的方法,其特征在于,步骤S1包括以下子步骤:
S101.对第一命令进行解析,将图片和/或图形绘制到页面空间上,所述第一命令包括渲染图片和/或图形;
S102.对第二命令进行支持和记录,所述第二命令包括设置线条颜色和背景颜色;
S103.对于第三命令,根据绘制状态中存储的线条颜色及其坐标对应的背景颜色,判断绘制的线段是否是不可见的,如果不可见,则跳过;如果可见,则从绘制状态中读取线条属性,并判断绘制的线段的类型,根据类型加入到横向线段集合或纵向线段集合;所述第三命令包括绘制线段的矩形或路径命令,所述线条属性包括线宽和颜色。
3.根据权利要求2所述的一种PDF等版式文档中识别表格的方法,其特征在于,步骤S2中:
针对横向线段集合,按纵坐标升序排序,纵坐标相同时按左或右端点坐标升序排序;然后针对任意位置接近的两个横向线段,判断是否近似共线;如果两个横向线段近似共线,且在横坐标上相交或近似相交,则合并为一个横向线段;
针对纵向线段集合,按横坐标升序排序,横坐标相同时按顶部或底部端点坐标升序排序;然后针对任意位置接近的两个纵向线段,判断是否近似共线;如果两个纵向线段近似共线,且在纵坐标上相交或近似相交,则合并为一个纵向线段。
4.根据权利要求1-3任一项所述的一种PDF等版式文档中识别表格的方法,其特征在于,步骤S3包括以下子步骤:
S301.设线段的两侧端点坐标为(X1,Y1)和(X2,Y2),则X1=X2表示该线段为纵向线段,Y1=Y2表示该线段为横向线段;
S302.取所有横向线段的X1和X2,以及所有纵向线段的X1,按升序排列,记为数组A;定义集合B表示当前横坐标所在的横向线段;
S303.遍历数组A的每个元素,如果是横向线段的X1则将此横向线段加入到集合B;如果是横向线段的X2则将此横向线段从集合B中移除;如果是纵向线段的X1,则判断此纵向线段与集合B中的横向线段是否相交,如相交则记录交点并与两个线段建立关联;
S304.在找到所有交点和线段端点之后组成点集合,取所有点的横纵坐标的最大最小值,组成(Xmin,Ymin),(Xmax,Ymin),(Xmin,Ymax),(Xmax,Ymax),分别表示表格的左下、右下、左上、右上四个点,检查这四个点是否已记录,如未记录则加入点集合,以确保只有内框线且没有外框线的表格的最外圈单元格不被丢失。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北森云计算有限公司,未经北森云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110598830.9/1.html,转载请声明来源钻瓜专利网。