[发明专利]表格提取方法与表格提取系统在审
申请号: | 202210364491.2 | 申请日: | 2022-04-07 |
公开(公告)号: | CN114663897A | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 路浩南 | 申请(专利权)人: | 贝壳找房网(北京)信息技术有限公司 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V20/62;G06V10/26;G06V30/148;G06V30/10 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 王晓晓 |
地址: | 101520 北京市密云区经济开发区兴盛南路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 表格 提取 方法 系统 | ||
1.一种表格提取方法,其特征在于,所述表格提取方法包括:
通过图像分割模型对表格图像进行分割,以获得标记有各个像素点处的线属性的掩膜图像;
采用图像学方法对所述掩膜图像进行处理,以获取每个单元格的顶点坐标及所述每个单元格的起始行索引、起始列索引、终止行索引与终止列索引;
通过文本识别模型对所述表格图像进行识别,以获得所述表格图像中的每个文本的最小外接矩形的顶点坐标与文本内容;
根据所述每个单元格的顶点坐标与所述每个文本的最小外接矩形的顶点坐标,确定所述每个单元格内的文本内容;以及
根据所述每个单元格的起始行索引、起始列索引、终止行索引与终止列索引及所述每个单元格内的文本内容,生成以目标文件呈现的表格。
2.根据权利要求1所述的表格提取方法,其特征在于,所述采用图像学方法对所述掩膜图像进行处理包括:
对所述掩膜图像进行连通域标记,得到各个连通域;
根据所述各个连通域中的像素点的坐标,获取与所述各个连通域相匹配的最小外接矩形框中的四个线段的头坐标与尾坐标;
根据与所述各个连通域相匹配的最小外接矩形框中的四个线段的头坐标与尾坐标,建立单元格矩阵;以及
对所述单元格矩阵进行连通域标记,以获取所述每个单元格的顶点坐标。
3.根据权利要求2所述的表格提取方法,其特征在于,所述获取与所述各个连通域相匹配的最小外接矩形框中的四个线段的头坐标与尾坐标包括:
根据所述各个连通域中的像素点的坐标,获取与所述各个连通域相匹配的最小外接矩形框的顶点坐标;以及
根据与所述各个连通域相匹配的最小外接矩形框的顶点坐标及所述最小外接矩形框中的每个线段的方向,确定所述每个线段的头坐标与尾坐标。
4.根据权利要求3所述的表格提取方法,其特征在于,所述确定所述每个线段的头坐标与尾坐标包括:
针对所述最小外接矩形框中的横向线段,将所述最小外接矩形框的横坐标的最小值确定为头横坐标,将所述最小外接矩形框的左上角顶点的纵坐标与左下角顶点的纵坐标的均值确定为头纵坐标,将所述最小外接矩形框的横坐标的最大值确定为尾横坐标,并将所述最小外接矩形框的右上角顶点的纵坐标与右下角顶点的纵坐标的均值为尾纵坐标;以及
针对所述最小外接矩形框中的纵向线段,将所述最小外接矩形框的纵坐标的最小值确定为头纵坐标,将所述最小外接矩形框的左上角顶点的横坐标与右上角顶点的横坐标的均值确定为头横坐标,将所述最小外接矩形框的纵坐标的最大值确定为尾纵坐标,并将所述最小外接矩形框的左下角顶点的横坐标与右下角顶点的横坐标的均值确定为尾横坐标。
5.根据权利要求4所述的表格提取方法,其特征在于,所述采用图像学方法对所述掩膜图像进行处理还包括:
根据所述各个连通域相匹配的最小外接矩形框中的横向线段的头纵坐标或尾纵坐标,对所述横向线段进行升序排序,以形成第一集合;
根据所述各个连通域相匹配的最小外接矩形框中的纵向线段的头横坐标或尾横坐标,对所述纵向线段进行升序排序,以形成第二集合;
将所述第一集合中的距所述每个单元格的左上角顶点的坐标最近的线段确定为所述每个单元格的起始行索引,并将所述第一集合中的距所述每个单元格的右下角顶点的坐标最近的线段确定为所述每个单元格的终止行索引;以及
将所述第二集合中的距所述每个单元格的左上角顶点的坐标最近的线段确定为所述每个单元格的起始列索引,并将所述第二集合中的距所述每个单元格的右下角顶点的坐标最近的线段确定为所述每个单元格的终止列索引。
6.根据权利要求1所述的表格提取方法,其特征在于,所述确定所述每个单元格内的文本内容包括:
遍历所述每个单元格,并在特定文本的最小外接矩形与特定单元格的交集面积大于临界阈值的情况下,确定所述特定文本的最小外接矩形的文本内容为所述特定单元格内的文本内容。
7.根据权利要求1所述的表格提取方法,其特征在于,所述临界阈值为所述特定文本的最小外接矩形的面积与所述特定单元格的面积两者中的最小值与预设值的乘积。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贝壳找房网(北京)信息技术有限公司,未经贝壳找房网(北京)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210364491.2/1.html,转载请声明来源钻瓜专利网。