[发明专利]基于富文本格式文档的表格提取方法、装置、设备和介质有效
申请号: | 201810507514.4 | 申请日: | 2018-05-24 |
公开(公告)号: | CN110532834B | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 林得苗 | 申请(专利权)人: | 北京庖丁科技有限公司 |
主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/414 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 臧静 |
地址: | 100091 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 格式 文档 表格 提取 方法 装置 设备 介质 | ||
1.一种基于富文本格式文档的表格提取方法,其特征在于,所述表格提取方法包括:
获取富文本格式文档,所述富文本格式文档包括至少一张页面内容,所述页面内容包括以下至少一种:所述页面内容中的所有线条、色块、文本框位置和文本框内容;
通过预设表格检测模型,对所述富文本格式文档中所述页面内容进行表格检测处理,得到表格标签列表,以及依据所述页面内容和所述表格标签列表,得到第一表格内容,所述预设表格检测模型用于检测页面内容是否有隐性表格,所述表格标签列表用于记录所述富文本格式文档所有表格的位置信息,所述第一表格内容包括以下至少一种:所述第一表格中的所有线条、色块、文本框位置和文本框内容;
依据预设画贯穿线模型,对所述第一表格内容进行画贯穿线处理,得到贯 穿线标签列表,以及依据所述第一表格内容和所述贯 穿线标签列表,得到第二表格内容,所述预设画贯穿线模型用于对检测出的隐性表格进行画贯穿线,所述贯穿线标签列表包括横贯穿线标签列表和纵贯穿线标签列表,所述横贯穿线标签列表用于记录表格的每个纵坐标上是否是一条横贯穿线,所述纵贯穿线标签列表用于记录表格的每个横坐标上是否是一条纵贯穿线,所述第二表格内容包括以下至少一种:所述第二表格中的所有线条、色块、文本框位置和文本框内容;
基于预设单元表格合并模型,对所述第二表格内容进行表格单元合并处理,得到短线标签列表,以及依据短线标签列表和所述第二表格内容,得到显性表格内容。
2.根据权利要求1所述的表格提取方法,其特征在于,所述通过预设表格检测模型,对所述富文本格式文档中所述页面内容进行表格检测处理,得到表格标签列表,包括:
对所述页面内容进行渲染处理,得到所述页面内容的页面内容张量;
根据第一预设训练参数和所述页面内容张量,得到所述表格标签列表。
3.根据权利要求2所述的表格提取方法,其特征在于,所述根据第一预设训练参数和所述页面内容张量,得到所述表格标签列表,包括:
根据所述第一预设训练参数计算所述页面内容张量,确定所述页面内容的特征张量;
遍历所述特征张量中每个区域的表格信息,确定预测值;
当所述预测值大于预设信度阈值时,则判断该区域包含表格,
或者,
当所述预测值小于预设信度阈值时,则判断该区域不包含表格;
确定每个包含表格的区域的表格标签,得到所述表格标签列表。
4.根据权利要求3所述的表格提取方法,其特征在于,所述第一预设训练参数是由所述页面内容的特征张量和预设表格标签张量确定的参数,所述预设表格标签张量是通过对所述页面内容进行区域划分处理得到的参数。
5.根据权利要求4所述的表格提取方法,其特征在于,所述区域划分处理是指将每张所述页面内容划分成m×n个区域,确定每个包含表格的区域的表格标签张量,m和n确定每个区域只包含一个表格且每个表格只属于一个区域,且m和n均为大于0的整数。
6.根据权利要求4所述的表格提取方法,其特征在于,所述页面内容的特征张量的维度与所述预设表格标签张量的维度相同。
7.根据权利要求1所述的表格提取方法,其特征在于,所述依据预设画贯穿线模型,对所述第一表格内容进行画贯穿线处理,得到贯 穿线标签列表,包括;
对所述第一表格内容进行渲染处理,得到第二表格内容张量;
根据所述第二表格内容张量和第二预设训练参数,得到所述惯穿线标签列表。
8.根据权利要求7所述的表格提取方法,其特征在于,所述第二预设训练参数是由所述第二表格内容的特征张量和预设贯穿线标签张量确定的参数,所述第二表格内容的特征张量是通过对所述第一表格内容进行特征提取得到的参数,所述预设贯穿线标签张量是由多条贯穿线向量组成,每条贯穿线向量是指每个区域的中心线向量。
9.根据权利要求8所述的表格提取方法,其特征在于,所述表格内容的特征张量的维度和所述预设贯穿线标签张量的维度相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京庖丁科技有限公司,未经北京庖丁科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810507514.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种视频分析方法及装置
- 下一篇:解锁方法及电子装置