[发明专利]一种基于文本状态特征的期刊文献表格抽取方法有效
| 申请号: | 201911179649.3 | 申请日: | 2019-11-27 |
| 公开(公告)号: | CN110968667B | 公开(公告)日: | 2023-04-18 |
| 发明(设计)人: | 邓建新;唐锐;叶志兴;贺德强;谢彬;曾向明;李先旺 | 申请(专利权)人: | 广西大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/30;G06V30/416;G06V30/414 |
| 代理公司: | 南宁智卓专利代理事务所(普通合伙) 45129 | 代理人: | 邓世江 |
| 地址: | 530004 广西壮族*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 文本 状态 特征 期刊 文献 表格 抽取 方法 | ||
1.一种基于文本状态特征的期刊文献表格抽取方法,其特征在于:所述方法包括如下步骤:
步骤1:根据期刊文献中表格的特征构建表格模型,表格模型由表格标题和表格内容两部分组成;
步骤2:建立文本行集合,使用工具以页为单位解码PDF的页面内容流,获得与文本相关的所有参数信息,包括字符字体、字号、字符宽度和高度、字符间距、横纵坐标及其比例因子,定义文本行聚类规则将属于同一行字符聚类为文本行;
步骤3:表格检测,定义表格标题的正则表达式,遍历文本行集合Line,标记所有满足正则表达式的文本行,构成候选标题文本行,利用语义本体模型对所有候选标题文本行进行语义筛选,标记满足语义的标题文本行,建立标题行集合Title,通过构建表格标题的语义本体模型来过滤与需求无关的表格;
步骤4:表格数据定位,根据文本的行间距变化和字符状态参数的变化,划分表格内容和其他内容,判断表格内容的边界,标记表格数据直到表格的边界或本页字符结束;
步骤5:表格重构,建立单元格数据集合,还原合并格数据,核查单元格数据集合,输出表格数据;
所述步骤3中,正则表达式为(^表{0,}[1-9]+{0,}(.*))和(^Tab(le)[.]{0,}[1-9]+{0,}(.*));
所述步骤3中,语义本体模型为根据表格提取需求,即当期刊文献有多种数据类型的表格时,可获取其中某种表格或者若干种表格,总结表格标题所涉及的关键词和对应的英文表达的概念构成;
所述步骤4的具体过程为:标记表格数据,以标题行集合Title中的每一个文本行为起点开始标记表格数据,首先获得标题行的文本状态参数,然后从标题行的下一文本行开始查询,若文本行的字符字号和横坐标比例因子同时小于或等于标题行的对应参数,且纵坐标值大于表格标题行的纵坐标,则将该行文本标记为表格数据行,继续判断下一文本行,直到文本行的字号参数和坐标参数不满足限定条件,或检索到下一文本行是已标记的表格标题行,或本页文本行结束,则停止标记表格数据;
表格数据筛选,已标记的表格数据行存在与表格无关的内容,需要对标记的表格数据行进行筛选过滤,查询已标记的数据行,判断对应的坐标参数,对行间距异常增大的和横、纵坐标发生突变的数据行进行剔除,最后得到表格数据行集合,记为Data;
所述步骤5中建立单元格数据集合的具体过程为:分割文本行,给定单元格数据列之间的间隔下限值为2.5,计算相邻字符的横坐标,通过公式①将表格数据行集合Data中的文本行逐一分割,建立单元格数据集合Cell,
|xi+1-xi|-width>2.5 ①
式中,xi为文本行的第i个字符的横坐标,xi+1为第i+1个字符的横坐标,width为字符宽度;
根据分割结果,计算该行所有的单元格尾字符与下一个单元格首字符之间的横坐标差值,取其最小值为单元格的列间距估计值Col;
合并换行文本,计算单元格数据集合Cell中所有相邻两行的纵坐标差值DY,获得出现次数最多的纵坐标差值DYm和与DYm相差不超过5的纵坐标差值,计算其平均数视为表格的基本行间距DY0;
若存在纵坐标差值DY小于基本行间距DY0,则获得DY所对应的相邻行的两个单元格数据的首、尾字符横坐标,判断其范围是否有重叠,若满足条件则合并两个单元格文本,并更新单元格数据集合Cell;
所述步骤5中还原合并格数据和核查单元格数据集合的具体过程为:还原合并格数据,判断被合并的单元格,还原数据结构,并更新单元格数据集合Cell;
利用公式②判断是否存在单元格列合并的情况,若满足条件则将其还原为数据相同的两个单元格,其横坐标分别与B2、C2的相等,纵坐标与合并格B的相等,重复该过程依次还原所有列合并的单元格数据;
其中,表示单元格B的前端的X轴坐标,表示单元格B2的前端的X轴坐标,表示单元格B的末尾的X轴坐标,表示单元格C2的末端的X轴坐标;
利用公式③判断是否存在单元格行合并的情况,若满足条件则将其还原为数据相同的两个单元格,其横坐标与合并格F的相等,纵坐标分别与E1、E2的相等,重复该过程依次还原所有行合并的单元格数据;
其中,表示单元格E2底部的纵坐标,yF表示单元格F的底部的纵坐标,表示单元格E1底部的纵坐标,Height表示单元格E1、E2的高度;
核查单元格数据集合,获得单元格数据行的行数Row,获得每行的单元格数据列的个数,取得最大值Colmax,最后应输出一个Row×Colmax的数组;依次判断每行的单元格列数,若不等于Colmax,则查找该行的数据缺失位置,将该行单元格数据列的横坐标与数据列数等于Colmax的行依次比较,获得没有共同横坐标范围的位置,对该位置填入空值;
所述步骤5中输出表格数据的具体过程为:据横坐标依次增大、纵坐标依次增大的顺序将单元格数据按序存入数组:
表示获取的数据,即可获得该页的表格抽取结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西大学,未经广西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911179649.3/1.html,转载请声明来源钻瓜专利网。





