[发明专利]一种基于文本状态特征的期刊文献表格抽取方法有效
| 申请号: | 201911179649.3 | 申请日: | 2019-11-27 |
| 公开(公告)号: | CN110968667B | 公开(公告)日: | 2023-04-18 |
| 发明(设计)人: | 邓建新;唐锐;叶志兴;贺德强;谢彬;曾向明;李先旺 | 申请(专利权)人: | 广西大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/30;G06V30/416;G06V30/414 |
| 代理公司: | 南宁智卓专利代理事务所(普通合伙) 45129 | 代理人: | 邓世江 |
| 地址: | 530004 广西壮族*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 文本 状态 特征 期刊 文献 表格 抽取 方法 | ||
本发明公开了一种基于文本状态特征的期刊文献表格抽取方法,属于PDF文件信息抽取技术领域,所述方法包括根据期刊文献中表格的特征构建表格模型,表格模型由表格标题和表格内容两部分组成,建立文本行集合,表格检测,表格数据定位,表格重构,建立单元格数据集合,还原合并格数据,核查单元格数据集合,输出表格数据。该方法特别针对PDF期刊文献中广泛存在的三线表等表格的特点而设计,不但可以实现PDF期刊文献中特定表格的准确、正确提取,尤其是保证三线表的逻辑关系,整个过程无需人工干预与交互,无需进行表格选取,能实现提取全过程的自动化。由于采用本体来帮助过滤表格,使该方法也具有广泛的适用性。
技术领域
本发明涉及PDF文件信息抽取技术领域,尤其涉及一种基于文本状态特征的期刊文献表格抽取方法。
背景技术
PDF(Portable Document Format,即便携式文档格式)具有固定的版面呈现效果和强大的跨平台原稿再现能力,是期刊文献进行传输和存储的国际通用文件格式。而期刊文献作为科学知识和数据传播的主要载体之一,其数量逐年累积上升,但文献中大量的有效数据并没有得到充分利用。
科学数据是国家科技创新发展和经济社会发展的重要基础性战略资源,尤其是大数据时代的科学研究与科技创新越来越依赖于大量、系统、高可信度的科学数据。表格作为一种可视化的知识表达模型,能够简单明了地描述复杂数据之间的逻辑关系,是最常见的以高信息密度构造和表示数据的方法之一。在学术文献中随处可见以表格形式呈现的数据。因此,设法从PDF中自动获得表格数据(即表格抽取)是科学数据提取任务中必不可少的一环,也是数据深度挖掘和分析的基础工作,研究PDF期刊文献中的表格抽取对科学数据库的构建和共享具有重要意义。
PDF中表格是由框线和具体内容两大部分通过坐标拼接组合在一起,并不是以一个完整的对象存储。目前的PDF表格抽取技术绝大部分依赖于表格框线的识别,从而实现表格区域的定位与数据提取,但该类技术对框线较少的(尤其是三线表)还原程度不高,无法准确重构表格逻辑结构,对有单元格合并的情况也不能较好的实现数据间的对应关系。
因此,特别针对期刊文献中的表格进行研究,设计了一种基于文本状态特征的PDF表格抽取方法,对PDF中多样性的表格布局进行提取,并且还原单元格之间的行列逻辑关系。
发明内容
本发明的目的在于提供一种基于文本状态特征的期刊文献表格抽取方法,解决现有PDF文件的表格抽取还原程度不高,无法准确重构表格逻辑结构的技术问题。
一种基于文本状态特征的期刊文献表格抽取方法,所述方法包括如下步骤:
步骤1:根据期刊文献中表格的特征构建表格模型,表格模型由表格标题和表格内容两部分组成;
步骤2:建立文本行集合,使用工具以页为单位解码PDF的页面内容流,获得与文本相关的所有参数信息,包括字符字体、字号、字符宽度和高度、字符间距、横纵坐标及其比例因子,定义文本行聚类规则将属于同一行字符聚类为文本行;
步骤3:表格检测,定义表格标题的正则表达式,遍历文本行集合Line,标记所有满足正则表达式的文本行,构成候选标题文本行,利用语义本体模型对所有候选标题文本行进行语义筛选,标记满足语义的标题文本行,建立标题行集合Title,通过构建表格标题的语义本体模型来过滤与需求无关的表格;
步骤4:表格数据定位,根据文本的行间距变化和字符状态参数的变化,划分表格内容和其他内容,判断表格内容的边界,标记表格数据直到表格的边界或本页字符结束;
步骤5:表格重构,建立单元格数据集合,还原合并格数据,核查单元格数据集合,输出表格数据。
进一步地,所述步骤1中,表格标题包括英文标题和中文标题,中文标题的格式为表+表序+空格+表题,英文标题的格式为Tab(le)+表序+空格+表题,表格内容的信息设置为一个行列完全填充的二维数组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西大学,未经广西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911179649.3/2.html,转载请声明来源钻瓜专利网。





