[发明专利]抽取关系型表格的方法和装置在审
申请号: | 201210003480.8 | 申请日: | 2012-01-06 |
公开(公告)号: | CN103198069A | 公开(公告)日: | 2013-07-10 |
发明(设计)人: | 孙军;谢宣松;姜珊珊;郑继川 | 申请(专利权)人: | 株式会社理光 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 张丽新 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抽取 关系 表格 方法 装置 | ||
技术领域
本发明总体地涉及信息处理和信息抽取领域,更具体地涉及从非结构化文档中抽取关系型表格的方法和装置。
背景技术
目前,存在大量的电子文档,例如,互联网上的各种描述产品的文章等。对各种文档进行信息处理、分析、统计等,正成为业界研究和开发的热点。
文档可以分为结构化文档和非结构化的文档。
结构化文档一般是按照某种预定义的文档对象模型构造的文档,其已经给文档定义了框架,使得各部分的作用一目了然,例如通过一些数据库定义语言或面向对象的编程语言等构建的文档可以称为结构化文档。
在本文中,将除了结构化文档外的各种文档统称为非结构化文档。非结构化文档可以分为半结构化文档和无结构文档。网页等诸如HTML或XML格式的文档常被人称为半结构化文档或半结构化数据,从其中的一些标签语言即可以知道所描述对象的属性和值。无结构文档类似于自然语言形式,例如我们常见的后缀为txt的纯文本文档即为一种典型的无结构文档。此外,word格式和pdf格式的文档中也不存在便于理解文章所描述的主体和具体属性的信息,因此也可视为无结构文档。
在非结构化文档存在海量表格,其中的关系型表格通常含有丰富的有用信息。所谓关系型表格是就其对现实世界中的事物间关系的模型而命名,一般是二维表格,其中含有多个对象,每个对象具有诸多属性和对应的属性值。图1示出了Web网页中的一个关系型表格的例子。
互联网中有很多含关系型数据的网页,比如说产品参数对比表格网页。以网页为例,自动从网页中抽取关系型表格信息可以用来更好地构建此类网页的索引,有助于搜索。所抽取的海量关系型表格可以用于科研、工程、统计、策略制定、市场调研等,用以提供量化数据。
已经存在一些从非结构化文档中检测表格的技术。
在文献1,A Machine Learning B ased Approach for Table Detection on The Web,Proceedings of the Eleventh International World Wide Web Conference(WWW2002)中,描述了一种基于监督的机器学习方法,在训练数据之后,来把每个给定的表格分类成真实的表格或者非真实的表格。
在文献2,Uncovering the Relational Web,Proceedings of the 11th International Workshop on Web and Databases(WebDB 2008)中,描述了从大的网页库中过滤关系表的简单的方法,其假设每个数据元组是表格中的行,还试图恢复列的标签信息和类型信息。
在文献3,US7590647(B2)-Method for extracting,interpreting and standardizing tabular data from unstructured documents中,描述了一个系统,方法,计算机程序,能够自动地从非结构化文档中识别,解析,和解释表格数据。该技术对于表格解释,使用标准模板,包含一个标准化数据域的集合;其次,该技术假设每个数据元组是表格中的行。
发明内容
鉴于现有技术中的上述问题,提出了本发明。
根据本发明的一个方面,提供了一种从非结构化文档中抽取关系型表格的方法,可以包括:检测非结构化文档中的表格,以获得表格;以及确定指示表格中的对象标识符部分、属性名部分和属性值部分的表格布局。
所述非结构化文档可以是网页,以及可以通过解析网页并选择被用来显示表格数据的DOM节点来得到表格。
抽取关系型表格的方法还可以包括在确定表格布局之前,规范化所检测的表格的内容。
规范化所检测的表格的内容可以包括:对于表格的每个表格单元格计算一段文本,此文本可以为空。
对于表格的每个表格单元格计算一段文本可以包括:对于每个无文本节点但含图像节点的单元格,基于图像节点的特征确定一段文本。
该抽取关系型表格的方法还可以包括:在确定表格布局之前,过滤表格中的内容,以去除信息含量低的数据。
过滤表格中的内容可以包括以下操作中的至少一种:计算表示行的信息含量的行信息量分数,并去除行信息量分数低的行;计算表示列的信息含量的列信息量分数,并去除列信息量分数低的列;计算表示整个表格的信息含量的表格信息量分数,并且如果整个表格的信息量分数低于预定阈值,则丢弃该表格。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社理光,未经株式会社理光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210003480.8/2.html,转载请声明来源钻瓜专利网。