[发明专利]一种提取文档结构化信息的方法及装置在审
| 申请号: | 201410645403.1 | 申请日: | 2014-11-12 |
| 公开(公告)号: | CN105654022A | 公开(公告)日: | 2016-06-08 |
| 发明(设计)人: | 林欣欣;罗伟富;易珏玲 | 申请(专利权)人: | 北大方正集团有限公司;北京方正阿帕比技术有限公司 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00 |
| 代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 李敏 |
| 地址: | 100871 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 提取 文档 结构 信息 方法 装置 | ||
技术领域
本发明涉及数字文本加工领域,具体地说是一种提取文档结构化信息的 方法及装置。
背景技术
版式文档格式是版面呈现效果固定的电子文档格式,版式文档的呈现与 设备无关,在各种设备上阅读、打印或印刷时,其版面的呈现结果都是一致 的。版式文档主要应用于成文后文件的发布、传播和存档。版式文档的特点 是版面固定、不跑版,即所见即所得(Whatyouseeiswhatyouget,简 称WYSIWYG),使电子文档在使用过程中,呈现效果不因软硬件环境、操作 者的变化而变化,在版式、版面、字体、字号等方面与纸质文件保持完全一 致。版式文档格式的特点使它成为电子文档发布、数字化信息传播和存档的 理想文档格式。越来越多的电子图书、产品说明、公司文告、网络资料、电 子邮件开始使用版式文档,在国外,Adobe公司的PDF版式文档格式目前已 成为数字化信息事实上的一个工业标准。
随着信息技术的发展,越来越多的书籍、报纸逐渐电子化,由原来的纸 质图书转变成各种PC、手持设备的电子阅读器。在报社、出版社等行业, 电子文档主要以版式文档为主,便于打印和印刷。但在电子化阅读时(如各 种电子书阅读器),由于屏幕的大小,需要对版式文档进行重排以适应屏幕, 这就需要从版式文档中提取目录、正文、章节标题等结构化信息。
现有技术中公开一种基于PDF的复杂版面的标引方法,用以提供一种省 时、省力的统一的PDF复杂版面的标引方法。通过分析和获取文字信息以及 位置、字体、字号等信息,根据相邻、相似的原则进行自动化的文字成块操 作,进一步根据字体字号等信息确定文章标题与正文,根据位置信息进行正 文拼接,使得整个版面上的文章快速构建。该方法的优点是可以自动化处理 复杂版面的文字信息提取、原始文字块合并以及文章内容和样式信息的提 取,但不足之处是该方法在处理过程中使用一组参数进行识别,而目前的版 式文档多种多样且数据量巨大,该方案不能适应多种多样的复杂版面信息, 如果需要人为来针对每种版式进行参数设置,数据量过于复杂,难于实现。
发明内容
为此,本发明所要解决的技术问题在于现有技术中提取文档的结构化信 息的方法中使用固定的参数,只能针对特定类型的文档提取,从而提出一种 可以针对多种多样的文档自动选择进行格式化信息提取的方法和装置。
为解决上述技术问题,本发明的提供一种提取文档结构化信息的方法和 装置。
本发明提供一种提取文档结构化信息的方法,包括:
提取文档的字符块信息;
根据文档中字符块信息选择结构化信息模板;
根据所述结构化信息模板对字符块进行聚类、排序后合并为文本块;
根据所述结构化信息模板和所述文本块形成结构化文档。
优选地,所述根据文档中字符块信息选择结构化信息模板的处理前,还 包括
建立结构化信息模板,所述结构化信息模板中包括文档属性及其对应的属 性内容。
优选地,所述文档属性包括标题、正文,所述属性内容包括字体值、字 号值、格式值。
优选地,所述根据文档中字符块信息选择结构化信息模板的过程,包括
获取字符块信息中存在的属性内容;
将该属性内容与所述结构化信息模板中的信息内容匹配,
选择匹配程度最高的结构化信息模板。
优选地,所述结构化信息模板中还设置有字号容忍度系数、和/或字符块 之间的位置关系容忍系数。
优选地,根据所述结构化信息模板对字符块进行聚类、排序后合并为文 本块的处理中,包括:
根据所述结构化信息模板中的字号容忍度系数、和/或字符块之间的位置 关系容忍系数,对字符块进行聚类生成文本块。
优选地,根据所述结构化信息模板和所述文本块形成结构化文档的过程, 包括:
根据结构化信息模板中的属性及属性内容,将属性内容相同的文本块作 为该属性的结构信息,获得结构化文档。
本发明还提供一种提取文档结构化信息的装置,包括:
提取单元:提取文档的字符块信息;
模板选择单元:根据文档中字符块信息选择结构化信息模板;
文本块获取单元:根据所述结构化信息模板对字符块进行聚类、排序后 合并为文本块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京方正阿帕比技术有限公司,未经北大方正集团有限公司;北京方正阿帕比技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410645403.1/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





