[发明专利]一种通用文档结构信息抽取方法有效
申请号: | 201310272418.3 | 申请日: | 2013-07-01 |
公开(公告)号: | CN103399857B | 公开(公告)日: | 2017-02-08 |
发明(设计)人: | 李新然;吕江花;马世龙 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京永创新实专利事务所11121 | 代理人: | 祗志洁 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通用 文档 结构 信息 抽取 方法 | ||
技术领域
本发明属于文档一体化工程领域,涉及一种通用文档信息格式定义、一组文档信息格式间转换和操作过程的实现方法、以及一种通用的文档同构信息描述的定义;具体涉及一种通用文档结构信息抽取方法。
背景技术
随着相关技术的发展,文档资源在工程实际中的地位变得越来越突出。新世纪提出的文档工程的概念,更是将文档资源的地位提到工程实际的中心位置。文档资源是一种知识积累,是工程实际中经验的结晶,充分利用现有的文档资源可以减少在当前工程实际中所犯的错误,为当前的工程问题解决提供参考,从而加快工程开发进度。但是,由于文档原始资源内容庞杂且缺乏统一规范,信息格式不统一,缺乏互操作性,不易为计算机统一操作和理解,更不易为人所理解和查询,导致当前大量的工程文档资源被搁置而不能服务于工程实际,造成极大的资源浪费。
文档一体化管理是指由同一文档管理机构从文件和档案工作的全局出发,统筹规划,科学管理,实现文件管理部门由文件形成、收发、登记、编号、存储、检索、利用到档案部门的收集、整理、鉴定、著录、保管、统计、利用等管理的全过程控制。此种工作模式有利于改善和保证文件、档案质量,提高文件和档案管理工作的规范化和标准化,从而实现文件和档案管理工作的现代化。
文档结构是文档内容的凝练,是整篇文档的框架。结构化的信息呈现可以方便用户的阅读和理解,充分利用文档的结构信息也可以实现快速的文档定位方便用户的查阅;在对文档资源进行修改时并不是同时对所有的文档信息进行修改,通常每个工作人员只负责修改部分的文档信息,充分利用文档结构信息,可以方便地实现文档资源的协同编辑修改;文档资源体积通常很大,通过网络传递完整的文档信息通常需要占用很大的网络带宽,且十分耗时,而利用文档结构信息,通过传递部分结构化的文档信息可以有效节省带宽,提高效率;工程中的文档通常有严格的文档结构要求,严格的文档结构也可以方便文档资源的编制,提高工作效率,且方便一体化管理;利用文档结构信息,结合文档内容信息可以指定灵活的规则,方便对文档的评价和审核。
为了针对文档资源进行抽取同构,进而加以利用,人们开展了诸多的研究:文本自动分类,信息检索,文本内容过滤等。有研究者提出了开放式文档同构引擎(Open Document Isomorphic Engine,ODIE),就是从多种多样的文档格式中获取文本内容及其所代表的语义,并提供给其它高层系统使用,基于此提出了开放式文档层次模型的概念,并介绍了获取文档资源中文本信息的关键技术和方法。多格式文档的同构化可以使其他应用系统摆脱文档分析的难点,只专注于系统本身的业务操作。文档同构化同时也是基于内容的信息安全、自动分类、自动标引、自动检索等领域的基础性工作。然而这些研究工作的研究对象仅仅锁定在文本内容及其所代表的语义上,忽略了原始文档结构信息及图表信息,另外由于其架构太过通用,实际应用中又没有给出一种面向特定领域的可操作的文档抽取同构的技术与方法,使其注定无法满足工程实际的需求。
综上所述,现有的文档一体化研究领域存在多种局限:1)在文档信息抽取中,只关注文本信息的抽取,忽视文档结构信息,这样抽取出的纯文本方便文本检索分类等上层应用的同时,由于缺失重要的结构信息,无法满足特定工程领域的需求;2)在文档信息抽取中,忽略文档中重要的图片图表信息,在方便通用文档同构格式定义的同时,损失了原有文档资源的信息,没有做到对原始文档资源的充分利用;3)在定义开放式文档同构结构时,提出了开放式文档层次模型的概念,介绍了获取多种格式文本信息的关键技术和方法,但没有给出一种面向特定领域的同构文档格式及其定义方法,没有提出一种建立针对特定领域的开放式文档同构的实际可操作的流程和方法;4)开放式文档同构主要研究文本信息抽取处理及其语义的理解,没有建立通用的文档信息描述方法,不能为人所理解和操作,不能满足工程实际的需求;5)概念和操作方法复杂,易用性差,不便于在工程实际中普及;6)抽取方法通用性差,无法保障可移植性。
发明内容
本发明的目的在于针对特定领域给出一种通用文档结构信息抽取方法,基于文档抽取的概念,可以抽取重要的文档结构信息,同时保持文档中的图片和图表信息,抽取方法简单易用,通用性强。通过本发明方法可以建立特定领域的文档同构信息模型,实现文档信息的同构互操作,方便文档一体化管理。
本发明给出的一种通用文档结构信息抽取方法,主要包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310272418.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于导体表面覆油的刷槽
- 下一篇:一维气爆数控喷头
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置