[发明专利]一种对电子图书进行快速语义标注的方法和系统无效
申请号: | 201110289165.1 | 申请日: | 2011-09-27 |
公开(公告)号: | CN102332023A | 公开(公告)日: | 2012-01-25 |
发明(设计)人: | 张训军 | 申请(专利权)人: | 北京中科希望软件股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100190 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电子图书 进行 快速 语义 标注 方法 系统 | ||
技术领域
本发明涉及电子图书数字出版技术领域,特别是涉及一种对电子图书进行快速语义标注的方法和系统。
背景技术
数字出版的核心竞争力是对数字内容的快速检索与方便查阅,而快速检索与方便查阅的核心是语义检索,因此,基于语义检索的语义标注技术是数字出版的核心技术。实现语义标注的技术不同,造成的语义标注的加工效率与成本也不同。目前已有的技术对语义标注的加工效率很低,成本很高。
要解决好效率与成本的问题,就要在技术上解决,技术手段主要与两个技术问题有关,一个是电子书的拆分结构如何设计,各种排版软件编排的图书(或期刊)具有不同的版式特点,数字加工需要把这些图书拆分为不同粒度的单元,目前所有的拆分方法都面临着低效率的问题,需要过多的人工干预。另一个就是语义标注如何设计。不同的设计方案产生不同的应用效果与加工成本。
最严格的技术方案是可以对电子图书的每一个细节(比如,像词这样的细节)进行语义的标注,这种技术方案的特点是应用范围广,缺点是加工成本不容易降得很低。但是实际情况是,有一部分应用并不需要对词、段这种细节进行语义标注,可能对节以上单元进行标注就可以满足市场需要了。
本发明方案就是针对这类应用而设计的,可以进一步提高加工效率,降低成本。
发明内容
鉴于现有技术的缺陷,本发明提供一种对电子图书进行快速语义标注的方法,其特征在于包括如下步骤:(1)以独立于电子图书的方式建立用于描述电子图书的结构的目录结构文件,把电子图书的章节目录提取出来,并建立树状结构层次关系,同时每个章节元素含有页码信息的属性;(2)在目录结构文件的基础上对目录元素进行语义标注;(3)对电子图书按页进行分割成多个页文件,每个页文件是电子图书的一页内容;(4)将所述目录结构文件与图书CIP数据、版权声明以及所述多个页文件一起打包,形成一个完整的电子图书。
根据本发明所述的对电子图书进行快速语义标注的方法,其特征在于所述目录结构文件以XML形式存在,其内容形式采用电子图书的传统目录形式,并可以被第三方工具识别出。
根据本发明所述的对电子图书进行快速语义标注的方法,其特征在于每一个XML目录元素具有结构属性,分别为标题内容与页码范围。
根据本发明所述的对电子图书进行快速语义标注的方法,其特征在于所述目录结构文件的生成包括如下步骤:(11)制订电子书稿在排版过程中对段落样式的命名的规范;(12)根据段落样式命名规范,把电子图书中标题部分提取出来,形成一个没有层次关系的XML文件,每一个XML元素是一个标题内容,该元素具有一个页码属性用来存放该标题所在页码的信息;(13)把无层次关系的XML文件按前缀大小关系重组建立新的章节元素,该元素有一个子元素是标题元素,有两个属性存放该元素的页码范围。
根据本发明所述的对电子图书进行快速语义标注的方法,其特征在于对所述目录元素进行语义标注的方法采用多元数组法或者知识点法,并且均通过手工填加。
根据本发明所述的对电子图书进行快速语义标注的方法,其特征在于还包括如下步骤:(5)建立一个数据库,把所述目录结构文件和所述多个页文件保存于数据库中;(6)通过语义检索在目录结构文件中对目录元素进行检索,根据所检索到的目录元素所指向的页码在所述数据库中检索页文件。
此外,本发明还提供了一种与上述对电子图书进行快速语义标注方法相对应的系统。
本发明章节目录是基于XML技术来实现,XML的结构性强、易于计算机程序读写,所以在拆分、形成结构、检索等环节是可以通过计算机程序处理。此外由于语义描述是采取了多维阵列的方式,每一维陈列反映了该章节的一个完整语义,因此可以从多个角度来概括一个章节的内容。借助计算机程序实现对电子图书进行自动拆分处理,全面提高了对电子图书进行拆分的效率,同时也不影响到检索效果。同时配合上述拆分方法,设计出一种通过对电子图书的目录结构进行简单的语义标注,提高了语义标注的效率。
附图说明
图1是本发明对电子图书进行快速语义标注的方法的数据处理流程图。
具体实施方式
为使本发明的上述目的、特征和优点更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明对电子图书进行快速语义标注的方法的数据处理流程图,其具体包括如下步骤:
(1)以独立于电子图书的方式建立用于描述电子图书的结构的目录结构文件,把电子图书的章节目录提取出来,并建立树状结构层次关系,同时每个章节元素含有页码信息的属性;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科希望软件股份有限公司,未经北京中科希望软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110289165.1/2.html,转载请声明来源钻瓜专利网。