[发明专利]一种对电子文件进行语义检索的方法和系统无效
申请号: | 201210236309.1 | 申请日: | 2012-07-09 |
公开(公告)号: | CN102799661A | 公开(公告)日: | 2012-11-28 |
发明(设计)人: | 张训军 | 申请(专利权)人: | 北京中科希望软件股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100190 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电子 文件 进行 语义 检索 方法 系统 | ||
技术领域
本发明涉及数字图书领域,尤其是涉及一种对电子图书中的电子文件进行语义检索的方法和系统。
背景技术
数字出版的核心竞争力是对数字内容的快速检索与方便查阅,而快速检索与方便查阅的核心是语义检索,目前基于电子书的语义检索在国内还是空白。
目前各大图书馆的电子版图书的检索方法有三种,一是按传统的各种分类方法进行检索,二是按传统的CPI数据查找,三是按关键字检索(这种方法在图书的检索中非常少),所有方法的检索结果是一本完整的图书。目前大部分电子书是没有语义内容的,但是从2011年开始,随着EPUB3.0的发展,逐渐会产生了一些具有语义的电子书。而本发明正是基于这一变化,可以实现通过语义来检索,返回的结果也是图书的一部分。特别是对图书的图片、音视频、动画、小程序等的检索具有明显优势,因为这些内容通过目前传统的方式是检索不到的。这对图书检索技术是一个很大的进步。
发明内容
鉴于现有技术中存在的问题,本发明的目的在于提供一种对电子文件进行语义检索的方法,该方法包括如下步骤:步骤(1)在数据库中以结构文件形式建立一个相近词的字典;步骤(2)确认待处理的电子文件是否包含语义描述内容;步骤(3)接受用户查询条件,然后对该条件进行中文分词,获得若干词汇;步骤(4)词汇匹配,依据中文分词后的词汇,然后再读取一个或多个电子文件的每一个语义描述中的项目名与语义内容,把这些内容与上一步获得的中文分词词汇进行比较,如果是相同或者相近,则返回该项目名称及对应的语义内容;步骤(5)向外部显示所有的返回的项目名称及对应的语义内容,供用户选择其中的一部分;步骤(6)根据用户的选择,显示该项目名称与语义内容所对应的图片、视频、文字块内容。
进一步,本发明方法中的步骤(1)进一步包括:在数据库中建立一张表,表中至少有两个字段,一是用于存储词条,另一个用于存储相近词义的I D号,如果两个词条拥有相同的词义ID号,即理解为相近词。
进一步,本发明方法中的步骤(3)进一步包括:把查询条件视为以字为元素的数组;以第一个元素为起点,取出所有连续组合;以第二个元素为起点,取出所有连续组合;以此类推,取出最后一个元素的组合;建立一个字典,该字典中按常用、不常用的分级方式存储词组;在常用词字典中找出上述取出的组合;如果没有常用词,再在不常用词典中查找,如果有则记为分词词汇。
进一步,本发明方法中的步骤(4)进一步包括:
先把分出的词汇与项目名称对应,找出所有相同或相近的,返回项目名称及对应的语义内容,然后再与语义内容比较,如果语义内容中包含了分出的词汇,则返回项目名称及对应的语义内容。
此外,本发明还提供了一种对电子文件进行语义检索的系统,该系统包括:数据库,在该数据库中以结构文件形式存储有一个相近词的字典;确认模块,用于确认待处理的电子文件是否包含语义描述内容;中文分词模块,用于在接受用户查询条件后对该条件进行中文分词,获得若干词汇;词汇匹配模块,依据中文分词后的词汇,然后再读取一个或多个电子文件的每一个语义描述中的项目名与语义内容,把这些内容与上一步获得的中文分词词汇进行比较,如果是相同或者相近,则返回该项目名称及对应的语义内容;语义描述显示模块,向外部显示所有的返回的项目名称及对应的语义内容,供用户选择其中的一部分;内容显示模块,根据用户的选择,显示该项目名称与语义内容所对应的图片、视频、文字块内容。
进一步,在数据库中建立一张表,表中至少有两个字段,一是用于存储词条,另一个用于存储相近词义的ID号,如果两个词条拥有相同的词义ID号,即理解为相近词。
进一步,本发明系统中的中文分词模块把查询条件视为以字为元素的数组;以第一个元素为起点,取出所有连续组合;以第二个元素为起点,取出所有连续组合;以此类推,取出最后一个元素的组合;建立一个字典,该字典中按常用、不常用的分级方式存储词组;在常用词字典中找出上述取出的组合;如果没有常用词,再在不常用词典中查找,如果有则记为分词词汇。
进一步,本发明系统中的词汇匹配模块先把分出的词汇与项目名称对应,找出所有相同或相近的,返回项目名称及对应的语义内容,然后再与语义内容比较,如果语义内容中包含了分出的词汇,则返回项目名称及对应的语义内容。
本发明所述的具有以下优点:可以对具有语义描述的电子书进行检索,返回的结果也可以是图书的一部分。特别是对图书的图片、音视频、动画、小程序等的检索具有明显优势。
附图说明
图1是本发明所述的方法的处理流程图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科希望软件股份有限公司,未经北京中科希望软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210236309.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电源滤波电路
- 下一篇:伪连续导电模式开关变换器自适应续流控制装置