[发明专利]基于本体的对象级搜索技术无效
申请号: | 201110284266.X | 申请日: | 2011-09-23 |
公开(公告)号: | CN103020074A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 倪毅;邝俊 | 申请(专利权)人: | 倪毅 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100086 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 本体 对象 搜索 技术 | ||
技术领域
本发明涉及搜索引擎领域,特别涉及对基于本体的对象级搜索技术的研究。
背景技术
随着Web2.0时代的发展,以网页为基本检索单位的通用搜索引擎正面临发展瓶颈,信息量大、无效信息过多、查询结果准确度低、有效信息非结构化、深度不够等问题逐渐突出。基于关键字查询存在索引容量指数增长、查全率和查准率不断降低、关键字本身所具有的内在涵义被忽略;同时,通用的搜索引擎的查询结果为按相关度排序的网页文件,存在很多的冗余信息。因此,提高搜索查全率和查准率,摒除冗余信息,同时能够进行语义层面的搜索,返回精准的对象级信息成为用户对新一代搜索引擎提出的要求。
本体是语义搜索中的关键技术,它结合领域的相关知识和规则,对页面的信息进行语义级别的Web分析和推理,能有效的理解用户搜索意图,获取精准的搜索结果。领域实体对象化方法将互联网上同一个领域实体的信息封装为对象进行存储,能有效的摒除冗余信息。将本体和领域实体对象化方法与搜索引擎结合,能提高搜索的查全率和查准率,同时降低搜索结果的冗余度,能够提供语义对象级精准搜索。
在本发明中,采用Protégé(开放源码的本体编辑器)对本体库进行构建,本体采用WebOntology Language(本体描述语言)进行描述。本发明基于Jena(用于创建语义网应用系统的Java框架结构,它为OWL等语言提供了一个程序开发环境)进行实现。
发明内容
●本发明公布了一种基于本体的对象级搜索技术,该搜索技术结合领域实体对象化方法、本体技术和语义分析技术来提供准确的对象级搜索结果。该搜索技术的结构图如图1所示,主要由领域对象库、领域本体库、语义查询优化和检索模块等组成:
1)领域对象库:将互联网上存在的关于同一个领域实体的信息组织为对象进行存储,每一个对象包含各种属性信息,对象将作为用户查询的结果返回。
2)领域本体库:提供相关领域的知识、领域知识的共同理解,提供特定的概念定义和概念之间的关系,提供该领域中所发生的活动以及该领域的主要理论和基本原理。其基本的建模原语包括类、关系、函数、公理以及实例,采用OWL本体描述语言进行描述。
3)语义查询优化:包含语义树构建、查询词切词、关键字语义计算和语义扩展等过程。语义树根据领域中概念的语义关系进行构建,提供概念的语义信息;语义查询优化基于语义树对用户查询词进行语义分析,分析用户的查询意图。
4)检索模块:搜索技术的核心模块,获取用户查询意图,通过Jena推理机,进行本体分析和推理以及实体映射,完成用户搜索意图到对象级信息映射的过程。
●该搜索技术的基本流程如下:
1)通过爬虫抓取互联网上包含领域实体信息的网页,对网页中属性信息进行抽取和集成,存储到数据库,生成领域数据库;
2)结合领域知识和规则以及领域数据库,采用Protégé本体构建工具构建领域本体;
3)结合领域数据库和领域实体对象化方法,构建领域对象库;
4)获取用户查询词,进行语义分析查询,返回用户的查询意图;
5)检索模块分析语义分析查询的结果,通过Jena推理机,对用户查询意图进行分析、本体分析和推理以及实体映射,返回映射列表;
6)根据检索模块返回的映射列表,从领域对象库中取出封装好的对象级信息,作为查询结果返回。
附图说明
图1基于本体的对象级搜索技术结构图
图2语义树的结构
图3语义查询优化结构图
具体实施方式
1.主题信息处理
主题信息处理由信息抓取、信息抽取和集成组成,生成所属领域的数据库。信息抓取采用面向网站的自适应爬虫实现,爬虫下载包含需要信息的网页,建立网页数据库。信息抽取将信息对象从网页中抽取出来,对信息对象的属性进行语义标注。首先选取网页数据库中样本网页,利用可视化页面标注工具定制一个抽取模板,同时改版监视器监视样本网页的改版的情况,及时调整抽取模板,然后从网页数据库中的网页进行页面抽取,集成后建立领域数据库。
2.领域对象库构建
领域对象库的构建过程包括对象的数据和行为的抽象、对象的封装。采用标准建模语言(UML)进行对象建模。以餐饮领域为例,构建领域对象库的过程如下:
1)完成对象的数据和行为的抽象,标出来领域的相关的对象类,如餐馆类(Class restaurant)、折扣类(Class coupon);
2)构建数据字典,确定类之间的关联;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于倪毅,未经倪毅许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110284266.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:采用弯曲试验测试材料拉伸弹性模量的方法
- 下一篇:一种烧烤型微波炉