[发明专利]一种基于语义的水利领域信息检索系统及方法有效
申请号: | 201210253882.3 | 申请日: | 2012-07-20 |
公开(公告)号: | CN102799677A | 公开(公告)日: | 2012-11-28 |
发明(设计)人: | 冯钧;唐志贤;卞一路;徐黎明;付言章;盛震宇;任锋;王祥忠;朱忠华;朱祖会;史涯晴;胥世民 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 水利 领域 信息 检索系统 方法 | ||
技术领域
本发明涉及一种基于语义的水利领域信息检索系统及方法,属于智能信息检索领域。
背景技术
传统的水利领域信息搜索引擎对数据集中的关键词建立索引,当用户向搜索引擎提交关键词查询请求时,搜索引擎通过关键词匹配方式在数据库中检索用户查询请求的数据集,将结果反馈给用户。这种搜索引擎对查询的处理局限于词的表面形式,使得传统的Web搜索引擎存在着“忠实表达”问题、“表达差异”问题、“词汇孤岛”问题等方面的缺陷,降低了用户在检索结果方面的查全率和查准率。
如何在水利领域信息资源中找到有价值的信息,并从中提取出知识内的内容已经成为目前信息检索和知识管理等研究领域的重要课题。目前水利信息资源还没有提供计算机可以理解的语义信息,计算机还不能自动地识别,只能供用户直接阅读和处理,限制了计算机在水利信息检索领域的自动分析和智能化处理的能力,直接制约了水利信息化的发展进程和水利行业社会服务能力。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于语义的水利领域信息检索系统及方法,将语义搜索技术引入水利领域,以提高对水利领域信息查全率和查准率。
本发明的思路是:利用水利主题爬虫抓取互联网上的水利主题信息,并采用FRDF进行描述,基于Lucene构建索引,通过构建Jena模糊推理机结合水利领域本体和知网语义本体进行水利领域语义扩展和通用语义扩展,并通过定义语义相似度阈值和选择方法防止“语义飘移”,保证检索的查全率和查准率。
技术方案:一种基于语义的水利领域信息检索系统,包括如下模块:信息获取与存储模块,用于从互联网获取水利主题信息,存储到水利主题资源库并构建索引;语义本体模块,用于存储水利领域本体和知网语义本体,并完成领域词汇相似度的计算;语义查询处理模块,用于从获取用户查询请求进行查询处理,并按语义相关度排序返回给用户。
所述信息获取与处理模块,包含水利主题爬虫单元、水利主题网页处理单元、Lucene索引单元、水利主题词库、水利主题资源库和水利资源索引库;其中水利主题爬虫利用水利主题词库过滤非水利主题网页;水利主题网页处理单元用于将水利主题爬虫单元抽取的信息以模糊资源描述(FRDF)的形式存储到水利主题资源库;Lucene索引单元采用Lucene技术对水利主题资源库的水利主题信息资源构建倒排索引以加快检索速度。
所述语义本体模块,包括水利本体库、知网本体库和语义词汇相似度计算单元;其中水利本体库用于存储水利领域本体及其词汇的相似度;知网本体库用于存储知网本体词汇及子网词汇相似度;所述水利本体库中的水利本体是模糊本体;所述词汇相似度均由语义词汇相似度计算单元计算。
所述语义查询处理模块,包括查询请求处理单元、模糊语义推理单元、Lucene检索单元和检索结果排序单元;其中查询请求处理单元,用于获取用户的查询请求,并进行分词处理形成查询词集合;模糊语义推理单元,用于结合水利领域本体和知网本体进行语义扩展,形成语义扩展查询词集合;所述Lucene检索单元,用于从水利资源索引库中检索满足查询词集合和语义扩展查询词集合的水利主题资源,形成语义检索结果集合;所述检索结果排序单元,按照语义扩展查询词汇于查询词集合中词汇的语义相似度对语义检索结果进行排序,按照降序将查询结果返回用户。
一种基于语义的水利领域信息检索方法,包含如下步骤:
步骤S-1:根据水利主题词库对互联网上的水利主题资源进行抽取,具体包含如下步骤:
步骤S-1-1:初始化需要抓取的URL种子队列;
步骤S-1-2:判断URL种子队列是中的URL是否为空,若为非空,转向步骤S-1-3,否则,转向步骤S-2;
步骤S-1-3:从队列中取出一个URL种子,从互联网下载对应的网页信息,若下载成功则转向步骤S-1-4,否则,转向步骤S-1-2;
步骤S-1-4:判断下载网页是否与主题相关,若相关,则转入步骤S-1-5;否则,转向步骤S-1-6;
S-1-5:采用FRDF对网页进行描述,并将描述信息存入水利主题资源库;
S-1-6:判断网页中是否新URL,若有,抽取网页中的URL,并将其加入URL种子队列,转向步骤S-1-2,若无,直接转向步骤S-1-2。
S-2:利用FRDF对抽取的信息资源进行规范化描述,形成水利主题资源库并构建倒排索引;
S-3:获取用户的查询请求,并进行分词处理,形成查询词集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210253882.3/2.html,转载请声明来源钻瓜专利网。