[发明专利]一种基于语义的水利领域信息检索系统及方法有效
申请号: | 201210253882.3 | 申请日: | 2012-07-20 |
公开(公告)号: | CN102799677A | 公开(公告)日: | 2012-11-28 |
发明(设计)人: | 冯钧;唐志贤;卞一路;徐黎明;付言章;盛震宇;任锋;王祥忠;朱忠华;朱祖会;史涯晴;胥世民 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 水利 领域 信息 检索系统 方法 | ||
1.一种基于语义的水利领域信息检索系统,其特征在于,包括如下模块:信息获取与存储模块,用于从互联网获取水利主题信息,存储到水利主题资源库并构建索引;语义本体模块,用于存储水利领域本体和知网语义本体,并完成领域词汇相似度的计算;语义查询处理模块,用于从获取用户查询请求进行查询处理,并按语义相关度排序返回给用户;
所述信息获取与处理模块,包含水利主题爬虫单元、水利主题网页处理单元、Lucene索引单元、水利主题词库、水利主题资源库和水利资源索引库;其中水利主题爬虫单元利用水利主题词库过滤非水利主题网页;水利主题网页处理单元用于将水利主题爬虫单元抽取的信息以模糊资源描述的形式存储到水利主题资源库;Lucene索引单元采用Lucene技术对水利主题资源库的水利主题信息资源构建倒排索引;
所述语义本体模块,包括水利本体库、知网本体库和语义词汇相似度计算单元;其中水利本体库用于存储水利领域本体及其词汇的相似度;知网本体库用于存储知网本体词汇及子网词汇相似度;所述水利本体库中的水利领域本体是模糊本体;所述词汇相似度均由语义词汇相似度计算单元计算;
所述语义查询处理模块,包括查询请求处理单元、模糊语义推理单元、Lucene检索单元和检索结果排序单元;其中查询请求处理单元,用于获取用户的查询请求,并进行分词处理形成查询词集合;模糊语义推理单元,用于结合水利领域本体和知网本体进行语义扩展,形成语义扩展查询词集合;所述Lucene检索单元,用于从水利资源索引库中检索满足查询词集合和语义扩展查询词集合的水利主题资源,形成语义检索结果集合;所述检索结果排序单元,按照语义扩展查询词汇于查询词集合中词汇的语义相似度对语义检索结果进行排序,按照降序将查询结果返回用户。
2.一种基于语义的水利领域信息检索方法,其特征在于,包含如下步骤:
S-1:根据水利主题词库对互联网上的水利主题资源进行抽取;
S-2:利用FRDF对抽取的信息资源进行规范化描述,形成水利主题资源库并构建倒排索引;
S-3:获取用户的查询请求,并进行分词处理,形成查询词集合;
S-4:进行语义扩展处理形成语义扩展词集合,并计算扩展词语查询词间的语义相似度;
S-5:根据查询词集合与语义扩展词集合在索引库中进行查询,并对查询结果进行排名,将查询结果返回用户。
3.如权利要求书2所述的基于语义的水利领域信息检索方法,其特征在于:所述步骤S-1具体包含如下实施步骤:
步骤S-1-1:初始化需要抓取的URL种子队列;
步骤S-1-2:判断URL种子队列是中的URL是否为空,若为非空,转向步骤S-1-3,否则,结束抽取;
步骤S-1-3:从队列中取出一个URL种子,从互联网下载对应的网页信息,若下载成功则转向步骤S-1-4,否则,转向步骤S-1-2;
步骤S-1-4:判断下载网页是否与主题相关,若相关,则转入步骤S-1-5;否则,转向步骤S-1-6;
S-1-5:采用FRDF对下载网页进行描述,并将描述信息存入水利主题资源库;
S-1-6:判断下载网页中是否新URL,若有,抽取网页中的URL,并将其加入URL种子队列,转向步骤S-1-2,若无,直接转向步骤S-1-2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210253882.3/1.html,转载请声明来源钻瓜专利网。