[发明专利]一种用于环境保护法规检索的关联优先排序方法有效
申请号: | 201510610831.5 | 申请日: | 2015-09-23 |
公开(公告)号: | CN105335456B | 公开(公告)日: | 2018-10-23 |
发明(设计)人: | 邵玉斌;井妍;王晨歌;杜庆治 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 环境保护 法规 检索 关联 优先 排序 方法 | ||
本发明涉及一种用于环境保护法规检索的关联优先排序方法,属于知识发现领域。本发明首先对环保法律法规检索系统构建一个关键词表、关键字表;然后清洗用户输入的数据并提炼候选词;最后根据候选词的个数,计算距离并排序输出。本发明采用索引的方式,将庞大的信息源提炼成一个关键词表,作为整个信息源的目录索引,只要与索引匹配查询便能快速的在庞大的信息源中找到有意义的信息,进一步提高检索效率;采用计算整个关键词库中各个独立汉字之间的距离,将其距离值存储在关键字表中,因此在查询匹配的时候就只需要去寻找距离值最小的元素就能找到关联度很高的词语或词组;在提高检索效率的同时,也提高了检索结果与搜索意图之间关联度的准确性。
技术领域
本发明涉及一种用于环境保护法规检索的关联优先排序方法,属于知识发现领域。
背景技术
信息爆炸是当今信息社会的一大特点,从web上进行搜索会查询到大量冗余繁琐信息,需要我们再逐一去筛选来获得我们想要的信息。因而如何快速找到一种方法,给用户更简洁的呈现出更有意义的信息成为了一个关键的问题。因此,为解决这一问题,提出知识发现,知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。目的是向使用者屏蔽原始数据的繁琐细节,从原始数据中提炼出有意义的、简洁的知识,直接向使用者报告。为了向使用者提供更有意义的信息,本方法被提出来,它通过计算元素与元素之间的距离,即关联度,以最快的方式寻找到与使用者想搜索的信息的距离最优的词语组合,然后对应索引目录快速准确查找出更有意义的信息,即用户所需要信息。
发明内容
本发明提供了一种用于环境保护法规检索的关联优先排序方法,以用于解决快速查找用户所需要信息的问题。
本发明的技术方案是:一种用于环境保护法规检索的关联优先排序方法,首先对环保法律法规检索系统构建一个关键词表A、关键字表B;然后清洗用户输入的数据并提炼候选词;最后根据候选词的个数,计算距离并排序输出。
所述用于环境保护法规检索的关联优先排序方法的具体步骤如下:
Step1、首先建立系统模型:
对环保法律法规检索系统构建一个关键词表A、关键字表B;其中,关键词表A:存储着法规名称及法规中抽取出来的t组关键词;关键字表B:存储着关键词表A中每个关键词拆分成的不同字m个及各个字之间的特征值Aij;Aij表示角标为i和j所代表的字的组合出现在关键词表A中的频数,角标i、j为关键词表A中每个关键词拆分成的不同字在关键字表B中的标记;
Step2、清洗用户输入的数据并提炼候选词:
针对用户输入的数据进行分词并去除停用词,将剩余的分词作为候选词;
Step3、根据候选词的个数,计算距离并排序输出:
Step3.1、若候选词个数为1时:
从关键字表B中获取与候选词的首字x联结的字、首字x之间的特征值Aix、获取尾字y、与尾字y联结的字之间的特征值Ayj;计算Aix≠0情况下首字与关键字表B中字的距离dix且得到ixy对应的词组合,计算Ayj≠0情况下尾字与关键字表B中字的距离dyj且得到xyj对应的词组合;根据dix、dyj从小到大的顺序排列其对应的词组合;根据词组合的顺序,将词组合与关键词表A中的关键词进行匹配获取对应的法规名称,将匹配的结果去除重复后按照顺序显示;其中,当出现dix=dyj,则dix、dyj对应的词组合进行随机排序;
Step3.2、若候选词个数不为1时:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510610831.5/2.html,转载请声明来源钻瓜专利网。