[发明专利]一种用于环境保护法规检索的关联优先排序方法有效
申请号: | 201510610831.5 | 申请日: | 2015-09-23 |
公开(公告)号: | CN105335456B | 公开(公告)日: | 2018-10-23 |
发明(设计)人: | 邵玉斌;井妍;王晨歌;杜庆治 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种用于环境保护法规检索的关联优先排序方法,属于知识发现领域。本发明首先对环保法律法规检索系统构建一个关键词表、关键字表;然后清洗用户输入的数据并提炼候选词;最后根据候选词的个数,计算距离并排序输出。本发明采用索引的方式,将庞大的信息源提炼成一个关键词表,作为整个信息源的目录索引,只要与索引匹配查询便能快速的在庞大的信息源中找到有意义的信息,进一步提高检索效率;采用计算整个关键词库中各个独立汉字之间的距离,将其距离值存储在关键字表中,因此在查询匹配的时候就只需要去寻找距离值最小的元素就能找到关联度很高的词语或词组;在提高检索效率的同时,也提高了检索结果与搜索意图之间关联度的准确性。 | ||
搜索关键词: | 一种 用于 环境保护 法规 检索 关联 优先 排序 方法 | ||
【主权项】:
1.一种用于环境保护法规检索的关联优先排序方法,其特征在于:首先对环保法律法规检索系统构建一个关键词表A、关键字表B;然后清洗用户输入的数据并提炼候选词;最后根据候选词的个数,计算距离并排序输出;所述用于环境保护法规检索的关联优先排序方法的具体步骤如下:S1、首先建立系统模型:对环保法律法规检索系统构建一个关键词表A、关键字表B;其中,关键词表A:存储着法规名称及法规中抽取出来的t组关键词;关键字表B:存储着关键词表A中每个关键词拆分成的不同字m个及各个字之间的特征值Aij;Aij表示角标为i和j所代表的字的组合出现在关键词表A中的频数,角标i、j为关键词表A中每个关键词拆分成的不同字在关键字表B中的标记;S2、清洗用户输入的数据并提炼候选词:针对用户输入的数据进行分词并去除停用词,将剩余的分词作为候选词;S3、根据候选词的个数,计算距离并排序输出:S3.1、若候选词个数为1时:从关键字表B中获取与候选词的首字x联结的字、首字x之间的特征值Aix、获取尾字y、与尾字y联结的字之间的特征值Ayj;计算Aix≠0情况下首字与关键字表B中字的距离dix且得到ixy对应的词组合,计算Ayj≠0情况下尾字与关键字表B中字的距离dyj且得到xyj对应的词组合;根据dix、dyj从小到大的顺序排列其对应的词组合;根据词组合的顺序,将词组合与关键词表A中的关键词进行匹配获取对应的法规名称,将匹配的结果去除重复后按照顺序显示;其中,当出现dix=dyj,则dix、dyj对应的词组合进行随机排序;S3.2、若候选词个数不为1时:将多个候选词按输入顺序排列,分别计算相邻两个候选词中先输入的候选词的尾字u与后输入的候选词的首字v的距离duv及对应的两个候选词构成的词组合;从关键字表B中获取与各个候选词的首字x联结的字、首字x之间的特征值Aix、获取尾字y、与尾字y联结的字之间的特征值Ayj;计算Aix≠0情况下首字与关键字表B中字的距离dix且得到ixy对应的词组合,计算Ayj≠0情况下尾字与关键字表B中字的距离dyj且得到xyj对应的词组合;根据duv、dix、dyj从小到大的顺序排列其对应的词组合;根据词组合的顺序,将词组合与关键词表A中的关键词进行匹配获取对应的法规名称,将匹配的结果去除重复后按照顺序显示;其中,当出现duv=dix=dyj,则仅仅保留duv对应的词组合进行排序,当出现dix=dyj,则dix、dyj对应的词组合进行随机排序;所述u、v、x、y为字在关键字表B中的标记。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510610831.5/,转载请声明来源钻瓜专利网。