[发明专利]一种基于多样性和比例特性的关键词检索方法有效
申请号: | 201610218405.1 | 申请日: | 2016-04-09 |
公开(公告)号: | CN105912646B | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 才智;兰许;曹阳 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/906 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于多样性和比例特性的关键词检索方法,对用户所输入的关键词和自然数l,然后根据关键词与各元组信息之间的链接关系,运用算法返回给用户l条最全面的基于关键词的元组信息。步骤一:受链接分析算法PageRank的启发,设计静态离线排序评价分数,生成所有节点的初始值;步骤二:输入关键词生成备选的OS;步骤三:输入自然数l根据得到的OS用k‑LASP算法生成最终含有l个节点的以DS为根的树。经实验结果证明,本方法得到的实验效果显著。 | ||
搜索关键词: | 一种 基于 多样性 比例 特性 关键词 检索 方法 | ||
【主权项】:
1.一种基于多样性和比例特性的关键词检索方法,其特征在于:该方法的实施步骤如下,步骤一:受链接分析算法PageRank的启发,设计静态离线排序评价分数,生成所有节点的初始值;步骤1.1:收集并整理数据集,构建数据关系;这时定义有向图G(V,E),其中V(v1,...,vn)是节点集,这里的节点代表各类信息,E是代表边的集合,E={|vi,vj∈V},表示从vi到vj的一条边,即vi的信息能够链接到vj;步骤1.2:r是一个矢量即各个的页面的评价分数的队列,其中每个节点vi都存在相应的ri,则通过以下公式来迭代计算矢量r的评价分数:
其中d是一个(0,1)的阻尼系数,此系数能够保证得到更精确的结果,取值为0.85;A是一个n*n矩阵,n代表顶点个数,其中若存在从vi到vj的边,则
O(vj)表示vj的出度,否则为0,也就是说若有三个节点,则A是一个3*3矩阵,v0到v1和v2都有边且v1到v2有边,则
且A21=1,其余都为0;e=[1....1]T;|V|为顶点个数;综上,迭代计算出数据集中各个节点的评价分数,这时将这个值称作为全局权值,即gi(vi)代表vi节点的初始值;全局权值global importance,缩写为gi;步骤二:输入关键词生成备选的OS;步骤2.1:输入关键词即DS,系统生成一个以DS顶点为根节点即RDS,以能与RDS链接的关系为子孙的树,即OS;在生成OS的过程中为了区分OS中的每个元组节点vi的重要性,将一个局部权值li是由这个元组在数据库中的全局权值gi和这个元组在OS中的与RDS的亲和度两部分所决定的;亲和度为Affinity,缩写为Af;步骤2.2:在生成OS中,GDS中与RDS有较高亲和力的关系将被加入到OS中,Ri到RDS的亲和度Af(Ri)由以下公式迭代计算:
其中j是一个范围,这个范围为指标集合(m1,m2,...,mn)和它的相应的权值集合(w1,w2,...,wn),这里考虑四个指标:指标m1为Ri到RDS的距离,也就是两个关系之间的距离越小,亲和度就越高;指标m2为关系的相对基数,也就是Ri与RPatent中每个元组相连的平均元组的数量;指标m3为关系的反相对基数,即RPatent与Ri中的一个元组相连的平均数量;指标m4为Ri的模式的连通性,即Ri在关系图中的链接的数量;Af(RParent)是指Ri的父亲节点与RDS的亲和度,初始值为1,即RDS本身的亲和度为1;指标的分数范围是[0,1],相应的权值的总和为1,四个指标相应的权值都为0.25;而且在OS的生成中,所有关系节点的亲和度都应该高于一个临界值θ;步骤2.3:计算出备选的size‑l OS S的重要性Im(S)的公式为:
其中Im(OS,Ri)是OS中节点Ri的li值,Im(OS,Ri)由以下公式算出:Im(OS,Ri)=Im(Ri)·Af(Ri) (4)其中,Im(Ri)是Ri的gl值,Af(Ri)为Ri到RDS的亲和度;综上根据输入的关键词计算出Im值,生成备选的OS;步骤三:输入自然数l根据得到的OS用k‑LASP算法详见步骤3.3生成最终含有l个节点的以DS为根的树;在此步骤中将考虑三个因素:多样性削弱量dv、比例特性增量pv和静态值li,最终将他们分别结合来得出最后的一个分数即dw,pw;步骤3.1:多样性Dsize‑l为了避免重要性过高的相似信息的重复出现,选择输出l条多样化的信息,所以给出一个如下多样性削弱量的计算方法:
其中,g(vi)是指与vi相似的元组节点;z(g(vi))‑1是指在size‑l OS内与vi节点相似的元组节点的总和;z(g(vi))是指g(vi)要出现在size‑l OS中的次数;dv(vi)的值域是[0,1];定义dv[z]为节点在size‑l OS中出现z次的多样性削弱量值,令l=10,“Marry”出现2次,即z=2,则
然后,Dsize‑lOS中的一个节点静态值与多样性削弱量值结合的多样性权值由如下公式计算:dw(vi)=li(vi)·dv(vi) (6)综上,给出一个OS和l,生成一个Dsize‑l OS需要满足以下条件:(1)Dsize‑lOS中的元组个数为l,l≤|OS|;(2)这l个节点都必须与根节点相连;(3)每一个节点vi都有与之对应的多样性权值即dw(vi);(4)一个Dsize‑lOS的汇总得分为
步骤3.2:比例特性即Psize‑l;比例特性增量值可由如下公式计算:
其中,fr(g(vi))为g(vi)出现在OS中的次数;z(g(vi))是指g(vi)要出现在size‑l OS中的次数;α是一个能够调整比例的常数,取α=2;然后Psize‑l OS中的一个节点静态值与比例特性增量值结合的比例特性权值由如下公式计算:pw(vi)=li(vi)·pq(vi) (9)综上,给出一个OS和l,生成一个Psize‑l OS需要满足以下条件:(1)Psize‑l OS中的元组个数为l,l≤|OS|;(2)这l个节点都必须与根节点相连;(3)每一个节点vi都有与之对应的多样性权值即pw(vi);(4)一个Psize‑l OS的汇总得分为
步骤3.3:用k‑LASP算法生成最终含有l个节点的以DS为根的树;k‑LASP即k个节点的最大平均值路径也就是一条路径上的k个节点权值的平均值,在此步骤中,将dw和pw值统称为权值w;OS中的每一个节点vi都有一个权值w(vi),与之对应的vi与其先辈节点,个数n,n=max(k—1,实际长度)的平均权值定义为
在生成OS的过程中,需要一个哈希表,用HFr表示,HFr包括三个部分,一是将vi中的i作为图节点的编号,二是vi在OS中出现的次数fr(vi),三是vi在size‑l OS中出现的次数z(vi);为了更好地管理OS中节点和对应的AP值,建立一个队列W来保存这些信息,在这个队列里节点的顺序按相对应的AP值递减排列;k‑LASP算法生成size‑l OS的过程为:1)生成OS,包括构建HFr、计算AP(vi)和生成W;2)若|size‑l|
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610218405.1/,转载请声明来源钻瓜专利网。