[发明专利]一种基于多标签传播的数据库重叠模式摘要生成方法有效
申请号: | 201510464314.1 | 申请日: | 2015-07-31 |
公开(公告)号: | CN105138588B | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 袁晓洁;于漫;王超;靳宇东;温延龙 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 天津佳盟知识产权代理有限公司 12002 | 代理人: | 侯力 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于多标签传播的数据库重叠模式摘要生成方法。包括:将数据库模式信息映射为多标签图模型;采用多标签传播算法对数据库模式信息进行聚类,生成可重叠团;采用层次聚类算法对可重叠团进行聚类,进一步生成规模适当的结果类;最后基于信息熵及随机游走模型为每个结果类选取主题表,以生成最终的数据库重叠模式摘要。本发明提出的重叠模式摘要生成方案能够为用户提供更加准确、具有意义的数据库重叠模式摘要,帮助用户快速地理解数据库信息。 | ||
搜索关键词: | 一种 基于 标签 传播 数据库 重叠 模式 摘要 生成 方法 | ||
【主权项】:
1.一种基于多标签传播的数据库重叠模式摘要生成方法,其特征在于该方法包括:第1、将数据库模式映射为一个带权重的多标签图;第1.1、将数据库模式映射为一个多标签图,定义1:一个关系数据库模式能够映射为一个多标签图,用一个三元组G=(V,E,LM)表示,其中:①.V表示数据库中关系表节点的集合,v∈V表示数据库中的关系表节点;②.E表示数据库中外键关系的集合,e∈E表示数据库中的外键关系;③.LM为一个标签映射函数,将节点映射到对应的一个或者多个标签,其中标签用(c,b)表示,c表示一个结果类标示符,b为标签隶属度,表示一个数据库关系表v与其结果类标示符c的隶属强度;第1.2、计算多标签图中连接边的两个关系表间的相似性,作为标签图权重;第1.2.1、使用空间向量模型计算关系表的表名和属性名的文本相似度,作为关系表的名称相似度;第1.2.2、使用Jaccard系数对关系表属性列的值进行数值相似度分析,并通过贪心算法找到最佳匹配属性对,取最佳匹配属性对值相似度的平均值求得关系表值相似度;第1.2.3、通过分析关系表之间的计数比率,计算出关系表的映射关系相似度,定义2:关系表R与关系表S之间的映射关系相似度,记作Simm(R,S),定义如下:
其中:①.τ表示关系表的所有元组;②.fan(τi)为元组τi在连接边e上的扇出度,扇出度是针对元组与元组之间的连接边条数而定义的,表示某一行元组能够连接的不同元组个数;③.qi为关系表R中所有满足fan(τi)>0的元组数;第1.2.4、基于上述第1.2.1至第1.2.3步中的三种相似度特征,采用多元线性回归模型计算得到关系表相似度,并将该相似度作为多标签图的权重;第2、采用多标签传播算法对多标签图进行聚类,生成可重叠团;第2.1、确定多标签传播算法的参数θ,θ为每个节点最多可携带的标签数;若用户指定模式摘要最终结果类个数为k,则θ尝试取值为k‑1到k+3,最终选择使得多标签传播所得的可重叠团的内部聚类相似度最大的θ,内部聚类相似度的定义如下:定义3:假设多标签传播将多标签图聚类为C={C1,C2,...,Cm}的可重叠团,那么多标签传播结果C的聚类内部相似度如下:
其中:①.Sim(vi,vj)为关系表vi和vj之间的相似度;②.|Ci|表示Ci中的关系表个数;第2.2、为标签图中的每个节点设置一个唯一的标签,该标签的类别标示符设置为该节点的关系表名称,隶属度设置为1;第2.3、每次迭代将一个节点所有邻居节点的标签按照隶属度和边的权重加入到该节点的标签中,并做标准化使该节点的隶属度和为1,定义4:标准化函数bx(c,vi)表示在第x次迭代时,关系表vi的标签中,社团标示符c与其隶属度b的映射关系为:
其中:①.N(vi)为关系表vi的所有邻居关系表;②.
表示边(vi,vj)的权重;第2.4、删除隶属度低于1/θ的标签;第2.5、当被标记的最少的类别标示符所标记的节点数不变时,迭代停止;假设迭代结束后,剩余的类别标示符为m个,将带有标示符cm的节点归类到团Cm中,此时,多标签图被划分为m个可以有重叠部分的团C={C1,C2,...,Cm};第2.6、θ取不同的值,重复上述第2.2至第2.5步,选择内部聚类相似度最大的一组可重叠团作为多标签传播的结果;第3、对可重叠团进行层次聚类,生成结果类;第3.1、计算可重叠团间相似度,定义5:Ci和Cj分别代表多标签传播聚类所得到的两个可重叠团,Ci和Cj之间的相似度可以定义为:
其中,Sim(vi,vj)代表关系表vi和vj之间的相似度,若两表之间没有关联边,它们之间的相似度为0;第3.2、将每一个可重叠团作为一个单独的类,在每一次迭代中,合并相似度最大的两个类,直到合并至用户所指定的k个结果类后停止迭代;第4、为每个结果类选取主题表,将最终的模式摘要返回给用户;第4.1、计算关系表的重要度;第4.1.1、计算关系表的信息量,定义6:将关系表R中的属性A记作R.A,该属性上的信息熵定义为:
其中,h表示属性A上所有不相同值的数目;设属性A上的取值可以表示为h个不同值的集合R.A={a1,...,ah},用pi来表示ai出现的概率;定义7:将关系表R的信息量定义为:
其中,|R|表示R中的元组个数;第4.1.2、计算关系表间转移概率,定义8:以关系表R与关系表S为例,由R转移到S的概率定义如下:
其中:①.R.A‑S.B表示关系表R的A属性与关系表S的B属性之间的外键引用;②.对于R中的任意属性A′,qA′表示R.A′上所有外键连接数目;第4.3、采用随机游走模型,以关系表的信息量作为随机游走的初始值,以关系表间的转移概率作为随机游走的转移概率,模型达到稳态时的信息量分布即为关系表的重要度;第4.4、选择每个结果类中重要度最高的关系表作为该类的主题表,返回给用户最终的模式摘要。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510464314.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种烟丝输送系统
- 下一篇:语音文本串的解析方法和装置