[发明专利]基于WEB信息的关系数据的属性值同一性判定方法有效
申请号: | 201710608887.6 | 申请日: | 2017-07-25 |
公开(公告)号: | CN107480130B | 公开(公告)日: | 2020-09-08 |
发明(设计)人: | 刘海龙;成阿茹;李战怀;张陶然;张国荣;刘文洁 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/36 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 王鲜凯 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于WEB信息的关系数据的属性值同一性判定方法,用于解决现有属性值同一性判定方法准确率差的技术问题。技术方案是采用查询算法产生查询关键字,利用WEB对数据库中的信息进行扩展,利用自然语言处理方法和命名实体识别方法提取相关的实体;使用FPTree算法在检索的片段中提取出频繁项目集,并把其当做图的节点;通过共现和语义关系两种方法提取实体键间的关系并构建边;使用Durand‑Pasari算法从构建的实体关系图中提取包含待判定属性的最大公共子图;使用Durand‑Pasari提取最大公共子图的公共模式;根据关系模式匹配的结果判定属性值的相似度,提高了属性值同一性判定方法的准确率。 | ||
搜索关键词: | 基于 web 信息 关系 数据 属性 同一性 判定 方法 | ||
【主权项】:
一种基于WEB信息的关系数据的属性值同一性判定方法,其特征在于包括以下步骤:步骤一、利用WEB搜索引擎获取WEB信息对实体进行扩展,采用两种算法生成有效的查询关键字;一种是基于规则的查询算法,函数依赖规则fd:X→Y,即属性集合X唯一决定属性集合Y;使用属性集合X中的属性值作为查询关键字,通过搜索引擎检索相关的信息;在一张关系表中,存在多条函数依赖规则,同时也将得到多组查询关键字;选择出FITNESS值最高的查询关键字作为最终的查询关键字;另一种是基于遗传的查询算法,首先设定阈值FT,在所选择元组中随机的将每一个属性值设置为0或1,产生固定数量的随机组合P,其中1表示被选择为查询关键字,0表示不被选择为查询关键字;通过这种方法得到多组查询关键字,并且计算每一组查询关键字的FITNESS值,从中挑选出FITNESS值最大的查询关键字;如果最大的FITNESS没有超过FT,执行选择操作产生一个新的Pnew,在选择操作过程中使用轮盘赌策略,FITNESS值越大被选择的可能性越大;选择查询关键字I的可能性表示为在交叉阶段,使用统一交叉策略并且在Pnew中随机交叉两个随机组合;在突变阶段随机逆转随机组合中的一位;当FITNESS的最大值超过阈值,则算法结束;FITNESS值最高的查询关键字作为最终的查询关键字;使用FITNESS定义查询关键字的有效性:FITNESS(QP(Am))=α×SUPPORT+(1‑α)×CONFIDENCE (1)式中,QP(Am)表示查询关键字,α和(1‑α)表示SUPPORT和CONFIDENCE的系数,SUPPORT表示支持查询模型的元组的比率,n表示通过查询模式检索出目标值的元组数量,N表示总的查询元组的数量;SUPPORT=nN---(2)]]>CONFIDENCE指检索的结果片段中包含目标值的平均比率,ni表示检索结果中包含元组i的目标值的片段数量,Ns表示检索结果中片段返回的数量;CONFIDENCE=Σi=1NniNsN---(3)]]>步骤二、利用现有的自然语言处理方法和命名实体识别方法收集相关的实体,收集的实体分为三类:Context Entities(CE):和查询关键字相关的实体;TargetEntities(TE):和目标属性同一类的实体;Intermediate Entities(iE):既不是查询关键字也不同于目标实体;步骤三、构建实体关系图,利用实体关系图描述实体之间的关系;节点的构建:使用FPTree算法检索的片段中挑选出频繁项目集,并当做图的节点;实体关系的提取:考虑两种实体关系;共现,两个实体多次共同出现在同一检索片段中,这两个实体相关;语义关系,两个实体的上下文中存在“is the member of”“belongs to”语义关系,两个实体之间彼此相关;边的构建:通过提取实体间关系构建边,两个实体多次共现或在两个实体之间存在语义关系,构建边连接两个实体;步骤四、人工选取n组元组作为训练样例,要求每一组元组待判定属性值含义相同但是表示形式不同,然后根据训练样例提取决定待判定目标属性值的公共的子图;按照步骤一、二、三为n组元组的每一个元组构建实体关系图,n组构建的实体关系图表示为:G11,G12,...,G1j;G21,G22,...,G2m;...;Gn1,Gn2,...,Gnl;其中,j表示第一组中有j个元组,m表示第二组元组中有m个元组,l表示第n组中有l个元组;使用Durand‑Pasari算法从构建的实体关系图提取包含待判定属性的最大公共子图;提取公共子图时,要求节点类型相同、节点值相同;提取的最大公共子图表示为:G1,G2,...,Gn;步骤五、从步骤四中提取的n最大公共子图G1,G2,...,Gn提取公共模式,实体关系模式提取的目的是提取决定目标属性值的实体及其关系;使用Durand‑Pasari算法提取最大公共子图的最大公共子图模式G,只要求节点类型相同;步骤六、根据关系模式匹配的结果判定属性值的相似度;假设需判定t1,t2的某一个属性的值是否同一;按照步骤一、二、三为待判定的两个元组构建实体关系图P1、P2;根据步骤四提取实体关系图P1、P2的最大公共子图P,要求节点类型相同、节点值相同;计算P与步骤五得到的最大公共子图模式G的相似度,根据SIM(G,P)的值判定t1,t2的某一个属性的值是否同一;SIM(pi,pj)=Σm=1Max(pi.length,pj.length)NDis(pi.Nm,pj.Nm)Max(pi.length,pj.length)×α+Σm=1Max(pi.length-1,pj.length-1)EDis(pi.Em,pj.Em)Max(pi.length-1,pj.length-1)×β---(4)]]>NDis(pi.Nm,pj.Nm)=1ifpi.Nm.NEType==pj.Nm.NEType0ifothers---(5)]]>式中,NDis用于计算节点相似性;EDis(pi.Em,pj.Em)=1ifpi.Em.cluster==pj.Em.cluster0ifothers---(6)]]>EDis用于计算边的相似性。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710608887.6/,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置