[发明专利]基于WEB信息的关系数据的属性值同一性判定方法有效

专利信息
申请号: 201710608887.6 申请日: 2017-07-25
公开(公告)号: CN107480130B 公开(公告)日: 2020-09-08
发明(设计)人: 刘海龙;成阿茹;李战怀;张陶然;张国荣;刘文洁 申请(专利权)人: 西北工业大学
主分类号: G06F40/295 分类号: G06F40/295;G06F16/36
代理公司: 西北工业大学专利中心 61204 代理人: 王鲜凯
地址: 710072 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于WEB信息的关系数据的属性值同一性判定方法,用于解决现有属性值同一性判定方法准确率差的技术问题。技术方案是采用查询算法产生查询关键字,利用WEB对数据库中的信息进行扩展,利用自然语言处理方法和命名实体识别方法提取相关的实体;使用FPTree算法在检索的片段中提取出频繁项目集,并把其当做图的节点;通过共现和语义关系两种方法提取实体键间的关系并构建边;使用Durand‑Pasari算法从构建的实体关系图中提取包含待判定属性的最大公共子图;使用Durand‑Pasari提取最大公共子图的公共模式;根据关系模式匹配的结果判定属性值的相似度,提高了属性值同一性判定方法的准确率。
搜索关键词: 基于 web 信息 关系 数据 属性 同一性 判定 方法
【主权项】:
一种基于WEB信息的关系数据的属性值同一性判定方法,其特征在于包括以下步骤:步骤一、利用WEB搜索引擎获取WEB信息对实体进行扩展,采用两种算法生成有效的查询关键字;一种是基于规则的查询算法,函数依赖规则fd:X→Y,即属性集合X唯一决定属性集合Y;使用属性集合X中的属性值作为查询关键字,通过搜索引擎检索相关的信息;在一张关系表中,存在多条函数依赖规则,同时也将得到多组查询关键字;选择出FITNESS值最高的查询关键字作为最终的查询关键字;另一种是基于遗传的查询算法,首先设定阈值FT,在所选择元组中随机的将每一个属性值设置为0或1,产生固定数量的随机组合P,其中1表示被选择为查询关键字,0表示不被选择为查询关键字;通过这种方法得到多组查询关键字,并且计算每一组查询关键字的FITNESS值,从中挑选出FITNESS值最大的查询关键字;如果最大的FITNESS没有超过FT,执行选择操作产生一个新的Pnew,在选择操作过程中使用轮盘赌策略,FITNESS值越大被选择的可能性越大;选择查询关键字I的可能性表示为在交叉阶段,使用统一交叉策略并且在Pnew中随机交叉两个随机组合;在突变阶段随机逆转随机组合中的一位;当FITNESS的最大值超过阈值,则算法结束;FITNESS值最高的查询关键字作为最终的查询关键字;使用FITNESS定义查询关键字的有效性:FITNESS(QP(Am))=α×SUPPORT+(1‑α)×CONFIDENCE   (1)式中,QP(Am)表示查询关键字,α和(1‑α)表示SUPPORT和CONFIDENCE的系数,SUPPORT表示支持查询模型的元组的比率,n表示通过查询模式检索出目标值的元组数量,N表示总的查询元组的数量;SUPPORT=nN---(2)]]>CONFIDENCE指检索的结果片段中包含目标值的平均比率,ni表示检索结果中包含元组i的目标值的片段数量,Ns表示检索结果中片段返回的数量;CONFIDENCE=Σi=1NniNsN---(3)]]>步骤二、利用现有的自然语言处理方法和命名实体识别方法收集相关的实体,收集的实体分为三类:Context Entities(CE):和查询关键字相关的实体;TargetEntities(TE):和目标属性同一类的实体;Intermediate Entities(iE):既不是查询关键字也不同于目标实体;步骤三、构建实体关系图,利用实体关系图描述实体之间的关系;节点的构建:使用FPTree算法检索的片段中挑选出频繁项目集,并当做图的节点;实体关系的提取:考虑两种实体关系;共现,两个实体多次共同出现在同一检索片段中,这两个实体相关;语义关系,两个实体的上下文中存在“is the member of”“belongs to”语义关系,两个实体之间彼此相关;边的构建:通过提取实体间关系构建边,两个实体多次共现或在两个实体之间存在语义关系,构建边连接两个实体;步骤四、人工选取n组元组作为训练样例,要求每一组元组待判定属性值含义相同但是表示形式不同,然后根据训练样例提取决定待判定目标属性值的公共的子图;按照步骤一、二、三为n组元组的每一个元组构建实体关系图,n组构建的实体关系图表示为:G11,G12,...,G1j;G21,G22,...,G2m;...;Gn1,Gn2,...,Gnl;其中,j表示第一组中有j个元组,m表示第二组元组中有m个元组,l表示第n组中有l个元组;使用Durand‑Pasari算法从构建的实体关系图提取包含待判定属性的最大公共子图;提取公共子图时,要求节点类型相同、节点值相同;提取的最大公共子图表示为:G1,G2,...,Gn;步骤五、从步骤四中提取的n最大公共子图G1,G2,...,Gn提取公共模式,实体关系模式提取的目的是提取决定目标属性值的实体及其关系;使用Durand‑Pasari算法提取最大公共子图的最大公共子图模式G,只要求节点类型相同;步骤六、根据关系模式匹配的结果判定属性值的相似度;假设需判定t1,t2的某一个属性的值是否同一;按照步骤一、二、三为待判定的两个元组构建实体关系图P1、P2;根据步骤四提取实体关系图P1、P2的最大公共子图P,要求节点类型相同、节点值相同;计算P与步骤五得到的最大公共子图模式G的相似度,根据SIM(G,P)的值判定t1,t2的某一个属性的值是否同一;SIM(pi,pj)=Σm=1Max(pi.length,pj.length)NDis(pi.Nm,pj.Nm)Max(pi.length,pj.length)×α+Σm=1Max(pi.length-1,pj.length-1)EDis(pi.Em,pj.Em)Max(pi.length-1,pj.length-1)×β---(4)]]>NDis(pi.Nm,pj.Nm)=1ifpi.Nm.NEType==pj.Nm.NEType0ifothers---(5)]]>式中,NDis用于计算节点相似性;EDis(pi.Em,pj.Em)=1ifpi.Em.cluster==pj.Em.cluster0ifothers---(6)]]>EDis用于计算边的相似性。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710608887.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top