[发明专利]基于WEB信息的关系数据的属性值同一性判定方法有效

申请号：	201710608887.6	申请日：	2017-07-25
公开（公告）号：	CN107480130B	公开（公告）日：	2020-09-08
发明（设计）人：	刘海龙;成阿茹;李战怀;张陶然;张国荣;刘文洁	申请（专利权）人：	西北工业大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06F16/36
代理公司：	西北工业大学专利中心 61204	代理人：	王鲜凯
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于WEB信息的关系数据的属性值同一性判定方法，用于解决现有属性值同一性判定方法准确率差的技术问题。技术方案是采用查询算法产生查询关键字，利用WEB对数据库中的信息进行扩展，利用自然语言处理方法和命名实体识别方法提取相关的实体；使用FPTree算法在检索的片段中提取出频繁项目集，并把其当做图的节点；通过共现和语义关系两种方法提取实体键间的关系并构建边；使用Durand‑Pasari算法从构建的实体关系图中提取包含待判定属性的最大公共子图；使用Durand‑Pasari提取最大公共子图的公共模式；根据关系模式匹配的结果判定属性值的相似度，提高了属性值同一性判定方法的准确率。
搜索关键词：	基于 web 信息关系数据属性同一性判定方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于WEB信息的关系数据的属性值同一性判定方法，其特征在于包括以下步骤：步骤一、利用WEB搜索引擎获取WEB信息对实体进行扩展，采用两种算法生成有效的查询关键字；一种是基于规则的查询算法，函数依赖规则fd:X→Y，即属性集合X唯一决定属性集合Y；使用属性集合X中的属性值作为查询关键字，通过搜索引擎检索相关的信息；在一张关系表中，存在多条函数依赖规则，同时也将得到多组查询关键字；选择出FITNESS值最高的查询关键字作为最终的查询关键字；另一种是基于遗传的查询算法，首先设定阈值FT，在所选择元组中随机的将每一个属性值设置为0或1，产生固定数量的随机组合P,其中1表示被选择为查询关键字，0表示不被选择为查询关键字；通过这种方法得到多组查询关键字，并且计算每一组查询关键字的FITNESS值，从中挑选出FITNESS值最大的查询关键字；如果最大的FITNESS没有超过FT，执行选择操作产生一个新的Pnew，在选择操作过程中使用轮盘赌策略，FITNESS值越大被选择的可能性越大；选择查询关键字I的可能性表示为在交叉阶段，使用统一交叉策略并且在Pnew中随机交叉两个随机组合；在突变阶段随机逆转随机组合中的一位；当FITNESS的最大值超过阈值，则算法结束；FITNESS值最高的查询关键字作为最终的查询关键字；使用FITNESS定义查询关键字的有效性：FITNESS(QP(Am))＝α×SUPPORT+(1‑α)×CONFIDENCE (1)式中，QP(Am)表示查询关键字，α和(1‑α)表示SUPPORT和CONFIDENCE的系数，SUPPORT表示支持查询模型的元组的比率，n表示通过查询模式检索出目标值的元组数量，N表示总的查询元组的数量；SUPPORT=nN---(2)]]>CONFIDENCE指检索的结果片段中包含目标值的平均比率，ni表示检索结果中包含元组i的目标值的片段数量，Ns表示检索结果中片段返回的数量；CONFIDENCE=Σi=1NniNsN---(3)]]>步骤二、利用现有的自然语言处理方法和命名实体识别方法收集相关的实体，收集的实体分为三类：Context Entities(CE)：和查询关键字相关的实体；TargetEntities(TE)：和目标属性同一类的实体；Intermediate Entities(iE):既不是查询关键字也不同于目标实体；步骤三、构建实体关系图，利用实体关系图描述实体之间的关系；节点的构建：使用FPTree算法检索的片段中挑选出频繁项目集，并当做图的节点；实体关系的提取：考虑两种实体关系；共现，两个实体多次共同出现在同一检索片段中，这两个实体相关；语义关系，两个实体的上下文中存在“is the member of”“belongs to”语义关系，两个实体之间彼此相关；边的构建：通过提取实体间关系构建边，两个实体多次共现或在两个实体之间存在语义关系，构建边连接两个实体；步骤四、人工选取n组元组作为训练样例，要求每一组元组待判定属性值含义相同但是表示形式不同，然后根据训练样例提取决定待判定目标属性值的公共的子图；按照步骤一、二、三为n组元组的每一个元组构建实体关系图，n组构建的实体关系图表示为：G11,G12,...,G1j；G21,G22,...,G2m；...；Gn1,Gn2,...,Gnl；其中，j表示第一组中有j个元组，m表示第二组元组中有m个元组，l表示第n组中有l个元组；使用Durand‑Pasari算法从构建的实体关系图提取包含待判定属性的最大公共子图；提取公共子图时，要求节点类型相同、节点值相同；提取的最大公共子图表示为：G1,G2,...,Gn；步骤五、从步骤四中提取的n最大公共子图G1,G2,...,Gn提取公共模式，实体关系模式提取的目的是提取决定目标属性值的实体及其关系；使用Durand‑Pasari算法提取最大公共子图的最大公共子图模式G，只要求节点类型相同；步骤六、根据关系模式匹配的结果判定属性值的相似度；假设需判定t1,t2的某一个属性的值是否同一；按照步骤一、二、三为待判定的两个元组构建实体关系图P1、P2；根据步骤四提取实体关系图P1、P2的最大公共子图P，要求节点类型相同、节点值相同；计算P与步骤五得到的最大公共子图模式G的相似度，根据SIM(G,P)的值判定t1,t2的某一个属性的值是否同一；SIM(pi,pj)=Σm=1Max(pi.length,pj.length)NDis(pi.Nm,pj.Nm)Max(pi.length,pj.length)×α+Σm=1Max(pi.length-1,pj.length-1)EDis(pi.Em,pj.Em)Max(pi.length-1,pj.length-1)×β---(4)]]>NDis(pi.Nm,pj.Nm)=1ifpi.Nm.NEType==pj.Nm.NEType0ifothers---(5)]]>式中，NDis用于计算节点相似性；EDis(pi.Em,pj.Em)=1ifpi.Em.cluster==pj.Em.cluster0ifothers---(6)]]>EDis用于计算边的相似性。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710608887.6/，转载请声明来源钻瓜专利网。

上一篇：一种基于视觉识别和语音识别的物品位置识别方法及系统
下一篇：中文电子病历症状语义提取方法及其系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于WEB信息的关系数据的属性值同一性判定方法有效

专利文献下载