[发明专利]一种采用特征值相似度的数据关联方法有效

申请号：	201510905286.2	申请日：	2015-12-10
公开（公告）号：	CN105512484B	公开（公告）日：	2019-03-19
发明（设计）人：	裴廷睿;叶学辉;田淑娟;吴相润;崔荣埈;关屋大雄;李哲涛	申请（专利权）人：	湘潭大学
主分类号：	G06F16/28	分类号：	G06F16/28
代理公司：	暂无信息	代理人：	暂无信息
地址：	411105 湖南省***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出了一种采用特征值相似度的数据关联方法。本发明步骤：首先，获得数个包含多个属性的数据源并对其进行预处理；其次根据用户要求确定属性优先级列表；然后，每个数据源根据优先级列表形成多个相似属性群，数据源中没有存在相似属性群的属性形成一个剩余属性群；再分别计算两个数据源之间对应的相似属性群的相似度和剩余属性群之间的相似度来对两个数据源进行数据关联。本发明改善了传统数据关联方法的效能，提高了数据关联的准确性。
搜索关键词：	一种采用特征值相似数据关联方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种采用特征值相似度的数据关联方法，其特征在于，首先获得数个包含多个属性的数据源并对其进行预处理；其次根据用户要求确定属性优先级列表list；然后，每个数据源根据优先级列表形成多个相似属性群，数据源中没有存在相似属性群的属性形成一个剩余属性群；再分别计算两个数据源之间对应的相似属性群的相似度和剩余属性群之间的相似度来对两个数据源进行数据关联，所述方法至少包括以下步骤：步骤一：获得M个包含多个属性的数据源λ，记为λi，i∈[1,M]，对λi进行预处理；步骤二：确定属性优先级列表list＝{Pm,Pn,…}，m,n表示属性的编号m≠n，m,n∈[1,N]；步骤三：各数据源按属性优先级列表list，以优先级从高到低形成相似属性群记为ωik，同时获得剩余属性群ηi，其中i表示数据源λi的编号，k表示优先级列表list中属性的编号；步骤四：以相似属性群为基础计算各数据源之间的相似度，进行数据关联，具体方式是：1)建立一个向量x，其向量的维度为N×1；假设获得一个数据源λi对于list中的属性Pa的相似属性群为ωia，其相似属性群会对应其属性的索引集Si，其索引集中的元素值的范围[1,N]，则进行如下操作：其中tih为属性Pih的特征值；2)建立关于属性Pa的相似度计算矩阵Xa＝{x1 x2 … xM}，Xa∈RN×M，xi表示第i个数据源由步骤1)方法所得的一个列向量；3)转步骤1)建立list列表中其他属性的相似度计算矩阵；4)计算各数据源间关于属性的相似度：计算两个数据源λ_c，λ_d之间关于属性P_a的相似度5)建立一个向量y，其向量的维度为N×1，根据步骤三获得一个数据源λi的剩余属性群为ηi，其剩余属性群会对应其属性的索引集Si，其索引集中的元素值的范围[1,N]，则进行如下操作：其中tih为属性Pih所具有特征值；6)建立数据源λi的剩余属性群的相似度计算矩阵Y＝{y1 y2 … yM}，Y∈RN×M，yi表示第i个数据源由步骤5)方法所得的一个列向量；7)计算各数据源间剩余属性群的相似度：计算两个数据源λ_c，λ_d之间剩余属性群的相似度8)数据源λ_c，λ_d之间的相似度为其中δ_gj为权重，g为属性P_j的优先级级数，j为list中相似属性的编号；9)优先级列表list中优先级为g的属性，其中g∈[1，N]，假设为P_t，它在两个数据源λ_e和λ_f中的相似属性集为ω_et和ω_ft，则θ_g为优先级为g的属性相似度计算的阈值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于湘潭大学，未经湘潭大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510905286.2/，转载请声明来源钻瓜专利网。

上一篇：一种有机朗肯循环系统多指标综合评估方法
下一篇：一种基于Hadoop平台的灌肠仪数据处理系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种采用特征值相似度的数据关联方法有效

专利文献下载