[发明专利]一种采用特征值相似度的数据关联方法有效
申请号: | 201510905286.2 | 申请日: | 2015-12-10 |
公开(公告)号: | CN105512484B | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 裴廷睿;叶学辉;田淑娟;吴相润;崔荣埈;关屋大雄;李哲涛 | 申请(专利权)人: | 湘潭大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 411105 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 采用 特征值 相似 数据 关联 方法 | ||
本发明提出了一种采用特征值相似度的数据关联方法。本发明步骤:首先,获得数个包含多个属性的数据源并对其进行预处理;其次根据用户要求确定属性优先级列表;然后,每个数据源根据优先级列表形成多个相似属性群,数据源中没有存在相似属性群的属性形成一个剩余属性群;再分别计算两个数据源之间对应的相似属性群的相似度和剩余属性群之间的相似度来对两个数据源进行数据关联。本发明改善了传统数据关联方法的效能,提高了数据关联的准确性。
技术领域
本发明涉及数据库信息处理领域,具体的说是一种采用特征值相似度的数据关联方法。
背景技术
数据关联通过将分散领域中的数据通过结构化描述以及数据之间的链接关联起来,形成全球巨大数据空间,即数据网络。这种数据网络资源环境为信息的最大限度共享、重用以及发行提供了保障,也为人们的知识发现活动提供了新的机遇。随着语义网技术的不断成熟,网络资源环境向智能化、语义化和结构化方向发展。语义网通过给万维网上的文档添加形式化语义信息,使计算机可以理解和处理这些文档,实现数据的自动化处理,提高信息检索的效率,数据关联的提出使语义网有了实质性的发展。
目前数据关联技术体系主要包括了四个部分:数据内容组织、数据关联的创建与发布、数据关联的浏览与检索、数据关联的互联和维护。其中数据关联的创建与发布是实现数据关联的关键环节,需要满足以下三个要求:1)用规范形式来描述内容对象的内部结构及其内含内容的语义,这个描述的深度取决于内容对象本身的内容深度和所依据元数据格式的丰富程度;2)在上述描述信息里建立这个内容对象与其他内容对象的关联描述,与其他内容对象的不同的关联关系则需要根据不同的关联种类来分析和确定,这属于整个数据关联体系中最富有挑战性的工作;3)以某种系统体制存储所建立描述信息,支持以公共方法进行检索解析。数据关联作为一种折中的语义化知识组织与发现机制,对上层的概念模型以及知识的表达能力尚存不足,而传统的相似度计算主要依靠的是实例对象特征的外在表现形式,也忽略了其之间的相关性。
发明内容
本发明的目的在于克服上述已有技术的缺点,提出了一种采用特征值相似度的数据关联方法,以实例对象的相关性为前提,能准确计算两个实例之间的相似度,以此来进行数据关联。
本发明步骤:首先,获得数个包含多个属性的数据源并对其进行预处理;其次根据用户要求确定属性优先级列表list;然后,每个数据源根据优先级列表形成多个相似属性群,数据源中没有存在相似属性群的属性形成一个剩余属性群;再分别计算两个数据源之间对应的相似属性群的相似度和剩余属性群之间的相似度来对两个数据源进行数据关联,其具体步骤包括如下:
步骤一:获得i个包含多个属性的数据源λ,记为λi(i∈[1,M]),对λi进行预处理;
步骤二:确定属性优先级列表list={Pm,Pn,…},m,n表示属性的编号m≠n,m,n∈[1,N];
步骤三:各数据源按属性优先级列表list,以优先级从高到低形成相似属性群记为ωik,同时获得剩余属性群ηi,其中i表示数据源λi的编号,k表示优先级列表list中属性的编号;
步骤四:以相似属性群为基础计算各数据源之间的相似度,进行数据关联。
本发明具有如下优点:
1、本发明将同一数据源属性以相似属性群来进行相似度计算,提高了相似度计算结果的客观性和准确性。
2、本发明按照用户设定的优先级来进行相似度计算的相关操作,使数据关联的结果更加适应了用户的要求。
附图说明
图1是本发明流程图;
图2是本发明建立相似属性群过程的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湘潭大学,未经湘潭大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510905286.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置