[发明专利]一种基于本体的关联数据质量评估方法有效
申请号: | 201811004187.7 | 申请日: | 2018-08-30 |
公开(公告)号: | CN109101656B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 袁满;胡超;张丽伟;陈萍;邹晨红;仇婷婷 | 申请(专利权)人: | 东北石油大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2458 |
代理公司: | 哈尔滨东方专利事务所 23118 | 代理人: | 曹爱华 |
地址: | 163319 黑龙江*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及的是一种基于本体的关联数据质量评估方法,具体为:一、关联数据质量评估数学模型定义;二、进行LDQAM数学模型向本体模型的映射;三、约束规则与推理规则制定,在使用本体进行关联数据质量评估时,利用本体的约束规则和推理规则来进行数据筛选,从而进一步进行评估;四、关联书质量评估原型系统搭建,基于上述规则进行评估系统构建,为数据评估进行服务;五、进行数据评估服务,利用构建的原型系统进行数据评估,并验证系统的有效性。本发明结合关联数据以及数据质量技术,用于发现目前网络上已发布关联数据中有关完整性、语义有效性、语义一致性、语义准确性、可用性等维度方面的缺陷,并给出相应解决方案。 | ||
搜索关键词: | 一种 基于 本体 关联 数据 质量 评估 方法 | ||
【主权项】:
1.一种基于本体的关联数据质量评估方法,其特征在于包括如下步骤:步骤一:进行关联数据质量评估数学模型定义关联数据质量通过多个质量维度进行描述,包括链接有效性、语义关联性、句法准确性、数据实体准确性,通过对这些数据质量维度的评估达到对关联数据的数据质量评估的目的;LDQAM评估的数学模型定义:定义1:任何关联数据质量评估都形式化为一个七元组:Spvard其中,Dom‑领域,评估的关联数据隶属的领域;S‑关联数据集,P‑关联数据的属性集,V‑关联数据的数据集实例,即属性值,A‑关联数据评估中用到的算法集,D‑关联数据评估维度,R‑关联数据评估规则集;定义2:关联数据集:关联数据中的所有实体都有一个唯一的URI,通过网络上的Http协议用URI定位并找到相应数据,根据关联数据共享权限,实例集用URI和所属数据领域进行描述:S=其中URI表示的是关联数据集中各个实例的链接的集合,Dom标识的是该关联数据集所属的领域;定义3:关联数据的属性集:关联数据中的数据能够形成关联的必要因素就是属性,这些属性的集合即为关联数据的属性集,不同的实例只有通过属性的链接才能形成相应的关联性:P=其中Predicates表示的属性的集合,Type表示属性的类型,即对象属性和数据属性;定义4:关联数据的数据项:关联数据的作用是将数据关联在一起,数据项是关联数据中属性值的集合:V=其中Value表示的属性的集合,Weight表示属性的在评估中的权重,定义5:关联数据评估算法集:由评估算法所构成的集合;A={algi|Define(algi),1≤i≤n}其中Define(algi)是对评估算法的定义;定义6:规则集合:每个评估维度所包含规则的集合,描述如下:R=,其中的i=1,2,……,n,j=1,2,....,m,在同一个维度可以有多个规则。Ruleij表示在维度i上的第j个规则;步骤二:进行LDQAM数学模型向本体模型的映射将本体形式化为五元组O=,其中C‑类,R‑关系,F‑函数,A‑公理,I‑实例,根据给出的LDQAM的数学模型,从关联数据质量通用模型到本体模式的映射规则如下:1:关联数据集到本体实例的映射;2:维度到本体类的映射;3:属性集到本体属性的映射;4:规则集到公理的映射;5:数据集到属性实例的映射;6:算法集到本体类的映射。映射规则如下:(1)关联数集S的映射关联数据集是指需要进行评估的数据集链接的集合;关联数据集到本体实例的映射主要是对本体类实例进行映射,映射过程如下:
其中,IUname表示以链接命名的本体实例;(2)维度到本体类的映射维度集是指评估维度的集合,通常映射成本体中的类,映射过程如下:
其中,Cdim表示以维度名字命名的本体类;(3)属性集到本体属性的映射属性集即实体属性的集合,关联数据属性映射成本体属性,映射过程如下:
其中,Property有分为DataProperty和ElementProperty两种,具体分类原则是根据predicate后面所接的Value值所决定的,当Value为另一对象是Property为ElementProperty,否则为DataProperty;(4)数据集到属性实例实例集是指数据集记录实例的集合,映射成本体类的实例或本体属性实例,映射过程如下:
(5)算法集到本体类的映射算法集是数据质量评估算法的集合,映射成以算法名称命名的本体类,映射过程如下:
规则集中包含的是与评估维度相对应的规则,对于选定评估维度的数据集,制定评估维度对应的评估规则;在规则集中,规则分为数据项约束规则、类约束规则和语义约束规则;根据制定的映射规则,将关联数据质量数学模型转化为本体;步骤三:约束规则与推理规则制定关联数据质量评估约束规则每个关联数据质量问题都件建立在数据的属性、属性值上面,属性分为数据属性和对象属性;关联数据质量评估约束规则通过对相应的属性和属性值进行分析,然后制定相应的约束规则;关联数据推理规则选择基于关联数据质量本体的SWRL规则推理,解决效率低问题,实现自动化功能,通过SWRL规则实现了关联数据属性与关联数据质量约束规则之间关系的推理,关联数据质量约束规则与任务之间的推理,通过推理结果实现关联数据质量约束规则与任务名称之间关系推理;规则1:如果存在URI X,如果一个链接含有Http前缀Y,当一个实例同时存在上述条件,则该实例可被访问。【TestedClass(?x)∧URIPrefix(?y)→AvailableURI(?x,?y)】规则2:根据关联数据URI的特点,制定数据集与数据集属性之间的关系,如果数据集X存在必要属性HasURI Z,数据集属性Y存在必要属性HasURI A,并且A是以Z作为前缀,那么数据集属性Y是数据集X的属性;【TestedClass(?x)∧TestedProperty(?y)∧hasURI(?x,?z)∧hasURI(?y,?a)∧swrlb:startsWith(?a,?z)→hasProperties(?x,?y)】;步骤四:关联书质量评估原型系统搭建:验证本体描述的关联数据质量约束规则,并依据质量约束规则实施对数据集中的某个属性的质量检测;步骤五:进行数据评估服务(1)确定评估领域,对必须的领域特有规则进行添加;(2)根据相关数据集URI进行数据遍历,获取该关联数据集中所有实例的URI,并验证关联数据质量中链接有效性、可用性;(3)根据遍历得到的URI集进行关联数据属性的评估,对于数据项相关方面进行评估;(4)将利用相关规则评估得到的问题数据进行提取和存储,并给出最终评估结果;(5)分析用户对评估结果的满意度,对方法的相关设定进行调整,即用户反馈再生产模式,最终得到标准评估方法及评估结果,便于进行数据清洗。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北石油大学,未经东北石油大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811004187.7/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置