[发明专利]一种用于提升数据质量的数据治理方法在审
| 申请号: | 202111272305.4 | 申请日: | 2021-10-29 |
| 公开(公告)号: | CN113918555A | 公开(公告)日: | 2022-01-11 |
| 发明(设计)人: | 李勋章;柯捷;莫静容;周慧怡 | 申请(专利权)人: | 桂林航天工业学院 |
| 主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22 |
| 代理公司: | 北京沃知思真知识产权代理有限公司 11942 | 代理人: | 袁辰亮 |
| 地址: | 541004 广*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用于 提升 数据 质量 治理 方法 | ||
1.一种用于提升数据质量的数据治理方法,其特征在于,包括以下步骤:
(1)采集待治理数据库中的数据表,将采集的数据表按照统一格式转换成标准格式表;
(2)对转换后的标准格式表内的数据依据时效原则,剔除无关数据,获得时效数据;
(3)在获得的时效数据中剔除赘余数据,获得无赘余数据;
(4)在无赘余数据中预估及补充缺失数据;
(5)将步骤(4)中处理后的数据加入数据库,并对数据进行运行验证,将验证结果与预定结果的比值和误差率进行对比,完全数据治理。
2.根据权利要求1所述的用于提升数据质量的数据治理方法,其特征在于:在所述步骤(2)中,所述的时效原则为数据库中的数据处于待治理的时间段内。
3.根据权利要求1所述的用于提升数据质量的数据治理方法,其特征在于:在所述步骤(3)中,所述的剔除赘余数据的方法为:
提取时效数据中具有相同特征的数据X=(x1,x2,x3,...,xn);求取具有相同特征的数据X=(x1,x2,x3,...,xn)的平均值将数据X分别与预设的对比阈值W进行对比,若P≤W,则对该数据进行保留,否则将该数据剔除,完成剔除赘余数据。
4.根据权利要求3所述的用于提升数据质量的数据治理方法,其特征在于:所述的相同特征的数据X指用于某一特定属性的采集数据。
5.根据权利要求3所述的用于提升数据质量的数据治理方法,其特征在于:所述的预设的对比阈值W为平均值P的α倍,即W=αP,其中α为设定常数。
6.根据权利要求1所述的用于提升数据质量的数据治理方法,其特征在于:在所述步骤S4中,所述的预估及补充缺失数据的方法为:
将k个相连的具有相同特征的数据X做归一化处理;计算获取第i个临近的熵值ti,计算第i个临近的差异度系数Zi,Zi=1-ti,(i=1,2,3,...,k);求取第i个临近的熵值系数,计算出缺失值,将缺失值插入对应的位置。
7.根据权利要求6所述的用于提升数据质量的数据治理方法,其特征在于:所述的归一化处理,其公式为式中,hi表示第i个相邻项与目标项之间的距离。
8.根据权利要求6所述的用于提升数据质量的数据治理方法,其特征在于:所述的计算出缺失值,其计算公式为其中xi为k个相连的具有相同特征的数据的集合。
9.根据权利要求1所述的用于提升数据质量的数据治理方法,其特征在于:在所述步骤(5)中,所述的对数据进行运行验证,是指将验证结果与预定结果的比值和误差率进行对比,若误差率在设定误差范围内,则完成数据治理,若误差率在设定误差范围之外,则重复步骤(1)-(5)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林航天工业学院,未经桂林航天工业学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111272305.4/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





