[发明专利]一种面向政府数据的数据质量检测方法在审
申请号: | 201811405380.1 | 申请日: | 2018-11-23 |
公开(公告)号: | CN109542886A | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 齐光鹏;张兆勇;闫晓娜;张政昌;田震 | 申请(专利权)人: | 山东浪潮云信息技术有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F17/27;G06Q50/26 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据质量检测 分析维度 人工检测 维度 程序检测 关键数据 检测报告 检测结果 精准统计 灵活选择 数据问题 数据治理 数据资源 政策法规 质量检测 自动检测 发布 | ||
1.一种面向政府数据的数据质量检测方法,其特征在于,包括以下步骤:
(S1)基于政府发布的政策法规,提取出数据质量检测维度,包括目录层面分析维度,数据资源层面分析维度以及关键数据集层面分析维度;
(S2)基于提取出的数据质量检测维度,对政府的开放数据,共享数据,基础库数据,主题库数据,专题库数据,单部门数据和单数据集进行检测,根据数据场景的不同,业务情况的不同,灵活选用工具检测方法或人工检测方法,分析问题产生的原因和造成的影响,划分问题等级,为数据清洗治理提供依据;
(S3)汇总整理检测结果,根据数据质量问题的不同序列图,地图,流程图,矩阵,网状关系图或信息图的展现方式对检测结果进行可视化展示,提供检测报告。
2.根据权利要求1所述的面向政府数据的数据质量检测方法,其特征在于:所述步骤(S1)具体方法为研读政府发布的关于数据的政策法规,以及标准规范和相关文档,提取出数据质量检测维度;所述目录层面分析维度包括对目录名规范性,目录名重复性,目录名含义,目录名长度和核心元数据信息完整性的分析。
3.根据权利要求2所述的面向政府数据的数据质量检测方法,其特征在于:
(1)所述对目录名规范性的分析是指通过分析目录名是否含有特殊字符,是否出现中英文混搭,是否含地名或固定时间来判定;若目录名含有特殊字符,或者出现中英文混搭,含有地名或者固定时间,则认为目录名不规范;
(2)所述对目录重复性的分析是将目录名依据不同的属性进行拆分,分析是否含有相同字段;若含有相同字段,则该类目录可合并,属于重复问题;
(3)所述对目录名含义的分析是指分析目录名含义是否模糊,或者有歧义,当1个以上部门有相同的目录名称时,则判定目录名含义模糊,难以理解;
(4)所述对目录名长度的分析是指分析目录名长度是否过长或者过短,当长度超过20个字符或者低于3个字符均属于目录名长度不规范;
(5)所述对核心元数据信息完整性的分析是指政务数据核心元数据信息缺少任何一个信息项视为不完整;所述政务数据核心元数据信息包括信息资源分类,信息资源名称,信息资源代码,信息资源提供方,信息资源提供方代码,信息资源摘要,信息资源格式,信息项信息,开放与共享属性,更新周期,发布日期和关联资源代码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东浪潮云信息技术有限公司,未经山东浪潮云信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811405380.1/1.html,转载请声明来源钻瓜专利网。