[发明专利]一种通过标准数据元进行政务数据清洗的方法和系统在审
申请号: | 202010559413.9 | 申请日: | 2020-06-18 |
公开(公告)号: | CN111858567A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 苏荣康;姚伯祥;蒋钰;吴宇龙;陆晓清;李康;吕健;陈峰;赵明亮;倪雯;戎鑫;张成;刘兵;吴荣华;李兴洋;赵海宁 | 申请(专利权)人: | 南京市江宁区信息化管理服务中心;中科曙光南京研究院有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22;G06Q50/26 |
代理公司: | 南京泰普专利代理事务所(普通合伙) 32360 | 代理人: | 窦贤宇 |
地址: | 211100 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通过 标准 数据 进行 政务 清洗 方法 系统 | ||
本发明公开了一种通过标准数据元进行政务数据清洗的方法和系统,属于数据处理技术领域。包括如下步骤:从相关政务网站和商业数据库,收集现有的数据元标准,批量导入系统中,进行分类和维护;给收集的数据表字段,添加中文注释;根据中文注释和数据来源部门提供的信息,匹配标准数据元,修改数据结构,编制数据元字典表;选择字段,匹配数据字典表。本发明通过标准数据元进行政务数据清洗的方法和系统,通过收集不同类型的标准数据元建立政务数据清洗系统,能够有效清洗、汇聚的政务数据。解决了数据利用价值低、难以管理、应用范围窄等问题。
技术领域
本发明属于数据处理技术领域,尤其是一种通过标准数据元进行政务数据清洗的方法和系统。
背景技术
近年来,随着政府信息化项目建设的展开,政府整体信息化水平迅速提升,在各个政府单位手中积累了丰富的业务数据资源,其种类不断丰富、总量呈现爆发性增长,政务大数据体系已经初具雏形。随着数据资源汇集、整合、存储、管理、共享、交换与应用需求的不断增长,当前存在的数据不规范等问题也日益凸显,这些问题最终制约着政务数据资源的应用深度和价值,导致数据利用价值低、难以管理、应用范围窄,这些问题的根源是一些政务系统开发时,没有完全按照相关标准做数据规范建设。
发明内容
发明目的:提供一种通过标准数据元进行政务数据清洗的方法和系统,以解决背景技术中所涉及的问题。
技术方案:一种通过标准数据元进行政务数据清洗的方法和系统,包括:包括如下步骤:
S1、从相关政务网站和商业数据库,收集现有的数据元标准,批量导入系统中,进行分类和维护;
S2、给收集的数据表字段,添加中文注释;
S3、根据中文注释和数据来源部门提供的信息,匹配标准数据元;
S4、根据所匹配数据元标准,修改数据结构;
S5、根据数据元标准,编制数据元字典表;
S6、根据实际情况和数据来源部门提供的信息,编制数据字典表;
S7、选择字段,匹配数据字典表。
作为一个优选方案,所述数据元包括:数据项名称、数据项标识符、中文全拼、说明、字符类型、字符长度、表示词、特性词、表示格式、值域、内部标识符、提交单位及机构信息。
作为一个优选方案,所述数据元导按照描述对象及所属业务进行分类,并组织形成树状结构。
作为一个优选方案,优选的,所述添加中文注释的具体步骤为:根据数据源系统数据库设计文档。
作为一个优选方案,所述数据元维护功能为:支持对数据元进行人工新增、修改及删除操作,可对数据元所有的相关属性进行维护,通过后台维护数据元标准体系
作为一个优选方案,所述匹配标准数据元的步骤为:对数据资源字段进行整理分析及统计,确定字段的提交单位及机构、产生原因、实际含义,并与现有的数据元进行对照,寻找相关联的数据元;对于不确定的数据元,按照统一的流程从提交单位及机构、值域、特性词等方面依次进行分析。
作为一个优选方案,所述修改数据结构为:修改数据表字段名称、字段类型、字段长度;在修改字段长度时,如果出现现有数据长度超出标准字段长度的情况,需要把这些数据分离出,再修改字段长度。
作为一个优选方案,所述编制数据字典表为:根据数据来源部门提供的数据库设计文档编写数据字典表;若没有数据库设计文档,对数据内容进行分类分析编写数据字典表。
本发明还提供一种通过标准数据元进行政务数据清洗的系统,包括如下模块:
数据导入模块,从相关政务网站和商业数据库,收集现有的数据元标准,批量导入系统中,进行分类和维护;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京市江宁区信息化管理服务中心;中科曙光南京研究院有限公司,未经南京市江宁区信息化管理服务中心;中科曙光南京研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010559413.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:EGFR-CD3双功能抗体及其应用
- 下一篇:一种粉末药材干燥混合装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置