[发明专利]一种数据标准处理系统在审
申请号: | 202111520184.0 | 申请日: | 2021-12-13 |
公开(公告)号: | CN114329190A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 张琛;高翔;金鑫;林伟;吴小铭;周宏印;丁铁;江涛;王云哲;周思源 | 申请(专利权)人: | 南京莱斯信息技术股份有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/11;G06F16/22;G06F16/28;G06F40/284 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 贺翔 |
地址: | 210014 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 标准 处理 系统 | ||
本发明公开了一种数据标准处理系统,包括:标准采集模块、标准处理模块、标准治理模块、标准推送模块;所述标准采集模块,用于各类型标准数据的采集;所述标准处理模块,用于对采集到的各类型标准数据进行规范化处理;所述标准治理模块,用于规范化处理后的标准数据的元数据审核及标准订阅服务资源目录生成;所述标准推送模块,用于将通过规则校验的标准数据推送给订阅者。本发明实现了数据标准在项目中的快速获取入库,精准对标,使用场景拓展,为涉及数据标准的各现场项目提供有力支撑。
技术领域
本发明属于数据治理技术领域,具体涉及一种数据标准处理系统。
背景技术
随着标准化建设的持续性开展,各项目中数据标准的重要性得到了进一步体现。而数据标准在项目实施过程中出现了标准获取困难、标准数据更新不及时、标准梳理不完善、标准与业务结合不充分、使用场景狭隘等问题。
现有技术在标准的获取阶段,多采用人工采集的方式,耗时久且准确率低。而在标准的处理上,往往采用布隆过滤器等方法去重,对内存的资源消耗极大,且去重不完全。在服务方面,往往只提供一次数据,对标准的更新实时性差。
发明内容
针对于上述现有技术的不足,本发明的目的在于提供一种数据标准处理系统,以解决现有技术中数据标准采集效率低、处理慢、服务更新不及时等问题。本发明实现了数据标准在项目中的快速获取入库,精准对标,使用场景拓展,为涉及数据标准的各现场项目提供有力支撑。
为达到上述目的,本发明采用的技术方案如下:
本发明的一种数据标准处理系统,包括:标准采集模块、标准处理模块、标准治理模块、标准推送模块;其中,
所述标准采集模块,用于各类型标准数据的采集;
所述标准处理模块,用于对采集到的各类型标准数据进行规范化处理;
所述标准治理模块,用于规范化处理后的标准数据的元数据审核及标准订阅服务资源目录生成;
所述标准推送模块,用于将通过规则校验的标准数据推送给订阅者。
进一步地,所述标准数据的采集方式为:人工采集及互联网采集;
所述互联网采集具体为:部署在客户端的采集器通过HTTP请求向部署在服务端的注册器注册采集地址,注册成功后,注册器将包含采集网页、存储地址、采集周期的配置参数回传采集器;采集器按照配置参数,周期性采集相关网页,并将采集结果存储至服务端目的地址。
进一步地,所述规范化处理具体包括:标准提取与标准去重;
标准提取:对采集到的各类型标准数据进行图像识别,将图片类、报表类数据文件转换为TXT文件;在标准数据处理规则模板中,选择对应模板,对TXT文件进行统一处理,处理过程使用TextRank算法进行文本词素分析;
标准去重:使用现有Key-Value校验方法进行去重,引入外部Key-Value数据库RocksDB作为去重存储数据库,计算上使用Flink计算引擎;使用进行标准提取后的数据,以标准文件名、标准文件编码、字段名、字段中文名四个字段为去重依据,将去重字段进行词素分析,将分析结果作为Key,以标准发布时间作为Value,存储至RocksDB,按批次逐条比对数据;Key值不存在的数据则作为新数据;Key值已存在的数据则比较Value值大小,Value值小的视作过期数据,按Value值大的数据更新,经过去重后的数据,存储至MYSQL数据库对应的原始标准业务表中。
进一步地,所述文本词素分析具体为:按切分的词素从TXT文件各行中,提取与标准有关的内容,进而提取标准文件名、文件编号、业务域、标准详情的信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京莱斯信息技术股份有限公司,未经南京莱斯信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111520184.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置