[发明专利]数据表标准化方法、装置、设备及计算机存储介质在审
申请号: | 202210320120.4 | 申请日: | 2022-03-29 |
公开(公告)号: | CN114648010A | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 陈银;吕晓;陈立力;周明伟 | 申请(专利权)人: | 浙江大华技术股份有限公司 |
主分类号: | G06F40/18 | 分类号: | G06F40/18;G06F16/2458;G06F16/22 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 杜晶 |
地址: | 310053 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据表 标准化 方法 装置 设备 计算机 存储 介质 | ||
本申请公开了一种数据表标准化方法、装置、设备及计算机存储介质,涉及数据标准化技术领域,用于实现字段名和表名的标准化,且提升了数据标准化的效率,该方法包括:基于待标准化的源数据表的原始表格信息,以及源数据表的数据元对标结果,确定源数据表中包含的业务时间字段;基于原始表格信息进行表格信息识别,确定源数据表对应的表格类别;其中,表格类别包括主题域类别、业务类别以及分区方式类别;基于表格类别,生成源数据表对应的标准化表的标准表名称;基于数据元对标结果、原始表格信息以及业务时间字段,生成标准化表的各个标准数据项;基于标准表名称与各个标准数据项,获得标准化表。
技术领域
本申请涉及计算机技术领域,尤其涉及数据标准化技术领域,提供一种数据表标准化方法、装置、设备及计算机存储介质。
背景技术
随着互联网技术的普及和发展,数据增长速度迅猛,数据种类也愈发繁多,大数据技术和人工智能技术的发展为海量数据的使用提供了基础条件和应用场景。由于各业务系统之间相对独立,并且可能存在录入标准不统一等问题,导致各业务系统内的数据表达方式杂乱不一,给后续的研究使用带来了困难。因此,为了能够更便利的将海量数据投入到研究过程中,挖掘数据价值,数据标准化是必不可少的。
但是,目前的标准化过程通常都是由人工进行调整,尤其是标准化表的字段名和表名称命名耗时耗力。因此,能够自动化实现字段名和表名标准化十分有必要。
发明内容
本申请实施例提供一种数据表标准化方法、装置、设备及计算机存储介质,用于实现字段名和表名的标准化。
一方面,提供一种数据表标准化方法,所述方法包括:
基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段;
基于所述原始表格信息进行表格信息识别,确定所述源数据表对应的表格类别;其中,所述表格类别包括主题域类别、业务类别以及分区方式类别;
基于所述表格类别,生成所述源数据表对应的标准化表的标准表名称;
基于所述数据元对标结果、所述原始表格信息以及业务时间字段,生成所述标准化表的各个标准数据项;
基于所述标准表名称与所述各个标准数据项,获得所述标准化表。
一方面,提供一种数据表标准化装置,所述装置包括:
业务字段识别单元,用于基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段;
表格信息识别单元,用于基于所述原始表格信息进行表格信息识别,确定所述源数据表对应的表格类别;其中,所述表格类别包括主题域类别、业务类别以及分区方式类别;
表命名单元,用于基于所述表格类别,生成所述源数据表对应的标准化表的标准表名称;
数据项命名单元,用于基于所述数据元对标结果、所述原始表格信息以及业务时间字段,生成所述标准化表的各个标准数据项;
标准表生成单元,用于基于所述标准表名称与所述各个标准数据项,获得所述标准化表。
可选的,所述装置还包括自动化对标单元,用于:
针对所述源数据表进行信息提取,获得所述原始表格信息;其中,所述原始表格信息包括所述源数据表的表名称以及字段信息;
针对获得的各所述字段信息分别进行对标处理,确定各所述字段信息各自对应的数据元对标结果,所述数据元对标结果包括各所述字段信息对应的数据元以及限定词。
可选的,所述业务字段识别单元,具体用于:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大华技术股份有限公司,未经浙江大华技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210320120.4/2.html,转载请声明来源钻瓜专利网。