[发明专利]数据处理方法和装置、存储介质和电子装置在审
申请号: | 202010062392.X | 申请日: | 2020-01-19 |
公开(公告)号: | CN111241182A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 祝梦遥;李仓良;杨学毅 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 张丽颖;李雪 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 存储 介质 电子 | ||
本申请提供了一种数据处理方法和装置、存储介质和电子装置,其中,该方法包括:从源数据库中读取源数据格式的源数据,其中,源数据库中存储有多个业务的业务数据,源数据为与多个业务中的目标业务对应的业务数据;将源数据转换为中间数据格式的中间数据,其中,中间数据格式为具有层级关系的数据格式;对中间数据进行解析,提取中间数据的目标字段的目标字段信息;将目标字段信息组装为目标数据格式的目标数据;将目标数据保存到目标数据表中,其中,目标数据表用于保存目标数据格式的数据。通过本申请,解决了相关技术中的数据抽取方式存在的由于操作繁琐易出错所导致的业务开发效率很低的问题,简化了数据转换操作,提高了业务开发效率。
技术领域
本申请涉及计算机领域,尤其涉及一种数据处理方法和装置、存储介质和电子装置。
背景技术
目前,基于大数据与云计算,很多业务常常采用HBase等数据库进行海量数据存储。由于一般的HBase存储中常常用二进制的PB格式进行数据存储,且每个Column(列)中存储的信息很多,而在实际业务方使用时,经常需要采用批处理的方式进行读取,如果直接读取整个HBase数据再抽取解析则会造成相当的资源浪费和效率降低,开发和维护成本普遍较高。
因此,在实际应用中,会将业务方使用到的数据部分(可能只占整个HBase数据的很小一部分)预先抽取到Hive中,方便业务方使用。
然而,将HBase数据抽取到Hive的过程是通过PB硬编码的方式实现的,即,每次需要通过修改代码编译打包等一系列方式来增加或者修改Hive中的字段,操作繁琐易出错,导致业务开发效率很低。
因此,相关技术中的数据抽取方式存在由于操作繁琐易出错导致的业务开发效率很低的问题。
发明内容
本申请实施例提供了一种数据处理方法和装置、存储介质和电子装置,以至少解决相关技术中的数据抽取方式存在的由于操作繁琐易出错所导致的业务开发效率很低的问题。
根据本申请实施例的一个方面,提供了一种数据处理方法,包括:从源数据库中读取源数据格式的源数据,其中,源数据库中存储有多个业务的业务数据,源数据为与多个业务中的目标业务对应的业务数据;将源数据转换为中间数据格式的中间数据,其中,中间数据格式为具有层级关系的数据格式;对中间数据进行解析,提取中间数据的目标字段的目标字段信息;将目标字段信息组装为目标数据格式的目标数据;将目标数据保存到目标数据表中,其中,目标数据表用于保存目标数据格式的数据。
可选地,在从源数据库中读取源数据格式的源数据之前,上述方法还包括:读取配置信息,其中,配置信息包括:用于表示目标字段在中间数据格式中的路径的路径信息;根据路径信息,构建与中间数据格式对应的解析器,其中,解析器用于从中间数据中提取目标字段信息。
可选地,配置信息还包括用于表示目标数据表的数据表信息,在读取配置信息之后,上述方法还包括:根据数据表信息,构建目标数据表模式的目标数据表,其中,目标数据表模式与目标数据格式对应。
可选地,对中间数据进行解析,提取中间数据的目标字段的目标字段信息包括:使用解析器对中间数据进行解析,按照JSON路径提取中间数据的目标字段的目标字段信息,其中,中间数据格式为JSON格式,JSON路径为JSON格式中与目标业务对应的目标字段的路径。
根据本申请实施例的另一个方面,提供了一种数据处理装置,包括:第一读取单元,用于从源数据库中读取源数据格式的源数据,其中,源数据库中存储有多个业务的业务数据,源数据为与多个业务中的目标业务对应的业务数据;转换单元,用于将源数据转换为中间数据格式的中间数据,其中,中间数据格式为具有层级关系的数据格式;提取单元,用于对中间数据进行解析,提取中间数据的目标字段的目标字段信息;组装单元,用于将目标字段信息组装为目标数据格式的目标数据;保存单元,用于将目标数据保存到目标数据表中,其中,目标数据表用于保存目标数据格式的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010062392.X/2.html,转载请声明来源钻瓜专利网。