[发明专利]将数据落地到数据平台的方法、设备和存储介质在审
申请号: | 201810962638.1 | 申请日: | 2018-08-22 |
公开(公告)号: | CN109376149A | 公开(公告)日: | 2019-02-22 |
发明(设计)人: | 毕文智;谢波 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/25 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
地址: | 518000 广东省深圳市福田区益田路503*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据平台 落地 存储介质 应用平台 大数据 整合 解析 读取 服务器获取 时效性要求 数据流 海量数据 数据存储 准实时 数据库 存储 | ||
本公开涉及将数据落地到数据平台的方法、设备和存储介质。所示方法包括:从kafka服务器获取应用平台的数据并存储在指定目录中;去指定目录下读取所述数据,并对所述数据进行解析和整合;将解析和整合后的所述数据存储到数据平台的数据库中。通过本公开的各实施例,能够确保应用平台的海量数据以数据流的形式实时或准实时地落地到大数据平台中,满足了大数据平台的时效性要求。
技术领域
本发明涉及计算机技术领域,特别是涉及一种用于将应用平台的数据落地到数据平台的方法、设备和存储介质。
背景技术
在很多情况下,需要将应用平台的数据落地到系统的大数据平台中,以供以后分析挖掘。在现有技术的一种方案中,应用平台将数据存储到其关系型数据库oracle中,第二天再通过数据同步一次性落地到数据平台。之所以没有将应用平台的数据实时同步到数据平台是因为,实时数据同步对oracle性能影响很大,因此一般采用T+1天(其中,T表示的是当天,T+1表示的是当天之后一天)的方式同步,这使得数据落地到大数据平台的整个过程冗长滞后。
但是,在某些场景下,应用平台的数据及时落地到大数据平台具有重要意义,例如:(1)存储所有历史数据会便于之后对全量数据进行数据统计及挖掘,以发现相应风险点;(2)数据越快落地到大数据平台,就能越早进行数据挖掘,越早发现风险。很多风险点需要及时从数据中挖掘出来,以采取相应措施,如果数据落地时间超过一天则可能造成无法挽回的损失,比如盗卡交易场景。
由此可见,现有技术中将应用平台的数据落地到大数据平台中的方式并不适合具有较高时效性要求的场景。
发明内容
为解决以上问题中的一个或多个,本发明实施例提供了一种用于将应用平台的数据落地到数据平台的方法、设备和存储介质。
根据本公开的第一方面,提供一种用于将应用平台的数据落地到远程数据平台的方法,其包括:
从kafka服务器获取应用平台的数据并存储在指定目录中;
去指定目录下读取所述数据,并对所述数据进行解析和整合;
将解析和整合后的所述数据存储到数据平台的数据库中。
根据一个示例性实施例,在所述从kafka服务器获取应用平台的数据并存储在指定目录中之前,所述方法还包括:
将应用平台产生的数据发送到kafka服务器;
Kafka服务器将所述数据发布到一频道,该频道被数据平台订阅。
根据一个示例性实施例,所述数据平台具有flume服务器,所述从kafka服务器获取应用平台的数据并存储在指定目录中包括:
flume服务器订阅kafka服务器的用于发布应用平台的数据的频道;
flume服务器从所述频道获取所述数据并存储在指定目录中。
根据一个示例性实施例,所述去指定目录下读取所述数据并对所述数据进行解析和整合包括:
对于所述指定目录下的所述数据,按行获取行数据,其中所述数据为Json字符串格式;
对于每条行数据:
将所述行数据解析并映射封装成Java对象DataObject,其中DataObject包含Java的HashMap实例a以及用于根据key从实例a中获取相应值的方法function;
从数据平台的Hive数据库获取用于管理要存储的所述数据的hive表的表属性信息,其中,所述表属性信息保存多个键-值对,每个键-值对中的键为hive表的字段名称,对应的值为该字段在Json字符串中的路径信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810962638.1/2.html,转载请声明来源钻瓜专利网。