[发明专利]一种基于Flink实现数据格式校验的方法有效
申请号: | 201911034885.6 | 申请日: | 2019-10-29 |
公开(公告)号: | CN110781647B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 王翠;苑晓龙;刘牧 | 申请(专利权)人: | 浪潮云信息技术股份公司 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F16/242;G06F16/2452;G06F16/2455 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 阚恭勇 |
地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 flink 实现 数据格式 校验 方法 | ||
1.一种基于Flink实现数据格式校验的方法,其特征在于,
设定缓存为Flink job的数据源和目的地,自定义Flink对缓存的连接器,其目的是对缓存中的单条json数据进行处理和校验,并将结果发送至缓存;
以缓存作为flink的数据源和数据目的地,增加flink对缓存的连接器,实现从缓存中获取被校验的json数据,并将数据根据SQL进行转换、处理、筛选以及转发至缓存,最后在缓存中获取处理结果,以验证被校验数据是否满足SQL;
根据被校验的json数据获取可暂存该数据格式的数据表结构schema;
设定缓存做为Flink的外部数据源,将被校验的json数据暂存至缓存,并设置key为sourceData;
自定义Flink对缓存的连接器,通过该连接器可直接获取缓存中sourceData对应的数据,并在获取数据后,可直接断开连接;
创建流的执行环境,根据流的执行环境创建表环境,用于注册创建数据源和数据目的地;
在表环境中根据自定义的缓存连接器以及获取的schema注册一个临时数据表,将缓存中的json数据反序列化处理后暂存至该临时表中。
2.根据权利要求1所述的方法,其特征在于,
对该数据表中的数据执行SQL语句,判定数据表中的数据是否满足SQL,如果执行错误,则判定数据不满足SQL,即被校验数据跟SQL不匹配;反之,则判定被校验数据与SQL匹配,并将最后的筛选结果存至缓存,以便后期获取查看。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮云信息技术股份公司,未经浪潮云信息技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911034885.6/1.html,转载请声明来源钻瓜专利网。