[发明专利]基于hudi快照的医疗数据查询方法及装置有效

专利信息
申请号: 202111312901.0 申请日: 2021-11-08
公开(公告)号: CN114036107B 公开(公告)日: 2023-03-14
发明(设计)人: 秦晓宏;黄主斌 申请(专利权)人: 上海柯林布瑞信息技术有限公司
主分类号: G06F16/14 分类号: G06F16/14;G06F16/11;G06F16/242;G06F16/2455
代理公司: 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 代理人: 何明伦
地址: 200233 上海市徐*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 hudi 快照 医疗 数据 查询 方法 装置
【权利要求书】:

1.一种基于hudi快照的医疗数据查询方法,其特征在于,包括:

基于二次开发的presto查询引擎获取针对hudi医疗数据存储系统的查询请求,所述查询请求中包含sql查询语句、查询模式和查询时刻,所述查询时刻包括任意一个历史时刻,所述查询模式包括所述查询时刻的全量查询和增量查询;

基于所述presto查询引擎确定所述hudi医疗数据存储系统的hudi快照链中生成时刻与所述查询时刻最接近的目标hudi快照,并基于所述目标hudi快照从所述hudi医疗数据存储系统的快照文件库中获取所述查询时刻的全量文件列表和增量文件列表;

基于所述presto查询引擎对所述sql查询语句进行解析得到对应的数据筛选条件,若所述查询模式为所述查询时刻的全量查询,则基于所述数据筛选条件在所述查询时刻的全量文件列表中查询,得到对应的全量医疗数据,若所述查询模式为所述查询时刻的增量查询,则基于所述数据筛选条件在所述查询时刻的增量文件列表中查询,得到对应的增量医疗数据;

其中,所述基于所述目标hudi快照从所述hudi医疗数据存储系统的快照文件库中获取所述查询时刻的全量文件列表和增量文件列表包括:

获取所述目标hudi快照的快照元数据;

基于所述快照元数据,确定所述目标hudi快照中与所述任意一个历史时刻对应的至少一个被重写的快照文件;

从所述快照元数据中获取所述至少一个被重写的快照文件的文件标识和文件时间戳;

基于所述至少一个被重写的快照文件的文件标识和文件时间戳,从所述hudi医疗数据存储系统的快照文件库中获取对应的快照文件,得到所述增量文件列表;

将所述快照文件库中除所述至少一个被重写的快照文件外的快照文件确定为未被重写的快照文件;

从所述快照文件库中,获取同一文件标识的未被重写的快照文件中在所述查询时刻之前文件时间戳最大的快照文件,与所述至少一个被重写的快照文件组合,得到所述全量文件列表。

2.根据权利要求1所述的方法,其特征在于,所述若所述查询模式为所述查询时刻的增量查询,则基于所述数据筛选条件在所述查询时刻的增量文件列表中查询,得到对应的增量医疗数据,包括:

获取所述增量文件列表中医疗数据的时间戳不晚于所述目标hudi快照的生成时刻的医疗数据,得到医疗数据集合;

基于所述数据筛选条件对所述医疗数据集合进行筛选,得到对应的增量医疗数据。

3.根据权利要求1所述的方法,其特征在于,基于所述presto查询引擎对所述sql查询语句进行解析得到对应的数据筛选条件,包括:

对所述sql查询语句进行词法分析和语法分析,得到对应的语法树;

从所述语法树中提取得到适用于所述hudi医疗数据存储系统的所述数据筛选条件。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海柯林布瑞信息技术有限公司,未经上海柯林布瑞信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111312901.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top