[发明专利]基于hudi快照的医疗数据查询方法及装置有效
| 申请号: | 202111312901.0 | 申请日: | 2021-11-08 |
| 公开(公告)号: | CN114036107B | 公开(公告)日: | 2023-03-14 |
| 发明(设计)人: | 秦晓宏;黄主斌 | 申请(专利权)人: | 上海柯林布瑞信息技术有限公司 |
| 主分类号: | G06F16/14 | 分类号: | G06F16/14;G06F16/11;G06F16/242;G06F16/2455 |
| 代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 何明伦 |
| 地址: | 200233 上海市徐*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 hudi 快照 医疗 数据 查询 方法 装置 | ||
1.一种基于hudi快照的医疗数据查询方法,其特征在于,包括:
基于二次开发的presto查询引擎获取针对hudi医疗数据存储系统的查询请求,所述查询请求中包含sql查询语句、查询模式和查询时刻,所述查询时刻包括任意一个历史时刻,所述查询模式包括所述查询时刻的全量查询和增量查询;
基于所述presto查询引擎确定所述hudi医疗数据存储系统的hudi快照链中生成时刻与所述查询时刻最接近的目标hudi快照,并基于所述目标hudi快照从所述hudi医疗数据存储系统的快照文件库中获取所述查询时刻的全量文件列表和增量文件列表;
基于所述presto查询引擎对所述sql查询语句进行解析得到对应的数据筛选条件,若所述查询模式为所述查询时刻的全量查询,则基于所述数据筛选条件在所述查询时刻的全量文件列表中查询,得到对应的全量医疗数据,若所述查询模式为所述查询时刻的增量查询,则基于所述数据筛选条件在所述查询时刻的增量文件列表中查询,得到对应的增量医疗数据;
其中,所述基于所述目标hudi快照从所述hudi医疗数据存储系统的快照文件库中获取所述查询时刻的全量文件列表和增量文件列表包括:
获取所述目标hudi快照的快照元数据;
基于所述快照元数据,确定所述目标hudi快照中与所述任意一个历史时刻对应的至少一个被重写的快照文件;
从所述快照元数据中获取所述至少一个被重写的快照文件的文件标识和文件时间戳;
基于所述至少一个被重写的快照文件的文件标识和文件时间戳,从所述hudi医疗数据存储系统的快照文件库中获取对应的快照文件,得到所述增量文件列表;
将所述快照文件库中除所述至少一个被重写的快照文件外的快照文件确定为未被重写的快照文件;
从所述快照文件库中,获取同一文件标识的未被重写的快照文件中在所述查询时刻之前文件时间戳最大的快照文件,与所述至少一个被重写的快照文件组合,得到所述全量文件列表。
2.根据权利要求1所述的方法,其特征在于,所述若所述查询模式为所述查询时刻的增量查询,则基于所述数据筛选条件在所述查询时刻的增量文件列表中查询,得到对应的增量医疗数据,包括:
获取所述增量文件列表中医疗数据的时间戳不晚于所述目标hudi快照的生成时刻的医疗数据,得到医疗数据集合;
基于所述数据筛选条件对所述医疗数据集合进行筛选,得到对应的增量医疗数据。
3.根据权利要求1所述的方法,其特征在于,基于所述presto查询引擎对所述sql查询语句进行解析得到对应的数据筛选条件,包括:
对所述sql查询语句进行词法分析和语法分析,得到对应的语法树;
从所述语法树中提取得到适用于所述hudi医疗数据存储系统的所述数据筛选条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海柯林布瑞信息技术有限公司,未经上海柯林布瑞信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111312901.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种Linux服务器内核快速配置方法
- 下一篇:电机自动组装机及其组装方法





